Project



Ongoing Projects


1. 플러그앤플레이 (P&P) 칩렛 인티그레이션 연구센터 (ERC)

(Plug & Play (P&P) chiplet Integration Research Center)

2024.08.01 ~ 2030.04.30

글로벌 선도연구센터

본 연구는 다중 칩렛 시스템에서 메모리 병목 현상을 완화하고 데이터 접근을 효율적으로 처리할 수 있는 공유 캐시 구조를 연구함. 기존 시스템에서의 공유 캐시를 칩렛 구조에 적용하였을 시 발생할 수 있는 문제점에 대한 분석을 토대로 최적의 캐시 구조를 찾는 것을 목표로 함.

Picture


Fold

Publications:
  • "Enhancing IOMMU Efficiency in Heterogeneous SoCs: A Study on Cache Policy Impacts" ICEIC'25
  • "AACD: Adaptive Allocation Strategies for High-Efficiency Last Level Cache Design" ICEIC'25
  • "COSMOS: An LLC Contention Slowdown Model for Heterogeneous Multi-core Systems" ISPASS'25
  • "PIMFY: Eliminating Remote Page Walks in MCM GPUs" ICCD'25
  • "BitL: Hybrid Bit-Serial and Parallel Deep Learning Accelerator for Critical Path Reduction" MICRO'25

2. LLM 서버 시스템 내 고비용 GPU 최소화를 위한 혁신적 메모리 계층 구조 연구 (중견)

(A Memory Hierarchy Design for Minimizing Number of GPUs in LLM Server System)

2024-05-01 ~ 2027-04-30

한국연구재단

본 연구는 Multi-GPU 서버 환경에서 LLM을 실행할 때 메모리 사용량에 비하여 떨어지는 연산 효율성 문제로 인하여 GPU 하드웨어의 비용 낭비를 해결하기 위해 GPU 및 PIM, 메모리 계층 구조, 분산 시스템을 활용하는 방법을 연구함. 이를 통하여 다중 메모리 계층 구조에서 각 계층 별로 연산기를 포함하는 전체 시스템의 최적화된 구조를 개발하는 것을 목표로 함.

Picture

Publications:
  • "MaxiMoff: Designing Matrix Multiplication Accelerator for Effective Multiply-Add Operations Offloading" TETC 2025
  • "Marching Page Walks: Batching and Concurrent Page Table Walks for Enhancing GPU Throughput" HPCA'25
  • "DEPrune: Depth-wise Separable Convolution Pruning for Maximizing GPU Parallelism" NeurIPS'24
  • "HashScape: Leveraging Virtual Address Dynamics for Efficient Hashed Page Tables" TC'25
  • "REDIT: Redirection-Enabled Memory-Side Directory Architecture for CXL Memory Fabric" CAL'25
  • "이기종 메모리 시스템에서의 원격 메모리 접근이 어플리케이션 성능에 미치는 영향 분석" 전자공학회논문지 2025

3. LLM 가속을 위한 CXL 기반 PNM 아키텍처 및 시뮬레이션 플랫폼 개발 (산기평)

(Development of CXL-based PNM Architecture and Simulation Platform for LLM Acceleration)

2024-04-01 ~ 2026-12-31

한국산업기술기획평가원

본 연구는 LLM과 같은 대규모의 데이터 처리에 특화된 CXL 기반 PNM 아키텍처를 설계하고 이에 병행하는 CXL 디바이스 및 시스템을 구축하고자 함. 궁극적으로 LLM을 가속하는 CXL 인터페이스 기반의 PNM 아키텍처 및 시뮬레이션 플랫폼을 개발하는 것을 목표로 함.


Publications:
  • "Analyzing Deep Learning for Efficient Kernels Operation Offloading in Processing-In-Memory" ICCE_ASIA'24
  • "Warped-Compaction: Maximizing GPU Register File Bandwidth Utilization via Operand Compaction" HPCA'25
  • "A4: Microarchitecture-Aware LLC Management for Datacenter Servers with Emerging I/O Devices" ISCA'25
  • "UPP: Universal Predicate Pushdown to Smart Storage" ISCA'25

4. 시뮬레이션 기반 고속/고정확도 데이터센터 워크로드/시스템 분석 플랫폼 개발 (IITP)

2024-04-01 ~ 2027-12-31

정보통신기획평가원

본 연구는 데이터 센터에서 대규모 인공지능 워크로드를 최적으로 실행하기 위한 NPU, PIM 등의 AI 반도체를 탑재하는 단일 서버 시스템 하드웨어 구성을 도출하기 위한 고속/고정밀 시뮬레이션/프로파일링 플랫폼 개발하고자 함.


Publications:
  • "Reconstructing Out-of-Order Issue Queue" MICRO'22
  • "R2D2: Removing ReDunDancy Utilizing Linearity of Address Generation in GPUs" ISCA'23
  • "Context Swap: Multi-PIM System Preventing Remote Memory Access for Large Embedding Model Acceleration" AICAS'23
  • "AirGun: Adaptive Granularity Quantization for Accelerating Large Language Models" ICCD'24
  • "Exploring CXL-SSD Challenges on Cache Underutilization" JSTS 2025
  • "Softmax 연산 가속을 위한 Tensor Core 구조 설계" 전자공학회논문지 2025

5. 초거대 AI Training을 위한 Memory System Architecture 연구 (하이닉스)

2024-02-01 ~ 2026-01-31

SK하이닉스

본 연구는 초거대 AI model training에 적합한 memory system 구조 및 효율적인 활용 방안 탐색을 목표로 함. AI model training 시 발생하는 메모리 병목현상을 해결하고 효율적으로 연산을 수행할 수 있는 시스템을 구축하고자 함. 기존 GPU가 활용하는 HBM과 추후 활용될 second tier memory를 효율적으로 활용하여 AI training을 저비용 고효율 시스템을 통해 진행하고자 함.


6. 재구성형 PIM 디바이스 기반의 Memory-Centric 아키텍처 개발 (재구성 PIM)

(Memory-Centric Architecture Using the Reconfigurable PIM Devices)

2022-04-01 ~ 2028-12-31

정보통신기획평가원

본 연구는 범용성과 확장성을 가지면서 엣지, 모바일, 서버 등 다양한 응용 분야에 PIM을 적용하기 위한 PIM 디바이스 내의 H/W 재구성과 다중 애플리케이션을 대용량 메모리에서 효율적으로 저장하고 연산하기 위한 S/W 재구성을 기반으로 한 memory-centric 아키텍처를 개발하는 것을 목표로 함.


Publications:
  • "Early-Adaptor: An Adaptive Framework for Proactive UVM Memory Management" ISPASS'23
  • "Ditto: Accelerating Diffusion Model via Temporal Value Similarity" HPCA'25
  • "REDIT: Redirection-Enabled Memory-Side Directory Architecture for CXL Memory Fabric" CAL'25

7. In-DRAM PIM 기반 온 디바이스 AI 가속 기술 연구 (삼성 PIM)

2025.03.01 ~ 2028.02.29

삼성전자

본 과제는 AESPA와 PipePIM 기술을 FPGA로 구현하여 삼성전자의 엑시노스 AP 플랫폼과 연동시켜, In-DRAM PIM 기술의 성능과 에너지 효율을 정밀하게 평가하고 상품화 가능성을 검증함.


Publications:
  • "MaxiMoff: Designing Matrix Multiplication Accelerator for Effective Multiply-Add Operations Offloading" TETC 2025

8. 고속인터페이스기반 프로그래머블 컴퓨팅 아키텍처 PIM 메모리 반도체 기술 개발 (CXL-PIM)

2025.04.01 ~ 2028.12.31

정보통신기획평가원

본 과제는 CXL 인터페이스 기반으로 메인 메모리로 활용 가능하면서 인메모리 PIM 및 근접메모리 가속기가 융합된 PIM 플랫폼 및 시스템 구성 기술을 개발함.


9. 메모리 중심 AI Computing 시스템 운영체제 연구 (삼성 NPRC)

2025.05.01 ~ 2027-04-30

SAIT

본 과제를 통해 메모리 중심 AI Computing 시스템의 성능과 효율성을 입증하고 기존 GPU 기반 시스템의 한계를 극복할 수 있는 기술 및 경제적 차별성을 구체화함. 메모리 자원의 효율적 활용을 위한 운영체제 연구 기법을 고도화함으로써, 다양한 AI 워크로드에 대응 가능한 확장형 시스템 환경을 실현.


Finished Projects

  1. 양자 펄스 적용 시간 단축을 위한 양자 최적 제어 프레임워크 연구, 한국연구재단
    (Research on Quantum Pulse Latency Reduction through Quantum Optimal Control Framework)
    2023-10-01 ~ 2025-12-31

  2. 데이터 플로우 구조 기반 PIM의 실행 및 프로그래밍 모델 개발, 정보통신기획평가원
    (Development of PIM Soft-ware Architecture based on Data-Flow Computing)
    2022-04-01 ~ 2025-12-31

  3. Data-Intensive Application을 고려한 Scalable SCM계층 구조 연구, 삼성전자
    2020-09-16 ~ 2025-09-15

  4. CPU 성능 탐색을 위한 프레임워크 개발 연구, 삼성전자
    (Develop a framework for CPU performance exploration)
    2024-07-15 ~ 2025-07-15

  5. 클라우드 및 AI용 서버를 위한 차세대 DPU 아키텍처 및 내부 기술 개발, 한국산업기술평가관리원
    (Development of DPU architecture and internal function for cloud and AI servers)
    2022-04-01 ~ 2024-12-31

  6. 초거대 큐빗 규모의 양자 알고리즘 검증 및 테스트를 지원하는 고속 양자 회로 시뮬레이터 개발, 현대엔지비
    (Developing a High-Speed Quantum Circuit Simulator Supports Verification and Testing of Hyperscale Quantum Algorithms)
    2024-03-01 ~ 2024-10-31

  7. 고성능 Multi-GPU 시스템을 위한 메모리 시스템 연구, 한국연구재단
    (Development of High Performance Multi-GPU Memory System)
    2021-03-01 ~ 2024-02-29

  8. PIM 활용을 위한 SW 플랫폼 개발, 정보통신기획평가원
    (Developing Software Platform for Programming of PIM)
    2021-04-01 ~ 2023-12-31

  9. 슈퍼컴퓨터 CPU를 위한 대규모 병렬연산유닛 구조 개발, ETRI
    (Architectural Exploration of Parallel Execution Processing Units for Supercomputer CPU)
    2020-07-06 ~ 2024-04-25

  10. DRAM 기반 메모리 계층구조 설계 및 응용, 삼성전자
    2020-09-01 ~ 2023-08-31

  11. 큐빗 최적화를 활용한 이기종 다중 노드 양자 시뮬레이터 연구, 삼성전자
    (A Heterogeneous Multi-Node Quantum Simulator with Qubit Optimization)
    2021-06-01 ~ 2023-05-31

  12. 고성능 GPU 워크로드 동작 분석 및 구조 개선, 삼성전자
    2021-05-01 ~ 2022-04-30

  13. 스케줄링 효율 향상을 위한 AI 기반 TWO-STAGE 알고리즘 연구, 삼성전자
    2021-06-22 ~ 2022-04-29

  14. 재구성 가능한 인공신경망 가속기 구현 및 인스트럭션셋 기술개발, 한국산업기술평가관리원
    (Development of Reconfigurable Artificial Neural Network Accelerator and Instruction Set Architecture)
    2017-07-01 ~ 2021-12-31

  15. WARP 명령어 재사용 및 STT-MRAM을 활용한 GPU 데이터 공간 최적화 연구, 한국연구재단
    (GPU Data Space Optimization with Warp Instruction Reuse and STT-MRAMf)
    2018-03-01 ~ 2021-02-28

  16. Data Center 향 Many-core NPU 아키텍처 및 Memory Interface, 삼성전자
    2019-10-01 ~ 2020-09-30

  17. NAND Flash Memory 기반의 Key-Value Store 가속화 기술 개발, 삼성전자
    2015-07-01 ~ 2020-06-30

  18. PIM Core Technology and System Development for Data-intensive Applications, 삼성전자
    2017-03-15 ~ 2020-03-14

  19. CPU-GPU Heterogeneous Computing Simulation 환경 개발, SK하이닉스
    (Development of CPU-GPU Heterogeneous Computing Simulation Environment)
    2019-02-01 ~ 2020-03-04

  20. 인공신경망 워크로드의 성능 분석 및 인공신경망을 위한 에너지 효율적인 Approximate Memory 연구, SK하이닉스
    (Development of Energy-Efficient Approximate Memory for Neural Network Applications)
    2018-07-01 ~ 2019-06-30

  21. HPC 시스템 응용 프로그램 최적화를 위한 개발도구, 미래창조과학부
    (Development of Application Program Optimization Tools for High Performance Computing Systems)
    2016-04-01 ~ 2018-12-31

  22. 차세대 보안 플랫폼용 프로세서 및 메모리 시스템 개발, 삼성전자
    2017-09-01 ~ 2018-08-31

  23. Multi-GPU 기반 고속 Ray-Tracing 엔진 개발, 삼성전자
    (Development of Multi-GPU Based High Speed Ray-Tracing Engine)
    2017-08-21 ~ 2018-08-20

  24. 비정형적/불규칙적 병렬 프로그램의 고속 처리를 위한 GPU 프로세서 구조 연구, 한국연구재단
    (GPU Architectures for Unstructured and Irregular Parallel Programs)
    2015-05-01 ~ 2018-04-30

  25. 저전력 모바일 컴퓨팅 플랫폼 개발, LG전자
    (Development of Low-Power Mobile Computing Platform)
    2014-07-01 ~ 2017-11-30

  26. 차세대 모바일 인텔리전스를 위한 HW 구조 및 IP 개발, 삼성전자
    2016-09-19 ~ 2017-09-18

  27. 인공지능을 위한 고효율 GPU 구조 개발, 한국산업기술평가관리원
    (Development of the High Efficiency GPU Structure for Artificial Intelligence)
    2016-08-01 ~ 2017-07-31

  28. GPU기반 5G 고성능 무선 통신 시뮬레이션 프레임워크 개발, 삼성전자
    2016-08-01 ~ 2017-07-31

  29. 화질 처리 예측 모델링 적용 신 방식 압축 구조 연구, 삼성전자
    2015-07-01 ~ 2017-06-30

  30. OpenStack과 연동하는 GPU 가상화, ETRI
    2016-06-01 ~ 2016-12-31

  31. 데이터 평면 가속화 기능 검증 환경 구축 및 성능 분석, ETRI
    (Constructing a Data Plane Acceleration Verification Environment and Performance Analysis)
    2015-07-01 ~ 2015-12-31

  32. 서버향 프로세서와 DRAM 컨트롤러의 특성 해석을 통한 차세대 솔루션 발굴 및 Real User 환경 구축, 삼성전자
    (Development of Server Solutions Using an Analytic Model of Processors and DRAM Controllers)
    2014-10-01 ~ 2015-09-30

  33. SNS 빅 데이터 기반 실시간 자동 분석 툴 개발, Microsoft / 정보통신산업진흥원
    (Development of a Real-Time Automatic Survey Tool for SNS Big Data)
    2014-10-01 ~ 2015-06-30

  34. 빅데이터의 효율적 분석을 위한 SSD 기반 MapReduce 가속화 기술 개발, 삼성전자
    (Developing SSD-based MapReduce Acceleration Technology for Efficient Analysis of Big Data)
    2013-07-01 ~ 2015-06-30

  35. 상황대응형 분산트랜스코딩 기술을 이용한 저전력 고성능 멀티미디어 콘텐츠관리기술 개발, 산업통상자원부
    (Development of Low Power / High Performance Multimedia Contents Management Method Using Adaptive Distributed Transcoding Technology)
    2012-06-01 ~ 2015-05-31

  36. 트랜잭셔널 메모리 구현을 위한 캐시 및 메모리 구조에 대한 연구, 한국연구재단
    (Cache and Memory Architecture to Implement Transactional Memory)
    2010-05-01 ~ 2015-04-30

  37. 차세대 고성능 멀티미디어 부호화 연구, 삼성전자
    (Research for Next Generation High Performance Multimedia Encoding Method)
    2013-02-01 ~ 2015-02-28

  38. 소프트웨어 기반 고속 패킷 처리 구조 검증 및 성능 분석 연구, ETRI
    (Development of Software-Based Packet Processing Architecture)
    2014-07-01 ~ 2015-01-31

  39. 영상분석을 위한 DSP 가속 기술 개발, 삼성전자
    (Development of DSP Accelerating Technique for Image Analysis)
    2013-12-09 ~ 2014-10-31

  40. Real Workload 특성을 반영한 모바일 시스템 벤치마크 및 시스템 Bottleneck 분석 및 연구, 삼성전자
    (Development of Mobile System Benchmarks and Bottleneck Analysis Tools for Evaluating User Experience)
    2013-07-15 ~ 2014-07-14

  41. 소비 전력 인지를 위한 안드로이드 바인더 구조 확장 및 동적 모니터링 기술 개발, LG전자
    (Development of Power-awareness Android Binder Monitoring and Enhancement Techniques)
    2013-03-01 ~ 2014-2-28

  42. L4+ 통합 가상 서버를 위한 Hypervisor의 최적 자원 할당기법 연구, ETRI
    (Development of Optimized Resource Allocation Policy for Hypervisor on L4+ Unified Virtual Server)
    2013-05-01 ~ 2013-12-31

  43. 저전력 Cache Coherence Protocol 및 Interconnection Network 개발, LG전자
    (Development of Low Power Cache Coherence Protocol and Interconnection Network)
    2012-01-02 ~ 2013-12-31

  44. 모바일 환경을 위한 네트워크 적응형 동영상 스트리밍 솔루션 개발, 지식경제부
    (Network Adaptive Video Streaming Solution for Mobile Environment)
    2012-10-01 ~ 2013-06-30

  45. Web Application Server 환경에서의 Bottleneck 연구 및 해결방안, 삼성전자
    (Development of Web Application Server and Bottleneck Analysis)
    2012-04-09 ~ 2012-10-08

  46. 멀티코어기반 네트워크 Appliance 시스템 드라이버 및 BFT 프로그램 개발 연구, KTNF
    (Development of Device Driver and BFT program for Multicore Network Appliance Systems)
    2011-10-04 ~ 2012-10-03

  47. GPU 가속 인코딩 및 오프로딩을 통한 비디오 트랜스코딩 부하 분산 기법 연구, 지식경제부
    (Load-Balancing of Video Transcoding with GPU-Accelerated Encoding and Computation Offloading)
    2011-11-01 ~ 2012-06-30

  48. 차세대 GPGPU 설계를 위한 인스트럭션 셋 시뮬레이터 개발, 한국연구재단
    (An Instruction Set Simulator for the Next Generation GPGPU)
    2009-05-01 ~ 2012-04-30

  49. 프로파일링 정보를 이용한 Smart Home Gateway 성능의 향상, 삼성전자
    (Improvement the performance of Smart Home Gateway Using Profiling Information)
    2011-06-22 ~ 2012-01-21

  50. 멀티코어에 기반한 이동통신 단말용 SDR 플랫폼 및 칩 개발, ETRI
    (Development of Mobile SDR Platform and Chip Based on Multi-Core System)
    2011-03-01 ~ 2011-11-30

  51. Layer 7 데이터 분석을 이용한 고성능 네트워크 시스템 개발, 산학협동재단
    (Development of High-Performance Network System Using Layer-7 Data Analysis)
    2010-06-01 ~ 2011-05-31

  52. 플로우 생성 엔진 설계 및 성능 분석 연구, ETRI
    (Design of Flow Generation Engine and Performance Analysis)
    2010-05-16 ~ 2011-01-31

  53. 멀티코어에 기반한 이동통신 단말용 SDR 플랫폼 및 칩 개발, ETRI
    (Development of Mobile SDR Platform and Chip Based on Multi-Core System)
    2010-03-01 ~ 2010-11-30

  54. 모바일 웹 렌더링을 위한 병렬 가속 플랫폼 개발, 삼성전자
    (Development of Accelerated Parallel Platform for Mobile Web Rendering)
    2010-01-15 ~ 2010-12-15

  55. GPGPU를 이용한 SEED 알고리즘의 구현 및 성능 향상에 관한 연구, 산학협동재단
    (Implementation and Improving Performance of the SEED Algorithm Using GPGPU)
    2009-06-01 ~ 2010-05-31

  56. 효율적인 충돌 해소 정책을 이용한 트랜잭셔널 메모리에 관한 연구, 한국연구재단
    (Efficient Conflict Management on Hardware Transactional Memory)
    2009-05-01 ~ 2010-04-30

  57. 멀티코어 시스템에 적합한 네트워크 코딩 병렬화 알고리즘 개발, 한국연구재단
    (Parallel Algorithms Development for Network Coding on Multi-Core Systems)
    2008-05-01 ~ 2009-4-30

  58. 핸드셋에 적합한 OpenVG 그래픽 가속기 개발, LG전자
    (Low-Power / High-Performance 2D Vector Graphics Acceleration Architecture for Handsets)
    2008-08-01 ~ 2009-07-31

  59. SEED 블록 암호화 알고리즘의 FPGA 구현, NexG
    (FPGA Implementation of SEED Block Cipher Algorithm)
    2008-06-18 ~ 2008-09-17

  60. CAN통신을 따르는 초소형 지능형 파워 스위치를 위한 임베디드 시스템, 산학협동재단
    (Embedded System with Controller Area Network (CAN) for the Intelligent Power Switch in Automobiles)
    2008-06-01 ~ 2009-05-31