Decoupled Diffusion Transformers: 고해상도 이미지 생성의 속도와 품질을 동시에 높이다
딥러닝 기반 이미지 생성 기술은 매년 큰 발전을 이루고 있으며, 최근 몇 년 사이 가장 주목받는 기술 중 하나는 바로 디퓨전 모델(Diffusion Models)입니다. 특히, GAN(Generative Adversarial Networks)이나 오토리그레시브(Autoregressive) 모델을 뛰어넘는 품질을 보여주며 텍스트 기반 생성에도 활발히 활용되고 있습니다. 하지만, 그 놀라운 성능에도 불구하고 디퓨전 모델은 시간과 자원을 많이 소모하는 고질적인 학습 속도 문제가 있었습니다.
이러한 한계를 개선하기 위해 중국 난징대학교(Nanjing University)와 ByteDance 연구소는 새로운 접근법인 DDT(Decoupled Diffusion Transformer)를 제안했습니다. 본 기술은 기존의 디퓨전 트랜스포머가 안고 있던 구조적 모순, 즉 하나의 모듈이 동시에 의미론적 정보(semantic)와 세부 이미지(고빈도 디테일)를 처리해야 하는 부담을 해결하고자 했습니다. 이번 글에서는 이 연구의 핵심 개념인 “디커플링(분리)”이 왜 중요한지, 그리고 진화한 디퓨전 모델이 실제로 어떻게 이미지 생성 속도와 품질을 동시에 향상시키는지를 살펴봅니다.
1. 디퓨전 트랜스포머란 무엇인가?
디퓨전 모델은 이미지를 점진적으로 노이즈로 변형하는 "정방향(diffusion)" 과정과, 이후 학습을 통해 노이즈를 제거하며 원본 이미지를 복원하는 "역방향(denoising)" 과정을 거쳐 학습합니다. 초기에는 U-Net 기반 구조가 주로 사용됐지만, 최근에는 트랜스포머(Transformer) 구조를 접목하여 더 나은 성능을 달성하고자 하는 시도가 활발합니다.
- UNet 기반 모델: 고해상도 이미지에 적합, 하지만 확장성 부족
- Diffusion Transformer (DiT): 트랜스포머 기반의 대규모 모델로, 장기 의존성과 텍스트-이미지 정렬 적합성 개선
이러한 트랜스포머 기반 아키텍처는 성능은 뛰어나지만, 훈련 시간과 자원 사용량이 지나치게 크다는 문제가 있습니다. 이는 이미지 생성의 각 단계마다 동일한 모듈이 의미 정보(낮은 주파수)와 고주파 상세 정보(세부 디테일) 모두를 처리하기 때문입니다.
2. DDT: 분리된 디퓨전 트랜스포머 - 구조적 병목을 타파하다
Decoupled Diffusion Transformer (DDT)은 기존 디퓨전 트랜스포머의 비효율 문제를 해결하기 위해 구조를 두 개의 모듈로 나눕니다.
- 조건 인코더 (Condition Encoder): 이미지의 저주파 의미 정보를 추출
- 속도 디코더 (Velocity Decoder): 고주파 세부 디테일을 생성
이렇게 구조를 분리하면, 모듈 간 역할 분담이 명확해져 서로 다른 특성을 가진 정보(예: 의미 vs 디테일)를 더욱 효과적으로 처리할 수 있게 됩니다. 특히, 디코더는 인코더가 생성한 의미 정보 zt를 기반으로 이미지를 빠르고 정교하게 복원하게 설계되었습니다.
3. 학습 성능과 속도는 실제 얼마나 향상되었을까?
DDT-XL/2는 공개 이미지 데이터셋인 ImageNet 256x256 및 512x512 환경에서 현재까지 가장 뛰어난 FID(Frechet Inception Distance) 점수인 각각 1.31과 1.28을 기록하며 새로운 기준을 세웠습니다. 특히 학습 속도에서는 기존 고성능 트랜스포머 기반 디퓨전 모델보다 최대 4배 빠른 수렴 속도를 보여주었습니다.
- 훈련 환경: 256 이미지 기준 배치 사이즈 256, VAE-ft-EMA, Euler sampling 방식
- 성능 지표: FID, sFID, IS, Precision 및 Recall
- 성능 향상 기술: SwiGLU, RMSNorm, RoPE, Lognorm sampling 등의 최적화
이러한 성능 향상은 단순한 구조 분리뿐 아니라, 디코더와 인코더의 용량 비율 조정, 반복학습을 통한 self-conditioning 전략, 그리고 특정 시점에서 인코더 출력을 공유하는 다이나믹 프로그래밍 기반의 최적화 기법 덕분에 가능했습니다.
4. 공유 인코딩의 개념 - 효율을 위한 열쇠
DDT는 반복적인 디노이징 과정에서도 매 스텝마다 새로운 조건 인코딩을 하지 않고, 일정한 간격에서 공유된 인코딩 zt를 재사용합니다. 이 접근 방식은 추론(inference) 단계에서 계산량을 대폭 줄이면서도 출력 품질에 거의 영향을 주지 않음이 입증되었습니다. 다이나믹 프로그래밍을 사용하면, 가장 성능 손실이 적은 인코딩 재사용 지점을 자동으로 선정할 수 있습니다.
5. 관련 생태계에서의 영향력
이미지 생성 기술의 발전은 텍스트-이미지 생성 (예: DALL·E 3, Midjourney), 비디오 생성 (Runway, Sora), 그리고 메타버스, 게임 디자인, 광고 콘텐츠까지 광범위하게 영향을 끼치고 있습니다. 특히 DDT와 같이 트랜스포머의 확장성과 신뢰성을 확보하면서 리소스를 절감하는 기술은 클라우드 및 엣지 디바이스에서도 실시간 이미지 생성이 가능하다는 점에서 중요합니다.
6. 유사 기술과 비교
| 모델 | FID Score | 수렴 속도 | 아키텍처 특징 |
|---|---|---|---|
| SGM | 2.84 | 보통 | UNet 기반 |
| DiT | 1.77 | 느림 | 트랜스포머 통합 |
| DDT-XL/2 | 1.28 | 매우 빠름 (×4 가속) | 인코더-디코더 분리 |
7. 결론: 디퓨전 AI의 미래를 위하여
DDT는 단순한 성능 향상을 넘어서, 이미지 생성 과정의 전략적 구조 최적화를 통해 또 한 번의 혁신을 만들어냈습니다. 이 기술은 텍스트 기반 생성, 비디오 생성, 메타버스 콘텐츠 제작 등의 다양한 산업 영역에 활용될 가능성이 높습니다. 특히 GPU 비용이 급등하고 있는 현재 시장 환경에서, DDT처럼 효율성과 정확성을 동시에 만족시킬 수 있는 구조는 더욱 주목받을 수밖에 없습니다.
더 많은 기술 논문 요약, 최신 AI 트렌드, 오픈소스 코드, 실시간 연구 분석은 MarkTechPost 홈페이지에서 확인할 수 있습니다. 또한 미니 컨퍼런스(MiniCON 2025)에서는 실제 구현 사례, 코드 워크숍을 포함해 무료로 참여 가능합니다.
🔗 관련 링크
- 📄 논문 전문 보기 (DDT: Decoupled Diffusion Transformers)
- 🖼 최신 컴퓨터 비전 기사 모음
- 📰 Marktechpost - AI 뉴스 허브
- 🎓 MiniCON 2025 무료 등록
AI 이미지 생성 시대, 속도와 품질을 모두 잡을 수 있는 기술이 필요할 때, DDT는 그 해답이 될 수 있습니다.
https://youtube.co.kr/@unganimation-u2j