테크놀로지, 과학

30배 더 빠른 AI 이미지 생성기

Cest La Vie :) 2024. 3. 27. 14:35

 

새로운 AI 모델에 기존 이미지 생성기를 모방하도록 가르치는

'분포 매칭 증류(DMD)'라는 기술을 고안

 

과학자들은 DALL-E 3 및 Stable Diffusion과 같은 생성형 AI 시스템을 품질 저하 없이 더 작은 모델로 압축하여 크게 향상시킬 수 있는 프레임워크를 구축했습니다.

 

 

인기 있는 인공지능(AI) 기반 이미지 생성기는 전체 100단계 프로세스를 한 단계로 압축하는 기술 덕분에 최대 30배 더 빠르게 실행할 수 있다는 새로운 연구 결과가 발표되었습니다.

 

과학자들은 '분포 매칭 증류(DMD)'라는 기술을 고안하여 새로운 AI 모델에 DALL-E 3, 미드저니, 안정적 확산과 같은 확산 모델로 알려진 기존 이미지 생성기를 모방하도록 가르쳤습니다.

 

이 프레임워크는 최종 이미지의 품질은 동일하게 유지하면서 훨씬 더 빠르게 이미지를 생성할 수 있는 더 작고 간결한 AI 모델을 만들어냅니다. 과학자들은 2023년 12월 5일 사전 인쇄 서버인 arXiv에 업로드된 연구에서 연구 결과를 자세히 설명했습니다.

 

이 연구의 공동 수석 저자이자 MIT의 전기공학 및 컴퓨터공학 박사 과정 학생인 Tianwei Yin은 성명에서 "우리의 연구는 안정 확산 및 DALLE-3와 같은 현재의 확산 모델을 30배나 가속화하는 새로운 방법입니다."라고 말했습니다. "이러한 발전은 계산 시간을 크게 단축할 뿐만 아니라 생성된 시각적 콘텐츠의 품질을 뛰어넘지는 못하더라도 유지합니다.

 

확산 모델은 다단계 프로세스를 통해 이미지를 생성합니다. 설명 텍스트 캡션과 기타 메타데이터가 포함된 이미지를 학습 데이터로 사용하여 AI는 이미지의 맥락과 의미를 더 잘 이해하도록 학습되므로 텍스트 프롬프트에 정확하게 응답할 수 있습니다.

 

실제로 이러한 모델은 무작위 이미지를 가져와 무작위 노이즈 필드로 인코딩하여 파괴하는 방식으로 작동하며, 이를 "순방향 확산"이라고하며 훈련 과정의 핵심 단계라고 AI 과학자 Jay Alammar는 블로그 게시물에서 설명했습니다. 다음으로, 이미지가 최대 100단계의 과정을 거쳐 노이즈를 제거하는 '역확산'이라는 과정을 거쳐 텍스트 프롬프트에 따라 선명한 이미지를 생성합니다.

 

과학자들은 새로운 프레임워크를 새로운 모델에 적용하고 이러한 '역확산' 단계를 한 단계로 줄임으로써 이미지를 생성하는 데 걸리는 평균 시간을 단축했습니다. 한 테스트에서 이 모델은 안정적 확산 v1.5를 사용하여 이미지 생성 시간을 약 2,590밀리초(또는 2.59초)에서 28.8배 빠른 90밀리초로 단축했습니다.

 

DMD에는 모델이 사용 가능한 이미지를 출력하기 전에 필요한 반복 횟수를 줄이기 위해 함께 작동하는 두 가지 구성 요소가 있습니다. 첫 번째는 '회귀 손실'로, 학습 중에 유사성을 기반으로 이미지를 정리하여 AI가 더 빠르게 학습할 수 있도록 합니다. 두 번째는 '분포 매칭 손실'로, 예를 들어 사과를 한 입 베어 물었을 때 사과를 묘사할 확률을 현실 세계에서 사과를 마주칠 확률과 일치시키는 것입니다. 이러한 기술을 함께 사용하면 새로운 AI 모델이 생성하는 이미지가 얼마나 이상하게 보이는지 최소화할 수 있습니다.

 

공동 수석 저자인 프레도 듀란드(Fredo Durand) MIT 전기공학 및 컴퓨터공학 교수는 성명에서 "반복 횟수를 줄이는 것은 확산 모델이 처음 등장한 이래로 성배와도 같은 과제였습니다."라고 말했습니다. "마침내 단일 단계 이미지 생성이 가능해져 컴퓨팅 비용을 획기적으로 절감하고 프로세스를 가속화할 수 있게 되어 매우 기쁩니다."

 

새로운 접근 방식은 기존 확산 모델의 "수백 단계의 반복적인 개선"과 달리 단 한 단계만 필요하기 때문에 이미지 생성에 필요한 컴퓨팅 파워를 획기적으로 줄여준다고 인은 설명합니다. 또한 이 모델은 매우 빠르고 효율적인 생성이 중요한 산업에서 이점을 제공할 수 있어 훨씬 더 빠른 콘텐츠 제작으로 이어질 수 있다고 과학자들은 말합니다.

 

 

 

 

 

출처.

 

MIT scientists have just figured out how to make the most popular AI image generators 30 times faster

Scientists have built a framework that gives generative AI systems like DALL·E 3 and Stable Diffusion a major boost by condensing them into smaller models — without compromising their quality.

www.livescience.com