News Feed

생성형 AI 소형 모델 경쟁 본격화…MS, ‘파이-4’ 발표

컨텐츠 정보

  • 조회 710

본문

마이크로소프트는 음성, 시각, 텍스트를 기기에서 로컬로 처리할 수 있는 새로운 AI 모델을 도입했으며, 이 모델은 이전 모델보다 적은 컴퓨팅 용량을 사용한다고 말했다.

생성형 인공지능의 혁신은 대형 데이터센터에서 실행되는 대형 언어 모델(LLM)에만 국한되지 않는다. 휴대폰, 노트북, 기타 엣지 컴퓨팅 기기와 같이 자원이 제한된 기기에서 실행될 수 있는 소형 언어 모델(SLM)과 관련된 작업도 많이 진행되고 있다.

마이크로소프트는 12월에 소형 모델인 파이(Phi)라는 제품군을 발표하고 이제 4세대를 출시했다.

이제 파이 제품군에 새로운 두 가지가 추가된다. 파이-4-멀티모달과 파이-4-미니는 다른 제품과 마찬가지로, MIT 라이선스 하에 애저 AI 파운드리(Azure AI Foundry), 허깅페이스, 엔비디아 API 카탈로그에서 제공될 예정이다.

파이-4-멀티모달은 혼합 LoRA 기술을 사용해 음성, 시각, 언어를 동시에 처리하는 56억 개의 매개변수 모델이다. LoRA(Low-Rank Adaptations)는 모든 매개변수에 걸쳐 미세 조정하지 않고 특정 작업을 위해 대형 언어 모델의 성능을 향상시키는 기술이다. LoRA를 사용하면 모델 개발자가 더 적은 새로운 가중치를 모델에 삽입하고 훈련시키므로, 프로세스가 더 빠르고 메모리 효율적이며, 저장 및 공유가 더 쉬운 더 가벼운 모델을 만들 수 있다.

파이-4-멀티모달은 LoRA로 저지연 추론 기능을 갖춘 효율적인 모델로 강화되어 기기 내 실행과 계산 오버헤드 감소에 최적화된다.

사용례로는 스마트폰, 자동차에서 로컬로 모델을 사용하는 경우, 다국어 금융 서비스 앱과 같은 가벼운 엔터프라이즈 애플리케이션을 실행하는 경우가 있다.

여러 전문가는 피트-4-멀티모달이 개발자, 특히 모바일 기기나 리소스가 제한된 기기를 위한 AI 기반 애플리케이션을 개발하려는 개발자의 지평을 넓혀줄 것이라고 말했다.

포레스터의 부사장 찰리 다이는 “파이-4-멀티모달은 텍스트, 이미지, 오디오 처리와 강력한 추론 기능을 통합해 개발자와 기업을 위한 AI 애플리케이션을 다재다능하고 효율적이며 확장 가능한 솔루션”이라고 말했다.

에베레스트 그룹의 파트너 유갈 조시는 컴퓨팅 제약이 있는 환경 전반에 걸쳐 배포될 수 있지만, 모바일 기기는 대부분의 생성형 AI 사용례를 구현하는 데 적합하지 않다고 말했다. 그러나 새로운 SLM이 마이크로소프트가 딥시크에서 영감을 얻었다는 신호로 보며, 모델을 실행하기 위한 대규모 컴퓨팅 인프라의 필요성도 줄어들 것이라고 생각한다고 말했다.

벤치마크 측면에서, 파이-4-멀티모달은 제미나이-2.0-플래시와 GPT-4o-리얼타임 프리뷰와 비교할 때 음성 QA 작업에서 성능 격차가 있다.

마이크로소프트는 파이-4 모델이 크기가 작기 때문에 사실에 기반한 질의응답 지식을 유지하는 능력이 떨어지지만, 향후 반복 작업에서 이 기능을 개선하기 위한 작업이 진행 중이라고 밝혔다.

파이-4-멀티모달은 수학 및 과학 추론, 광학 문자 인식(OCR), 시각 과학 추론에서 제미나이-2.0-플래시 라이트, 클로드-3.5-소네트 등 인기 있는 LLM을 능가한다.

파이-4-미니는 최대 12만 8,000개의 토큰 시퀀스를 지원하는 고밀도 디코더 전용 트랜스포머를 기반으로 하는 38억 개의 파라미터 모델이다.

마이크로소프트의 생성형 AI 담당 부사장 웨이주 첸은 블로그 포스트에서 두 가지 새로운 파이-4 모델을 설명하며 “작은 크기에도 불구하고 추론, 수학, 코딩, 지시 사항 따르기, 함수 호출 등 텍스트 기반 작업에서 더 큰 모델보다 우수한 성능을 계속 발휘하고 있다”라고 밝혔다.

IBM도 그래닛 모델 업데이트

이와는 별도로, IBM은 그래닛 3.2 2B와 8B 모델의 형태로 기초 모델인 그래닛 제품군을 업데이트했다.

IBM은 새로운 모델이 개선된 추론 기능을 통해 더 향상된 사고 과정을 제공한다고 밝혔다.

또한, IBM은 문서 이해 작업을 위한 새로운 비전 언어 모델(VLM)을 공개했다. 이 모델은 DocVQA, 차트QA, AI2D, OCR벤치1 등의 벤치마크에서 훨씬 더 큰 모델인 라마 3.2 11B와 픽스트럴(Pixtral) 12B의 성능을 능가 또는 필적하는 성능을 보였다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.