News Feed

구글 딥마인드, 멀티 모달 AI 젬마 3 발표

컨텐츠 정보

  • 조회 832

본문

구글 딥마인드가 회사의 생성형 AI 모델 제품군에 젬마 3를 도입했다. 젬마 3는 모델이 이미지를 분석하고, 이미지에 대한 질문에 답하고, 물체를 식별하고, 시각적 데이터 분석 및 이해와 관련된 기타 작업을 수행하는 멀티 모달리티를 특징으로 한다.

이 업데이트는 3월 12일 발표되었으며, AI 개발용 구글 AI Studio에서 체험해 볼 수 있다. 구글 딥마인드에 따르면, 젬마 3는 수학, 코딩, 지시 사항 수행 능력도 크게 향상시켰다.

젬마 3는 시각-언어 입력 및 텍스트 출력을 지원하고, 최대 128k 토큰의 컨텍스트 윈도우를 처리하며, 140개 이상의 언어를 이해한다. 수학, 추론, 채팅 기능도 개선되었으며, 구조화된 출력 및 함수 호출이 포함된다. 젬마 3는 1B, 4B, 12B, 27B의 네 가지 “개발자 친화적” 사이즈와 사전 훈련 및 범용 교육 조정 버전으로 제공된다. 구글 딥마인드의 발표에 따르면 “128k 토큰의 컨텍스트 창을 통해 젬마 3는 방대한 양의 정보를 처리하고 이해해 복잡한 작업을 쉽게 처리할 수 있다.”

개발자들은 클라우드 런구글 생성형 AI API 등 다양한 배포 옵션을 이용할 수 있다. 개방형 가중치 LLM 라이브러리인 젬마 3는 추론과 미세 조정을 위한 레시피를 갖춘 개편된 코드 기반을 특징으로 한다. 젬마 3 모델 가중치는 카글허깅페이스에서 다운로드할 수 있다.

엔비디아는 제트슨 나노부터 가장 최근의 블랙웰 칩에 이르기까지 모든 크기의 GPU에서 최대 성능을 발휘할 수 있도록 젬마 3 모델을 직접 지원한다. 젬마3은 구글 클라우드 TPU에 최적화되어 있으며, AMD GPU와 통합된다. GPU에서 실행하려면 사용자는 Gemma.cpp를 활용할 수 있다.

구글 딥마인드는 3월 12일, 합성 이미지와 자연 이미지의 안전성을 주요 카테고리에 대해 확인해 강력한 데이터 세트와 모델을 구축하는 데 도움을 주는 젬마 3을 기반으로 구축된 40억 개의 매개변수 모델인 쉴드젬마(ShieldGemma) 2를 발표했다. 쉴드젬마 2는 비전 언어 모델의 입력 필터 또는 이미지 생성 시스템의 출력 필터로 사용하는 것이 좋다. 구글 딥마인드는 쉴드젬마 2를 사용하면 개발자가 성적으로 노골적이거나 위험하거나 폭력적인 콘텐츠와 같은 유해 콘텐츠의 위험을 최소화할 수 있다고 밝혔다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank