메타, 라마 API 프리뷰 공개… 벤더 종속 없는 기업용 AI 서비스 본격화

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.05.02 11:57

조회 608

메타가 자사 LLM 라마(Llama)를 위한 API 프리뷰 버전을 공개했다. 이번 발표는 메타의 인기 있는 오픈소스 모델을 기업용 서비스로 전환하는 조치로, 오픈AI 같은 LLM 시장 강자에게 정면으로 도전하는 동시에 기업 사용자가 가장 우려하는 벤더 종속 문제를 해결하려는 전략이다.

메타는 처음으로 개최하는 라마콘(LlamaCon) 개발자 포럼에서 발표한 공식 성명을 통해 “라마를 활용한 개발을 더 빠르고 쉽게 시작할 수 있도록 지원하는 동시에, API에 종속되지 않고 모델과 가중치를 완전히 제어할 수 있도록 하겠다”라고 말했다.

라마 API는 메타가 단순히 오픈소스 모델을 공개하는 수준에서 더 나아가 다양한 클라우드 기반 AI 인프라를 제공하는 방향으로 진화하고 있음을 보여준다.

그레이하운드리서치(Greyhound Research)의 수석 애널리스트 산치트 비르 고기아는 “메타는 경쟁의 무대를 단순한 모델 성능에서 추론 비용, 개방성, 하드웨어 이점으로 옮기고 있다”라고 분석했다.

더 쉬운 접근, 더 넓은 호환성

메타는 이번에 공개한 라마 API 서비스에서 원클릭 API 키 생성, 인터랙티브 모델 플레이그라운드, 최신 모델인 라마 4 스카우트(Llama 4 Scout)와 라마 4 매버릭(Llama 4 Maverick)에 대한 즉각적인 접근을 제공할 것이라고 밝혔다. 오픈AI SDK와의 호환성도 지원할 예정이다.

파이썬과 타입스크립트용 경량 SDK를 통해 기존 인프라와 간편하게 통합할 수 있으며, 오픈AI SDK와의 호환성을 유지해 최소한의 코드 수정만으로 기존 애플리케이션을 전환할 수 있도록 했다.

또한 모델 미세 조정과 성능 평가를 위한 툴도 포함돼 개발자가 새로운 라마 3.3 8B 모델을 기반으로 맞춤형 모델을 만들 수 있도록 지원한다. 이를 통해 특정 용도에 최적화된 성능을 확보하면서도 비용을 절감할 수 있다.

칩 파트너십으로 추론 성능 경쟁력 강화

메타는 추론 속도 개선을 위해 AI 칩 제조사인 세레브라스(Cerebras)와 그로크(Groq)와 협력키로 했다. 추론 성능은 실제 서비스 환경에 생성형 AI를 적용하는 데 있어 핵심적인 요소다.

AI 전용 칩으로 잘 알려진 세레브라스는 기존 GPU 솔루션보다 월등히 빠른 성능을 제공한다고 강조했다. 세레브라스가 인용한 서드파티 벤치마크에 따르면, 라마 4 스카우트는 자사 칩으로 초당 2,600개 이상의 토큰을 처리할 수 있다. 오픈AI의 챗GPT가 약 초당 130개 토큰을 처리하는 것과 비교하면 큰 차이다.

세레브라스 CEO 앤드루 펠드먼은 “에이전틱 AI나 실시간 애플리케이션 개발자에게는 속도가 가장 중요하다. 세레브라스 칩이 탑재된 라마 API를 활용하면 기존 GPU 기반 추론 클라우드로는 도달할 수 없는 수준의 AI 시스템을 구축할 수 있다”라고 강조했다.

그로크의 언어 처리 유닛(Language Processing Unit, LPU) 칩도 초당 최대 625개 토큰 처리 속도를 제공한다. 그로크 CEO 조너선 로스는 자사 솔루션에 대해 “추론이라는 하나의 작업을 위해 수직적으로 통합된 설계다. 모든 계층이 속도와 비용 효율성을 꾸준히 유지하도록 설계돼 어떤 타협도 없다”라고 말했다.

카운터포인트리서치(Counterpoint Research)의 리서치 부문 부사장이자 파트너인 닐 샤는 “라마 API처럼 첨단이면서도 ‘개방형’ 솔루션을 채택함으로써 개발자는 더 나은 선택지를 갖게 됐고, 이제는 속도와 효율성에서 타협하거나 독점 모델에 종속될 필요가 없어졌다”라고 설명했다.

그레이하운드리서치의 고기아는 “그로크와 세레브라스와의 전략적 제휴를 통해 라마 AI를 지원하는 메타의 행보는 서비스형 LLM(LLM-as-a-Service) 시장에서 결정적인 전환점을 의미한다”라고 평가했다.

벤더 종속 우려 해소

메타는 라마 API를 통해 오픈AI가 GPT로 초기 우위를 선점한 시장에 진입했다. 메타는 독점형 AI 인프라 도입을 주저하는 기업 고객을 끌어들이기 위해 자사의 강점을 적극 활용하고 있다.

고기아는 “라마 API는 기업용 AI 개발자에게 근본적으로 다른 제안을 한다. 단순한 툴을 넘어 AI를 구축하고 활용하는 방식 자체에 변화를 제시한다. 오픈AI나 앤트로픽의 독점 API는 개발자를 불투명한 요금제, 비공개 모델 가중치, 제한적인 사용 권한에 얽매이게 하지만 라마는 개방성, 모듈화, 그리고 자신만의 추론 스택을 선택할 수 있는 자유를 제공한다”라고 부연했다.

메타는 자사 AI 모델 훈련에 사용자 프롬프트나 응답 데이터를 활용하지 않는다고 명확히 밝혀 다른 업체가 고객 데이터를 시스템 개선에 사용하는 것에 대한 우려를 정면으로 해소했다. 또한 라마 API를 기반으로 구축된 모델이 메타의 서버에 종속되지 않고 기업이 원하는 환경으로 자유롭게 이전해 호스팅할 수 있도록 데이터 이동성을 보장한다.

메타의 이런 접근 방식은 기업 수준의 편의성과 완전한 모델 소유권이라는 궁극적인 출구 전략을 동시에 제공하는 독특한 중간 지대를 만들어 낸다.

“시작에 불과” 메타, 기업용 기능 확대 예고

현재 라마 API는 무료 프리뷰 형태로 제한적으로 제공되고 있으며, 향후 몇 주에서 몇 개월 안에 더 많은 사용자에게 확대 제공될 예정이다. 메타는 이번 발표를 통해 오픈AI, 마이크로소프트, 구글과 정면으로 경쟁하는 기업으로 나섰다. 메타는 이번 출시를 “시작에 불과하다”라고 표현하며, 2025년 한 해 동안 기업 고객을 위한 기능을 지속적으로 확대해 나갈 계획이라고 밝혔다.

사이버미디어리서치(CyberMedia Research) 산업 리서치 그룹 부사장 프라부 람은 메타의 라마 API에 대해 “기존의 서비스형 LLM(LLM-as-a-Service)보다 더 빠르고 개방적이며, 모듈화된 대안”이라면서도 “오픈AI나 구글과 같은 독점 플랫폼에 비해 생태계 통합이나 성숙한 기업용 툴링 측면에서는 여전히 뒤처져 있다”라고 지적했다.

세레브라스와 그로크 기반의 라마 4 모델은 API 인터페이스에서 선택만 하면 바로 사용할 수 있다.

메타의 시장 진입은 AI API 시장에서 가격 경쟁을 가속화하는 한편, 추론 성능의 기준을 끌어올릴 전망이다. 특히 응답 속도가 핵심인 고객 대상 AI 애플리케이션을 개발 중인 기업에는 이번 성능 개선이 새로운 유형의 애플리케이션을 개발로 이어질 수 있다.

람은 “메타의 장기적인 영향력은 개방형 모델을 기반으로 기업 수준의 솔루션을 얼마나 효과적으로 구축하고 얼마나 빠르게 생태계 격차를 좁힐 수 있느냐에 달렸다”라고 말했다.
dl-itworldkorea@foundryco.com