AI가 부드럽게 말하기 시작했다…줌·트윌리오 CEO가 본 음성 기술의 진화
컨텐츠 정보
- 조회 428
본문
음성 인공지능 기술은 수년 전부터 존재했지만, 어색한 음성, 부자연스러운 멈춤, 낮은 인식 정확도 등이 상용화의 걸림돌이었다. 그러나 최근 줌과 트윌리오(Twilio) 최고경영자는 골드만삭스 커뮤니커피아 플러스 테크놀로지 콘퍼런스에서 이러한 문제들이 빠르게 개선되고 있다고 언급했다.
트윌리오 CEO 코제마 시프찬들러는 “내부 조사 결과, 고객은 사람보다 음성 AI를 더 선호하는 경향이 있으며 특히 의료 분야에서 두드러졌다”고 말했다.
시프찬들러는 “사람 간의 대화에는 지식의 비대칭성이 존재해 불편함이 생기지만, 음성 AI와의 상호작용에서는 이런 불균형이 사라진다”며 “AI 에이전트는 대화 중 어색한 침묵이나 망설임이 거의 없다”고 설명했다.
시프찬들러는 또 “음성 AI의 지연 시간, 즉 반응 속도가 과거에는 문제였지만 현재는 거의 해결 단계에 와 있다”고 덧붙였다.
줌 CEO 에릭 위안은 “줌은 자연스러운 발음과 다국어 지원이 가능한 음성 AI 에이전트 개발에 집중 투자하고 있다”며 “특히 대화 중 어색한 정지 구간을 완전히 없애는 것을 목표로 한다”고 밝혔다.
다만 실사용 환경에서는 여전히 개선이 필요하다. 최근 타코벨과 맥도날드가 드라이브스루 주문에 도입했던 음성 AI 시스템을 중단한 이유도, AI가 음성 명령을 제대로 인식하지 못했기 때문이다.
제이 골드 어소시에이츠의 수석 애널리스트 잭 골드는 “음성 인공지능은 텍스트 기반 AI보다 훨씬 구현이 어렵다”고 말했다.
골드는 “같은 언어라도 지역별 억양과 발음, 의미 차이가 크기 때문에, 예를 들어 미국 남부 억양과 뉴잉글랜드식 발음 간에는 AI가 인식해야 할 변수가 너무 많다”고 지적했다.
또한, 모든 사용자가 타이핑에 능숙한 것은 아니기 때문에 음성이 가장 자연스러운 의사소통 방식이며, 특히 전화 주문이 여전히 35%를 차지하는 음식 배달 산업에서는 효율성을 크게 높일 수 있다고 분석했다.
시프찬들러 역시 “음성 AI의 처리 용량은 사실상 무한대”라며 “수천 개의 벤처기업이 현재 이 기술의 문제를 해결하기 위해 경쟁하고 있다”고 말했다.
위안은 “점점 더 많은 사용자가 텍스트 대신 챗GPT와 직접 대화하기 시작했다”며 “앞으로 2~3년 안에 많은 새로운 솔루션이 음성 기술을 기반으로 개발될 것”이라고 전망했다.
다만 음성 기반 인증과 관련된 보이스 스푸핑 위험은 여전히 존재한다.
시프찬들러는 “만약 시스템이 사용자의 음성 서명을 사전에 식별하고, 이후 간단한 검증 절차만 거친다면 자연스럽고 안전한 대화 경험이 가능할 것”이라며 “음성 위조는 반드시 제거해야 할 실제 위협”이라고 강조했다.
위안은 줌이 현재 기업 보안 책임자들과 협력해 AI 기술의 안전한 배포 방안과 연구 자료를 공개하고 있다고 밝혔다.
골드는 “앞으로 몇 년간 음성 인공지능의 품질이 꾸준히 개선될 것”이라며 “특히 학습 데이터가 고도화되면 오류가 크게 줄어들 것”이라고 전망했다.
음성 인공지능은 아직 완벽하지 않지만, 사람처럼 자연스럽게 말하는 단계로 점차 진화하고 있다. 기술이 고도화될수록 인간과 AI의 대화 경계는 더욱 옅어질 것이다. 양식의 맨 위
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






