News Feed

이미지·영상·음성 편집까지…로컬 AI로 할 수 있는 작업 7가지

컨텐츠 정보

  • 조회 390

본문

클라우드 기반 AI 솔루션이 각광받는 가운데, 로컬 AI 도구의 성능도 그 어느 때보다 강력해지고 있다. 게이밍 PC는 LM 스튜디오(LM Studio)에서 대형 언어 모델을 실행하거나 스테이블 디퓨전으로 이미지를 생성하는 것 이상의 일을 해낼 수 있다. 특히 클라우드 기반 AI와 달리 데이터에 대한 통제권이 사용자에게 있고 완전한 프라이버시를 확보할 수 있다.

현재 데스크톱 PC에서 바로 활용할 수 있는 흥미로운 로컬 AI 활용례는 의외로 적지 않다. 다만 대부분이 커뮤니티 기반의 취미 프로젝트라는 점에서, 완성도에 대한 기대치는 다소 낮춰 둘 필요가 있다.

많은 로컬 AI 도구는 오픈소스 소프트웨어로 무료로 사용할 수 있고 기능도 꽤 쓸 만하다. 하지만 상용 소프트웨어만큼 세련되거나 사용자 친화적이지는 않다는 점을 고려해야 한다.

음성-텍스트 변환

Local AI tools Whisper Desktop

Whisper Desktop

오픈AI의 음성 인식 모델 위스퍼는 오픈소스로 공개돼 있으며, 위스퍼 데스크톱(Whisper Desktop) 같은 도구를 활용하면 개인 PC에서 직접 실행할 수 있다. 위스퍼 데스크톱은 PC의 GPU를 활용해 빠른 속도로 음성을 텍스트로 변환한다.

마이크로 직접 말하거나 오디오 파일을 입력해 텍스트로 바꿀 수 있으며, 완벽하지는 않지만 불과 몇 년 전까지 비용을 지불해야 했던 전문 전사 소프트웨어보다도 뛰어난 성능을 보여준다.

이미지 업스케일링

Local AI tools Upscayl

Upscayl

최근에는 클라우드 기반 이미지 편집과 업스케일링 서비스를 제공하는 업체가 크게 늘었다. 어도비 포토샵도 이 기능을 제공하지만, 처리는 어도비의 클라우드 서버에서 이뤄진다. 개인 PC에서 직접 이미지 해상도를 높이고 싶을 때 업스케일(Upscayl)은 로컬 AI를 활용해 저해상도 이미지를 고해상도로 변환할 수 있는 사용하기 쉬운 도구다.

클라우드 기반 AI 이미지 편집 도구도 물론 편리하지만, 충분한 성능의 PC를 갖추고 있다면 이미지를 클라우드 서버에 업로드하지 않고도 개인 PC에서 직접 이런 작업을 처리할 수 있다.

실시간 웹캠 및 마이크 효과

Local AI tools Nvidia Broadcast microphone effects

Nvidia Broadcast

마이크로소프트는 코파일럿+ PC의 대표적인 기능으로 윈도우 스튜디오 이펙트(Windows Studio Effects)를 적극적으로 밀고 있다. 최근 출시된 노트북 상당수에는 이미 ‘AI 웹캠 효과’ 패키지가 사전 설치돼 있다. 코파일럿+ PC를 사용 중이라면 윈도우 스튜디오 이펙트를 활용해볼 만하다.

엔비디아 RTX GPU를 탑재한 고성능 게이밍 PC를 데스크톱이나 노트북 형태로 보유하고 있다면, 무료 애플리케이션인 엔비디아 브로드캐스트(Nvidia Broadcast)를 활용해 배경 제거, 시선 보정 같은 AI 웹캠·마이크 효과는 물론, 상위 GPU에서 제공되는 ‘스튜디오급 조명’과 같은 고급 기능까지 사용할 수 있다. 처리 과정은 모두 실시간으로 이뤄지기 때문에 게임 라이브 스트리밍이나 화상 회의 중에도 바로 적용할 수 있다.

영상 업스케일링 및 편집

Local AI tools Topaz Labs

Topaz Labs

PC의 하드웨어를 활용해 영상 업스케일링과 편집도 가능하다. 토파즈 랩(Topaz Labs)은 AI 기반 영상·이미지 편집을 위한 전문 유료 애플리케이션을 제공하며, 모든 처리는 PC의 로컬 하드웨어에서 이뤄진다. 가격대는 높은 편이지만, 로컬 AI로 어디까지 구현할 수 있는지를 보여주는 사례다.

무료 오픈소스 대안으로는 비디오2X(Video2X)가 있다. AI를 활용해 영상 파일을 업스케일링할 수 있으며, 생각보다 다루기 편하다. 이들 도구는 로컬 AI가 안고 있는 이른바 ‘라스트 마일(last mile)’ 과제를 잘 보여준다. 강력한 로컬 AI 모델은 많지만, 사용하기 쉬운 완성도 높은 사용자 인터페이스는 대부분 유료 도구에 집중돼 있다. 취미 개발자도 강력한 소프트웨어를 만들 수는 있지만, 세련된 최종 사용자용 제품으로 다듬을 여건은 되지 않는 경우가 많다.

음성 복제

Local AI tools GPT-SoVITS

GPT-SoVITS

개인 PC만으로도 자신의 목소리를 복제할 수 있다는 사실을 알고 있는가? 다만 이 분야의 툴은 다른 로컬 AI 앱과 마찬가지로 완성도가 높지 않은 편이다. 웹 기반 인터페이스를 사용해야 하는 경우가 많고, 비교적 용량이 큰 파일을 내려받아야 하는 불편함도 따른다. GPT-SoVITSRVC를 활용하면 음성을 복제할 수 있지만, 다소 거친 사용자 경험은 감수해야 한다.

그럼에도 불구하고 음성 복제는 로컬 AI의 가능성을 잘 보여준다. 소비자용 하드웨어와 일부 오픈소스 소프트웨어만으로도 이미 음성 복제가 가능해졌기 때문이다. 현재로서는 사용하기 불편한 인터페이스가 마지막 퍼즐로 남아 있다.

음악 생성

Local AI tools YuE

YuE

소셜미디어에서 생성형 AI로 제작한 음악을 들은 적 있다면, 상당수는 클라우드 기반 음악 생성 툴 수노(Suno)를 활용해 만들어졌을 것이다.

로컬 환경에서 음악을 생성하는 AI 솔루션도 존재하지만, 대부분은 아직 개발 초기 단계에 머물러 있고 완성도가 높지 않다. 그 가운데 오픈소스 음악 생성 툴 유에(YuE)는 장기적으로 수노와 경쟁할 수 있을 잠재력을 보여준다. 다만 유에를 다운로드해 PC에서 직접 실행하더라도 사용자 친화성이 개선되기 전까지는 수노를 계속 사용하는 편이 나을 수 있다.

유에에 따르면 RTX 4090 GPU를 탑재한 PC에서 30초 분량의 오디오를 생성하는 데 약 360초, 즉 6분이 걸린다. 성능만 놓고 보면 나쁘지 않은 수준이다. 앞으로 몇 년이 더 지나면 게이밍 PC에서 완성도 높은 곡 전체를 생성하는 것도 현실적인 시나리오가 될 수 있다.

보컬 제거

Local AI tools Ultimate Vocal Remover UVR

Ultimate Vocal Remover

노래 반주에 맞춰 노래를 부르거나, 보컬이 없는 연주곡을 선호하는 사람이라면 어떤 곡이든 보컬을 제거할 수 있는 도구를 한 번쯤은 원해봤을 것이다. 그동안 이런 작업은 가능하긴 했지만, 상당한 시간과 노력이 필요한 번거로운 과정이었다. 하지만 얼티밋 보이스 리무버(Ultimate Voice Remover)의 등장으로 상황이 달라졌다.

이 무료 애플리케이션은 사용법이 단순하고 직관적이며, 몇 시간이나 며칠이 걸리던 작업을 단 몇 분 만에 처리할 수 있다. MP3, FLAC, WAV 파일을 입력하면 보컬이 제거된 버전을 바로 생성한다.

강력하지만 다듬어지지 않은 로컬 AI

지난 몇 년간 쏟아진 AI 열풍에 실망했더라도 이해할 만하다. 로컬 AI에 대한 거창한 이야기와 달리, 마이크로소프트 윈도우나 일반 소비자용 소프트웨어에서는 실제로 유용한 AI 도구가 깊이 있게 통합된 사례를 거의 찾아보기 어렵다.

가장 흥미로운 변화는 오픈소스 소프트웨어 커뮤니티에서 일어나고 있다. 예상외로 강력한 로컬 AI 모델이 등장하고 있지만, 사용자 인터페이스는 예상대로 투박하고 아마추어적인 경우가 많다. 다만 앞으로 몇 년 안에는 고성능 PC 하드웨어를 보다 효과적으로 활용하는 사용자 친화적인 솔루션이 등장할 가능성도 충분하다.

당장은 거친 학습 곡선을 감수하고, 설정을 직접 만지는 수고를 마다하지 않으며, RTX GPU 같은 비교적 강력한 하드웨어를 갖춘다면 로컬 AI로 할 수 있는 일은 이미 많다. 다만 현재로서는 NPU가 로컬 AI 도구를 실행하는 데 큰 도움을 주지는 못할 뿐이다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank