News Feed

“원하는 데이터에서 최적의 답 찾기” 생성형 AI 툴 4종 비교 분석

컨텐츠 정보

  • 조회 841

본문

단순히 정보를 찾고 요약하는 작업은 생성형 AI의 가장 흥미로운 활용례라고 할 수 없다. 과거에 소셜 미디어에 올렸던 글을 찾고 싶은데 정확한 단어나 문장이 기억나지 않거나, 긴 소프트웨어 매뉴얼을 뒤적이지 않고 빠르게 ‘사용 방법’을 알고 싶을 때 생성형 AI의 정보 검색 및 요약 기능이 빛을 발한다.

사용자가 제공한 정보만을 기반으로 질문에 답하도록 LLM을 설정하는 방법은 여러 가지다. 가장 간단한 방법은 구글 노트북LM(NotebookLM)이나 챗GPT 프로젝트(ChatGPT Projects) 같은 서비스를 활용하는 것이다. 모두 코딩이 전혀 필요 없는 방법이다.

여기서는 4가지 생성형 AI 웹 플랫폼을 살펴보고, 각 플랫폼의 강점과 소프트웨어 매뉴얼 검색 같은 샘플 작업에서의 성능을 비교했다.

4가지 샘플 작업

필자는 다음 4가지 질문 유형을 기반으로 생성형 AI 툴을 테스트했다.

  • 소프트웨어 문서 검색
  • 링크드인 게시글 검색
  • 특정 주제의 변수 ID 검색
  • 컨퍼런스 관련 정보 확인

4가지 생성형 AI 플랫폼

코딩 없이 “내 데이터와 대화”할 수 있는 옵션이 점점 늘어나고 있다. 필자는 그중 가장 널리 알려지고 인기 있는 4가지 서비스를 살펴봤다.

  • 구글 노트북LM(NotebookLM)
  • 오픈AI 챗GPT 프로젝트(ChatGPT Projects)
  • 앤트로픽 클로드 프로젝트(Claude Projects)
  • 퍼플렉시티 스페이스(Perplexity Spaces)

노트북LM은 독립적인 애플리케이션인 반면, 다른 플랫폼들은 일반적인 챗봇 기능을 제공하면서도 사용자가 특정 주제와 관련된 대화, 파일, 맞춤형 지침을 그룹화하고 저장할 수 있도록 한다. 이런 그룹은 서비스에 따라 프로젝트(Projects) 또는 스페이스(Spaces)라고 불린다.

구글 노트북LM

노트북LM은 무료 버전을 제공하며, 별도 프롬프트 없이 업로드한 정보에서 자동으로 검색한다. 답변에는 출처가 자동으로 표기되며, URL을 직접 입력해 자료로 활용할 수 있다. 일반적으로 노트북LM은 노트에서 오디오 팟캐스트를 생성하는 기능이 가장 유명하지만, 질문에 답하는 성능도 뛰어나다.

사용 방법 : 노트북LM에 콘텐츠를 업로드하고, 질문을 입력하면 된다. 노트북LM의 무료 계정 사용자는 출처당 최대 50만 단어, 노트북당 최대 50개 출처 파일을 업로드할 수 있으며, 로컬 업로드의 경우 총 200MB까지 저장할 수 있다. 최대 100개의 노트북을 생성할 수 있고, 하루에 50개의 질문을 할 수 있다. 유료 플러스(Plus) 계정 사용자는 한도가 더 넉넉하다. 최대 500개의 노트북을 생성할 수 있으며, 노트북당 300개의 출처를 추가할 수 있고 하루 최대 500개의 질문을 할 수 있다.

개인정보 보호 : 구글은 사용자가 업로드한 파일이나 채팅 데이터를 모델 학습에 활용하지 않는다고 밝혔다. 또한 구글 클라우드를 통해 엔터프라이즈 노트북LM을 사용하는 기업 고객의 피드백은 인간 리뷰어가 검토하지 않는다. 하지만 업무 관련 데이터를 다룰 경우에는 반드시 회사의 AI 정책을 확인해야 한다.

공유 : 무료 사용자는 전체 노트북을 특정 사용자와 공유할 수 있으며, 여기에는 원본 문서도 포함된다. 유료 사용자는 전체 노트북뿐만 아니라 채팅 내용만 포함된 노트북을 공유하는 옵션도 제공된다. 공유 가능한 횟수는 계정 등급에 따라 다르다.

성능 : 5점 만점에 4.5점으로 공동 1위

오픈AI 챗GPT 프로젝트

챗GPT 프로젝트는 플러스(Plus), 엔터프라이즈(Enterprise), 프로(Pro) 등 유료 구독자만 이용할 수 있다. 오픈AI는 이 기능이 “지속적인 작업을 하거나, 정리된 방식으로 대화를 유지하는 데 유용하다”라고 설명한다.

최근까지 프로젝트에서는 GPT-4o만 사용할 수 있었지만, 최근 들어 o3-미니(o3-mini) 및 o3-미니-하이(o3-mini-high) 모델도 선택할 수 있게 됐다. 프로젝트 기능을 사용할 수 없는 무료 사용자는 일반 채팅에서 파일을 업로드하고, 북마크 기능을 활용해 비슷한 경험을 얻을 수 있다.

노트북LM과 달리, 챗GPT는 기본적으로 답변 내에서 원문을 참조할 수 있는 링크를 제공하지 않는다. 요청에 따라 출처를 포함하더라도 제대로 작동하지 않을 수 있다. 대신, 답변 형식이 훨씬 더 깔끔하고 체계적으로 정리된 편이다.

사용 방법 : 새 프로젝트를 만들려면 왼쪽 사이드바에서 ‘프로젝트’를 찾아 마우스를 올리고 + 버튼을 클릭하면 된다. 이 옵션은 유료 구독자에게만 표시된다. 프로젝트 이름을 지정하면 채팅 인터페이스와 함께 파일 업로드 및 맞춤형 지침 추가 옵션이 나타난다. 챗GPT 도움말에 따르면, 업로드할 수 있는 파일 개수에는 제한이 있지만, 정확한 수치는 명시되어 있지 않다.

개인정보 보호 : ‘계정 설정 → 데이터 제어’로 이동하면 사용자의 데이터가 오픈AI 모델 학습에 활용되지 않도록 옵트아웃할 수 있다.

공유 : 프로젝트는 공유할 수 없지만 맞춤형 GPT(Custom GPT)를 활용하면 된다. 맞춤형 GPT는 사용자 지침, 추가 지식, 다양한 기능 조합을 포함할 수 있으며, 유료 계정이 필요하다. 이 맞춤형 GPT는 공개로 설정할 수 있으며, 링크를 통해 특정 사용자와 공유된다.

성능 : 5점 만점에 4.5점으로 공동 1위

앤트로픽 클로드 프로젝트

필자는 다양한 용도로 클로드(Claude)를 사용하는 편이다. 글쓰기 스타일이 마음에 들고 R 코드 작성 능력이 뛰어나며, 지침을 잘 따르기 때문이다. 그러나 유료 구독자만 사용할 수 있는 클로드 프로젝트(Claude Projects)는 특정 활용례에서 몇 가지 단점이 있다.

앤트로픽(Anthropic)에 따르면, 각 프로젝트는 200K 컨텍스트 창을 제공한다. 이는 약 500페이지 분량의 책과 동일하다. 상당히 많아 보이지만, 필자가 테스트한 다른 옵션보다 저장 용량이 적은 편이며, 한계에 가까워질수록 답변 품질이 저하될 가능성이 있다. 클로드 프로젝트는 유료 계정에서만 지원된다.

코딩을 하거나 깃허브와 연동해 사용하는 경우, 클로드는 깃허브 계정과 연결할 수 있어 코드나 문서 파일을 쉽게 가져올 수 있어 개발자에게 매우 유용하다. 그러나 온라인 정보를 활용하고 싶다면 제약이 있다. 현재 클로드 프로젝트는 깃허브 또는 사용자의 구글 문서 외에는 인터넷에 직접 접근할 수 없다.

테스팅 카탈로그(Testing Catalog)의 알렉세이 샤바노프에 따르면, 앤트로픽은 하모니(Harmony)라는 기능을 테스트 중이다. 클로드가 로컬 디렉토리에 있는 파일에 접근해 해당 콘텐츠를 읽고 색인을 생성하며, 분석하는 기능이다. 다만 이 기능이 프로젝트 쿼리의 컨텍스트를 어떻게 확장할지는 아직 명확하지 않다.

사용 방법 : 새 프로젝트를 만들려면 왼쪽 내비게이션 상단에서 ‘프로젝트’를 클릭하거나 ‘claude.ai/projects’로 바로 이동한 후, 오른쪽 상단의 ‘프로젝트 생성’ 버튼을 클릭한다. 프로젝트 이름을 입력하고 목적을 설명한 뒤 ‘생성’ 버튼을 누르면 왼쪽에는 일반적인 채팅 인터페이스가, 오른쪽에는 프로젝트 지침과 파일을 추가할 수 있는 영역이 표시된다.

개인정보 보호 : 앤트로픽은 기본적으로 사용자의 채팅 및 데이터를 모델 학습에 활용하지 않는다고 밝혔다.

공유 : 클로드 팀(Teams) 구독자만 이용할 수 있으며, 일반 사용자에게는 제공되지 않는다.

성능 : 5점 만점에 3점. 한 테스트에서 프로젝트 저장 용량을 초과해 0점을 기록한 것이 주요 요인이었다. 이 기능만을 위해 월 20달러를 지불할지는 고민되는 부분이지만, 다른 이유로 클로드를 구독하고 있다면 만족스러울 것이다.

퍼플렉시티 스페이스

퍼플렉시티는 무료 버전을 제공한다. 웹에 이미 존재하는 정보, 예를 들어 소프트웨어나 하드웨어 문서 검색에 강점이 있다. 특정 도메인을 지정하면, 예를 들어 ‘https://help.vivaldi.com/desktop/’와 같은 주소를 입력하면 해당 사이트의 모든 콘텐츠를 검색할 수 있다. 참고로 노트북LM은 개별 웹페이지 단위로 URL을 추가해야 한다. 온라인 소프트웨어 문서가 여러 개의 작은 파일로 분산되어 있을 때 매우 유용한 기능이다.

퍼플렉시티 스페이스에서 사용자 파일을 업로드하거나 최상위 LLM을 사용하려면 유료 구독이 필요하다. 무료 사용자라도 일반 퍼플렉시티 채팅에서 하루 최대 10개의 파일을 업로드할 수 있다.

사용 방법 : 왼쪽 내비게이션에서 ‘스페이스’를 클릭하거나 ‘perplexity.ai/spaces’로 이동한 후 ‘스페이스 생성’ 박스를 클릭한다. 이때 스페이스 제목, 선택적 설명, 맞춤형 지침을 입력하는 대화 상자가 나타난다. 생성 후에는 왼쪽에 채팅 인터페이스, 오른쪽에는 맞춤형 지침, 파일 업로드 섹션, 링크 업로드 섹션이 포함된 컨텍스트 영역이 표시된다.

개인정보 보호 : 설정에서 사용자의 데이터가 퍼플렉시티 모델 학습에 활용되지 않도록 옵트아웃할 수 있다.

공유 : 유료 사용자는 최대 5명의 협업자와 스페이스를 공유할 수 있고 엔터프라이즈 프로 계정은 무제한 공유할 수 있다.

성능 : 5점 만점에 2.5점. 퍼플렉시티의 주요 강점인 웹 검색 기능을 테스트에 포함하지 않았다는 점을 고려해야 한다. 만약 자신의 데이터를 웹 검색과 결합해 활용하려는 경우, 퍼플렉시티의 성능은 훨씬 더 우수할 것으로 예상된다.

테스트 과정에서 퍼플렉시티는 기본 “자동” LLM을 사용할 때 필자의 의도를 가장 잘 파악하지 못하는 경향이 있었다. LLM을 사용할 때는 구체적으로 질문하는 것이 중요하긴 하지만, 퍼플렉시티에서는 특히 더 명확하고 상세한 질문을 해야 원하는 답변을 얻을 수 있었다.

테스트 및 결과 요약

아래는 각 도구가 테스트에서 어떻게 성능을 발휘했는지 정리한 내용이다. 자세한 결과는 이어서 확인할 수 있다.

테스트 항목노트북LM챗GPT 프로젝트클로드 프로젝트퍼플렉시티 스페이스
간단한 기술 문서 검색1110.5
모호한 소셜 미디어 검색10.510
변수 ID 검색1101
컨퍼런스 검색0.510.51
컨퍼런스 세션 검색110.50
총점4.54.532.5
1 = 정답을 제공함
0.5 = 부분적으로 정답을 제공함
0 = 오답이거나 응답을 제공하지 않음
테스트 1 : 기술 문서 검색
  • 질문 : “텍스트에서 불필요한 공백을 가장 쉽게 제거하는 방법이 뭐야?”
  • 정보 출처 : R 프로그래밍의 stringr 패키지 문서. stringr에는 str_squish() 함수가 포함되어 있어 불필요한 공백을 쉽게 삭제할 수 있다.
  • 결과 : 클로드, 노트북LM, 챗GPT는 str_squish() 함수를 사용하라고 답변했고 올바른 답변으로 판단된다. 퍼플렉시티는 처음에는 문장의 앞뒤 공백만 처리하는 방법을 제시했으며, 문장 내부의 불필요한 공백 제거에 대해서는 고려하지 않았다. 그러나 추가 질문을 하자 최적의 함수를 찾아냈다.
테스트 2 : 소셜 미디어 게시물에서 모호한 검색

이 테스트는 다소 까다로운 작업이었지만, 실제로 많은 사람이 도움을 필요로 할 법한 상황과 유사하다.

  • 질문 : “Computerworld의 루카스 미어리언이 작성한 LLM 관련 기사에 감명을 받았다. 내가 업로드한 링크드인 게시물을 기반으로 해당 기사에 대한 정보를 제공해 줘.”
  • 정보 출처 : 최근 2년 동안의 링크드인 게시물
  • 결과 : 노트북LM과 클로드는 정확한 응답을 제공했으며, 필자가 찾던 기사까지 포함해 두 가지 관련 기사를 제시했다. 챗GPT는 어느 정도 관련성이 있는 기사들을 제공했지만, 찾던 기사(““다음 단어 예측 엔진” LLM 알고리즘의 이해”)는 포함되지 않았다. 퍼플렉시티는 자동 LLM을 사용했을 때 유용한 답변을 제공하지 못했다. “LLM에 대한 루카스 미어리언의 기사를 찾을 수 없다”라는 응답을 반환했다.
테스트 3 : 특정 주제에 대한 미국 인구조사표에서 변수 ID 찾기

많은 기업이 미국 인구조사국(US Census Bureau)의 ‘미국 지역사회 조사(American Community Survey, ACS)’ 데이터를 활용해 인구 통계 정보를 분석한다. 하지만 수천 개의 데이터 변수가 존재하기 때문에 원하는 정보를 포함하는 변수를 찾기 어렵다. 이 테스트는 기업이 자체 데이터를 활용해 유사한 검색을 수행하는 상황을 반영했다.

  • 질문 : “재택근무하는 노동자의 비율을 찾을 수 있는 가장 적절한 변수가 뭐야?”
  • 정보 출처 : ACS 테이블 변수 ID 목록을 다운로드한 후 필터링했으며, 인구조사국 웹사이트에서 제공하는 ACS 테이블 개요도 포함했다. 일부 플랫폼이 CSV 파일을 지원하지 않기 때문에, 변수 데이터를 탭으로 구분된 텍스트 파일 형식으로 저장했다.
  • 기대한 답변 : 텍사스 크리스천 대학교 도시 연구 센터의 디렉터이자 타이디센서스(tidycensus) R 패키지의 저자인 카일 워커는 DP03_0024P 변수를 사용한 사례를 제시한 바 있다. 따라서 이 변수를 포함한 답변이 올바른 것으로 기대했다.
  • 결과 : 노트북LM, 챗GPT, 퍼플렉시티 모두 유용한 결과를 제공했다. 특히 챗GPT와 퍼플렉시티는 DP03_0024P 변수 외에도 다른 재택근무 관련 변수를 찾아냈으며, 예상보다 더 다양한 선택지가 존재한다는 점을 알았다. 클로드는 이 테스트를 수행하지 못했다. 3개의 텍스트 파일, 총 800KB 미만의 데이터가 클로드 프로젝트의 “프로젝트 지식” 용량 한도를 초과했기 때문이다.
테스트 4 : 컨퍼런스 관련 정보 검색

이 테스트에서는 두 가지 질문을 기반으로 서로 다른 데이터 출처를 활용했다. 필요에 맞는 컨퍼런스를 찾는 질문과 특정 컨퍼런스의 세션 정보를 검색하는 질문이었다.

  • 질문 1 : “AI를 다루는 IDG 행사를 찾고 있어. 보스턴에서 2시간 이내의 비행 거리면 좋겠어.”
  • 정보 출처 : IDG 글로벌 행사 일정 PDF
  • 기대한 답변 : 가장 완벽한 정답은 퓨처IT NYC(FutureIT NYC, 7월 개최)퓨처IT 토론토(FutureIT Toronto, 4월 30일~5월 1일 개최)을 제시하는 것이다. 내슈빌에서 열리는 워크 (Work ) 컨퍼런스도 적절한 추천 옵션이 될 수 있다.
  • 결과 : 챗GPT는 o3-미니-하이 모델과 GPT-4o 모델 모두에서 두 행사를 정확히 찾아내며 완벽한 답변을 제공했다. 퍼플렉시티는 두 행사에 더해 애리조나에서 열리는 CIO100 컨퍼런스를 추천했다. 단, 애리조나는 2시간 비행 범위를 초과한다고 명확히 언급했다.

    노트북LM은 퓨처IT NYC와 워크+ 내슈빌을 추천했으며, 내슈빌이 보스턴에서 “비교적 가까운 거리”라는 점을 정확히 언급했다. 하지만 퓨처IT 토론토를 놓쳤다. 클로드의 소네트 3.5 버전은 뉴욕과 토론토 컨퍼런스를 정확히 찾아냈고 추가로 영국 컨퍼런스도 제시했지만, 여행 범위를 초과한다고 명시했다. 그러나 내슈빌을 포함하지 않았다.

    클로드의 소네트 3.7 기본 설정에서는 뉴욕 컨퍼런스 하나만 찾았고, 미국 내 다른 몇 개의 컨퍼런스와 유럽의 두 개 컨퍼런스를 추천했지만, 여행 범위를 초과한다고 언급했다. 그러나 소네트 3.7을 확장 추론 모드로 변경하자 뉴욕과 토론토 이벤트를 정확히 찾았으며, 추가로 온라인 컨퍼런스까지 제시했다.

    결과적으로 챗GPT가 가장 정확한 답변을 제공했으며, 퍼플렉시티도 추가 정보를 제공하면서 유용한 답변을 내놓았다. 노트북LM과 클로드는 일부 정확했지만, 특정 이벤트를 놓치거나 추가적인 분석이 부족했다. 특히 클로드 3.7의 경우 기본 설정과 확장 모드의 차이가 답변의 질에 큰 영향을 미쳤다.
  • 질문 2 : “이미 스프레드시트 사용에 능숙한 사람들, 즉 초보자는 아니지만 소프레드시트 기술을 향상시키고 싶을 사람을 위한 NICAR 컨퍼런스의 모든 세션을 알려 줘.”
  • 정보 출처 : NICAR(National Institute for Computer-Assisted Reporting) 데이터 저널리즘 컨퍼런스 전체 일정 텍스트 파일
  • 결과 : 노트북LM은 구글 스프레드시트, 엑셀, 에어테이블 관련 세션을 12개 이상 추천했으며, 그중 하나를 제외하고는 모두 적절한 선택이었다. 단순히 컨퍼런스 웹사이트에서 “Excel”이나 “Sheets”를 검색하는 것보다 훨씬 더 다양한 결과를 제공했다. 또한 클릭 한 번으로 인용된 원문을 확인할 수 있어, 잘못된 정보(환각)를 검증하기도 쉬웠다.

    GPT도 12개 이상의 관련 세션을 찾아냈으며, 날짜와 시간을 정리해 더 보기 좋은 형식으로 제공했다. 클로드는 챗GPT보다 추천 세션 수가 약간 적었지만, 제공된 모든 세션이 적절하게 맞아떨어졌다.

    반면 퍼플렉시티는 실망스러웠다. “제공된 정보에 스프레드시트 숙련자를 위한 세션이 명시적으로 나와 있지 않다”라고 주장하며, 겨우 3개의 세션만 추천했다.

최종 결론

생성형 AI 클라우드 서비스는 코딩 없이도 사용자가 보유한 정보에 대한 질문에 답할 수 있는 유용한 도구다.

이미 존재하는 정보를 찾는 것은 물론, 새로운 인사이트를 발견하는 데도 도움이 된다. 쉽고 무료이며, 출처를 명확하게 제공해 환각 여부를 검증할 수 있는 플랫폼이 필요하다면 구글 노트북LM이 훌륭한 선택이다.

이미 챗GPT를 구독 중이라면, 프로젝트 기능을 테스트해 볼 가치가 있다. 단순한 Q&A를 넘어 더 다양한 요청을 처리할 수 있도록 설계되어 있으며, 챗GPT의 응답은 노트북LM보다 형식이 정돈되고 가독성이 뛰어난 경우가 많다. 무료 사용자라면, 일반 챗GPT 채팅에서도 파일을 업로드해 유사한 기능을 활용할 수 있다.

클로드는 프로젝트당 업로드할 수 있는 데이터양이 상대적으로 적지만, 이미 구독 중인 서비스라면 괜찮은 선택이 될 수 있다. 특히 깃허브 리포지토리 내 데이터를 기반으로 질문에 답변하는 데 유용하다. 한 번의 응답이 만족스럽지 않다면 모델 설정을 변경해 다시 시도해 보는 것이 효과적일 수 있다.

퍼플렉시티는 웹상의 정보를 검색해 답변하는 데 강점을 보였다. 특히, 소프트웨어 도움말처럼 정보가 여러 개의 파일로 분산된 경우(slack.com/help 같은 도메인) 유용할 수 있다. 그러나 로컬 데이터를 다루는 경우에는 노트북LM이나 챗GPT를 선택하는 것이 더 나을 듯하다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank