News Feed

생성형 AI를 위한 지식 그래프 구축 여정

컨텐츠 정보

  • 조회 739

본문

지식 그래프를 향한 여정의 출발점이 텍스트, 이미지, 기타 미디어와 같은 비구조적 데이터인 이유는 무엇일까? 웹 검색 엔진의 발전 사례를 통해 비구조적 소스에서 지식이 추출되고, 이후 시간이 지남에 따라 이 지식이 구조적이고 상호 연결된 그래프로 정제되는 방식을 볼 수 있다.

검색 증강 생성(retrieval-augmented generation, RAG) 시스템에서 그래프RAG(GraphRAG), 지식-그래프RAG(Knowledge-GraphRAG)와 같은 더 정교한 접근 방식으로 전환하는 여정도 이 프로세스에 기반을 둔다.

고립된 노드에서 지식의 그래프와 지식 그래프로

알타비스타(AltaVista)와 같은 초기 검색 엔진은 간단한 키워드 매칭에 의존했으며 웹 페이지를 각기 고립된 개체로 취급했다. 그러나 웹 페이지는 하이퍼링크를 통해 상호 연결돼 있다. 구글은 월드 와이드 웹(world wide web)이 단순히 독립된 페이지를 모아 놓은 것이 아니라 상호 연결된 방대한 지식 네트워크, 즉 지식의 그래프(graph of knowledge)라는 사실을 인식함으로써 검색을 혁신할 수 있었다.

srcset="https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-01.png?quality=50&strip=all 1760w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-01.png?resize=300%2C160&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-01.png?resize=768%2C411&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-01.png?resize=1024%2C547&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-01.png?resize=1536%2C821&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-01.png?resize=1240%2C663&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-01.png?resize=150%2C80&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-01.png?resize=854%2C457&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-01.png?resize=640%2C342&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-01.png?resize=444%2C237&quality=50&strip=all 444w" width="1024" height="547" sizes="auto, (max-width: 1024px) 100vw, 1024px">알타비스타에서 구글로, 문자열에서 사물로.

RelationalAI

이 접근 방식에 따라 검색 역량은 대폭 강화됐지만, 얼마 지나지 않아 추론과 같은 더 고급 기능을 지원하기 위해서는 더욱 강력한 솔루션, 즉 기계가 읽을 수 있는 구조적인 프레임워크가 필요하다는 사실이 명확히 드러났다. 이 관점의 변화는 구글이 2012년에 도입한 지식 그래프(knowledge graph)에서 완성됐다. “문자열이 아닌 사물(things, not strings)”이라는 문구로 대변되는 지식 그래프는 단순한 단어가 아니라 개체를 연결하는 것을 목표로 한다.

srcset="https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-02-1.png?quality=50&strip=all 1729w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-02-1.png?resize=300%2C145&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-02-1.png?resize=768%2C370&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-02-1.png?resize=1024%2C494&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-02-1.png?resize=1536%2C741&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-02-1.png?resize=1240%2C598&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-02-1.png?resize=150%2C72&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-02-1.png?resize=854%2C412&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-02-1.png?resize=640%2C309&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-02-1.png?resize=444%2C214&quality=50&strip=all 444w" width="1024" height="494" sizes="auto, (max-width: 1024px) 100vw, 1024px">지식의 그래프(graph of knowledge, GoK)와 지식 그래프(knowledge graph, KG) 비교. GoK는 더 포괄적이고 개념적인 아이디어로, 상호 연결된 정보에 초점을 두며 반드시 고도로 구조적일 필요는 없다. KG는 고급 추론과 AI 작업용으로 설계된 형식적이고 구조적이며 기계가 읽을 수 있는 개체의 네트워크를 의미한다.

RelationalAI

지식의 그래프(graph of knowledge, GoK)는 더 포괄적이고 개념적인 아이디어로, 상호 연결된 정보에 초점을 두며 반드시 고도로 구조적일 필요는 없다. 반면 지식 그래프(knowledge graph, KG)는 고급 추론과 AI 작업용으로 설계된 형식적이고 구조적이며 기계가 읽을 수 있는 개체의 네트워크를 의미한다.

웹을 발명한 팀 버너스리는 오래전부터 정보를 정리하는 구조적인 방법의 필요성을 예견했고 저서 ‘월드 와이드 웹(Weaving the Web)’에서 “시맨틱 웹(semantic web)”이라는 용어를 처음 사용했다. 이 시맨틱 웹 비전이 현실화하기까지는 시간이 걸렸지만, 구글은 지식 그래프를 통해 이를 실용화해서 지식 네트워크를 통해 추론할 수 있는 정교한 AI 시스템 개발의 발판을 마련했다. 비슷한 맥락에서 아마존과 같은 기업은 제품 그래프를 만들었고, 오픈소스 커뮤니티는 위키피디아를 방대한 공개 지식 그래프로 정리한 위키데이터(Wikidata)와 같은 이니셔티브를 출범했다.

지식 그래프에서 질문에 답하기까지

지식 그래프의 탄생으로 정보를 검색, 정리, 연결하는 방식에 혁신이 이뤄지면서 단순한 키워드 매칭에서 정교한 개체 인식으로의 전환이 일어났다. 그러나 이 발전은 웹 검색을 개선하는 데 그치지 않고 AI, 특히 질문 답변(question answering, QA) 시스템 영역에서 더 복잡한 문제를 해결하기 위한 토대가 됐다.

QA 시스템은 생성형 AI 분야의 가장 강력한 애플리케이션 중 하나다. 이를 위해서는 구조적 데이터와 비구조적 데이터에서 모두 정확한 정보를 추출할 수 있는 역량이 필요하다. 질문의 복잡성이 높을수록 더 구조적이고 상호 연결된 지식의 필요성도 커진다. 지식 그래프의 개발이 더 심층적이고 맥락을 인식하는 웹 검색에 대한 필요성을 충족한 것과 마찬가지다.

질문에는 다음과 같은 세 가지 일반적인 유형이 있는데, 각 유형별로 복잡성 수준과 구조적 데이터에 대한 요구사항이 다르다.

  • 단일 접점 질문 : 단일 텍스트 조각을 검색해 답할 수 있는 단순한 사실 기반 질의
  • 다중 접점 질문 : 종합적인 답변을 위해 여러 텍스트 조각을 검색해서 함께 제시해야 하는 질문
  • 고급 추론 질문 : 여러 정보 조각을 통합해야 하는 더 복잡한 질의로, 표준 언어 모델의 능력을 뛰어넘는 기호 추론이 필요한 경우가 많다.

앞의 두 질문 유형은 지식의 그래프를 사용해 답할 수 있는 경우가 많지만, 세 번째 유형(고급 추론 질문)에는 더 구조적인 접근 방식, 즉 진정한 지식 그래프가 필요하다.

srcset="https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-03.png?quality=50&strip=all 1760w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-03.png?resize=300%2C152&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-03.png?resize=768%2C389&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-03.png?resize=1024%2C519&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-03.png?resize=1536%2C778&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-03.png?resize=1240%2C628&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-03.png?resize=150%2C76&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-03.png?resize=854%2C433&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-03.png?resize=640%2C324&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-03.png?resize=444%2C225&quality=50&strip=all 444w" width="1024" height="519" sizes="auto, (max-width: 1024px) 100vw, 1024px">다양한 유형의 질문 예시

RelationalAI

RAG에서 그래프RAG로 : GoK를 통해 질문에 답하기

RAG는 생성형 AI 시대의 질문 답변을 위한 최첨단 접근 방식으로 부상했다. RAG는 초창기 키워드 기반 검색 엔진과 마찬가지로 문서를 독립적인 개체로 취급하면서 각 문서 세그먼트를 개별적으로 인덱싱한다. 따라서 RAG는 비교적 간단한 질의에 효과적이지만, 여러 문서에 걸쳐 존재하는 정보 간의 더 깊은 연결 고리를 활용하지는 못한다.

srcset="https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-04.png?quality=50&strip=all 1766w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-04.png?resize=300%2C116&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-04.png?resize=768%2C297&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-04.png?resize=1024%2C397&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-04.png?resize=1536%2C595&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-04.png?resize=1240%2C480&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-04.png?resize=150%2C58&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-04.png?resize=854%2C331&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-04.png?resize=640%2C248&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-04.png?resize=444%2C172&quality=50&strip=all 444w" width="1024" height="397" sizes="auto, (max-width: 1024px) 100vw, 1024px">RAG에서 그래프RAG로

RelationalAI

마이크로소프트는 이 한계를 극복하기 위해 2024년 초에 ‘그래프RAG’라는 개념을 도입했다. 그래프RAG는 정보를 지식의 그래프로 구성해서 정보 조각 간의 관계를 활용할 수 있도록 한다. 구글이 페이지를 상호 연결된 웹의 일부로 취급함으로써 웹 검색을 혁신한 방식과 거의 흡사하다. LLM은 이 프로세스에서 중요한 역할을 한다. 일련의 문서가 제공되면 LLM은 트리플렛(triplet) 형태로 개체와 관계를 생성한다. 트리플렛은 노이즈 또는 중복 항목을 포함할 수 있지만 정보를 효과적으로 구성하는 견고한 방법을 제공한다.

그래프RAG는 텍스트 단락을 그래프의 노드로 취급해서 군집 탐지, 패턴 추출, 그래프 탐색과 같은 그래프 작업이 가능하도록 한다. 이런 작업을 통해 여러 정보 조각을 종합하고, 이를 다시 RAG 모델에 입력해서 다중 접점 질문에 대해 더 풍부하고 정확한 답변을 생성할 수 있다.

간단히 말해 그래프RAG는 단편화된 텍스트를 그래프와 비슷한 구조로 연결해서 지식의 그래프를 만들 수 있도록 하며, LLM에 더 관련성 있고 상호 연결된 입력을 제공해 질문 답변 성능을 개선한다.

RelationalAI 05그래프RAG 파이프라인에서 문서는 개체와 이들 개체 간의 관계를 통해 서로 연결되며(지식의 그래프), 이후 군집 탐지가 수행되고 그 결과로 각 문서 군집에 대한 요약이 생성된다.

RelationalAI

그래프RAG에서 지식 그래프RAG로 : KG를 통해 질문에 답하기

그래프RAG는 LLM의 추론 역량을 활용해 텍스트 기반 데이터를 지식의 그래프로 연결하지만, 세 번째 질문 유형(심층적인 추론이 필요한 질문)에는 GoK 이상이 역량이 필요하다. 이런 질문 유형에는 사실, 개체, 관계가 공식적인 온톨로지로 조직화되는 완전히 구조화된 지식 그래프가 필요하다. 지식 그래프는 사실에 근거한 정보를 저장할 뿐만 아니라 고급 추론에 필수적인 복잡한 관계와 규칙도 포착한다.

이 시나리오에서도 LLM은 여전히 중요하지만, 그 역할은 콘텐츠를 생성하거나 합성하는 것에서 구조적인 KG에 질의하는 것으로 바뀐다. LLM은 지식 그래프에서 개체와 관계를 검색하고, 그 안의 구조적 지식을 기반으로 질의를 공식으로 표현한다. 이후 전문화된 지식 그래프 엔진이 질의를 실행해서 정확하고 논리적인 답변을 반환한다.

이 프로세스에 대한 자세한 내용은 최근 발표된 문서 ‘QirK : 지식 그래프의 중간 표현을 통한 질문 답변(QirK: Question Answering via Intermediate Representation on Knowledge Graphs)’에서 볼 수 있다. 문서에서는 복잡한 질문에 답변하기 위해 LLM 기능과 지식 그래프의 논리적 힘을 결합하는 프레임워크에 대해 다룬다. 프레임워크는 인기 있는 위키데이터 지식 그래프를 기반으로 한 QA를 지원한다. 답변이 가능한 질문의 예를 들면 “쿠엔틴 타란티노 또는 마틴 스콜세지가 감독한 영화 중 로버트 드 니로가 출연한 영화는 무엇인가?”, “어느 영화의 감독이 출연 배우와 결혼했는가?”, “로버트 드 니로와 알 파치노가 모두 출연한 영화를 나열하시오” 등이 있다.

srcset="https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-06.png?quality=50&strip=all 1728w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-06.png?resize=300%2C91&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-06.png?resize=768%2C232&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-06.png?resize=1024%2C310&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-06.png?resize=1536%2C465&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-06.png?resize=1240%2C375&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-06.png?resize=150%2C45&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-06.png?resize=854%2C258&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-06.png?resize=640%2C194&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/01/RelationalAI-06.png?resize=444%2C134&quality=50&strip=all 444w" width="1024" height="310" sizes="auto, (max-width: 1024px) 100vw, 1024px">QirK 아키텍처

RelationalAI

고급 AI 추론을 향한 길

생성형 AI는 지식을 정리하고 검색하는 방식의 변혁하기 위한 전례 없는 기회를 제공한다. 비구조적 데이터(텍스트, 이미지 등)에서 사실, 논리적 제약, 재귀적 규칙이 풍부한 완전히 구조적인 지식 그래프로 가는 여정은 복잡하고 까다롭지만, 그에 따른 보상은 막대하다. 우리가 완전한 지식 그래프 실현이라는 더 야심 찬 목표를 향해 나아가는 동안, 지식의 그래프와 같은 중간 단계는 질문 답변과 같은 AI 애플리케이션을 발전시키는 실용적인 솔루션을 제공한다.

고품질 지식 그래프를 만들기까지는 아직 갈 길이 멀지만, 그래프RAG와 같은 툴은 이 여정에서 중요한 이정표를 의미한다. 이런 툴은 비구조적 텍스트와 구조적 지식 간의 간극을 메워 점점 더 복잡해지는 질문에 더욱 정확하게 답할 수 있는 AI 시스템을 위한 토대를 마련하고, 고급 추론 기반 QA 시스템이라는 비전을 현실로 만들고 있다.

*Nikolaos Vasiloglou는 릴레이셔널AI(RelationalAI)의 리서치-ML 담당 부사장이다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank