AI 맥락에서 비정형 데이터 이해하기
컨텐츠 정보
- 조회 811
본문
현재 생성되는 데이터양은 엄청나다. IDC는 2028년이면 전 세계 데이터 양이 400제타바이트(4,000억 테라바이트)에 이르고, 그중 90%는 비정형 데이터가 될 것으로 전망한다. 이와 같은 데이터, 특히 비정형 데이터의 폭증은 두 가지 질문으로 이어진다. 그 많은 데이터를 어떻게 관리할 것인가, 그리고 차세대 AI 애플리케이션에 이 데이터를 어떻게 사용할 것인가다.
여기서는 비정형 데이터가 무엇인지, 현재 앞서가는 기업이 비즈니스에 어떤 방식으로 비정형 데이터를 사용하고 있는지, 그리고 데이터의 양이 기하급수적으로 증가함에 따라 앞으로 어떤 일이 벌어질지 살펴본다.
다양한 데이터 유형의 기초
대부분 사람에게 익숙한 전통적인 형식의 데이터는 정형 데이터, 즉 테이블 기반 형식에 잘 들어맞는 데이터다. 정형 데이터는 데이터 저장 및 검색 형식이 체계적이며, 그로 인해 오랫동안 전통적인 데이터베이스 시스템과 데이터 관리의 기반 역할을 했다.
기존 형식에서 한 걸음 더 발전한 형태가 테이블 기반 형식의 경직성에 대처하기 위해 탄생한 반정형(semi-structured) 데이터다. 반정형 데이터는 정형 데이터의 몇 가지 체계적인 요소를 그대로 유지하면서 테이블 형식의 전통적인 제약을 없앤다. 반정형 데이터는 더 유영한 데이터 구조를 관리하도록 설계된 카산드라, 몽고DB, 레디스와 같은 NoSQL 데이터베이스의 인기를 견인했다.
그다음에 등장해서 가장 보편적인 데이터 유형이 된 것이 바로 비정형 데이터다. 이름이 말해주듯이 비정형 데이터는 형식에 제약이 없으며 크기도 다양하고 복잡한 의미 관계를 만든다. 따라서 비정형 데이터에는 처리와 관리 측면에서 기존과는 매우 다른 접근 방식이 필요하다.
의미 복잡성에 대해 더 깊이 알아보기 위해 같은 사물을 촬영한 3장의 사진을 생각해 보자. 각 사진 뒤의 원시 데이터는 매우 다를 수 있지만(파일 크기, 픽셀 수, 해상도 등) 사진의 의미는 동일하다. 여기에 현대 데이터 관리의 어려움이 있다. 기술적인 특징이 아니라 의미를 기반으로 콘텐츠를 저장, 검색, 분석하는 제일 나은 방법은 무엇일까?
비정형 데이터의 범주
비정형 데이터는 크게 인간이 생성한 데이터와 기계가 생성한 데이터, 2가지로 분류된다. 인간이 생성하는 비정형 데이터의 예를 들면 다음과 같다.
- 문자 메시지: 대부분 사람은 줄임말, 이모지와 같은 비격식 언어를 사용해 문자 메시지를 작성한다.
- 이메일 : 일반적으로 문자 메시지보다는 더 형식적이지만 많은 경우 이메일에는 받는 사람, 보낸 사람 필드와 같은 반정형 데이터, 자유 형식의 텍스트와 이미지 또는 첨부 파일이 포함된다.
- 소셜 미디어 포스트 : 소셜 미디어 플랫폼 콘텐츠의 구조와 내용은 사용되는 매체(예를 들어 페이스북, 링크드인, X)에 따라 크게 다르다.
- 수기 메모 : 수기 메모는 비정형 데이터의 원조 격이며, 텍스트와 다이어그램, 그림 또는 기타 시각적 요소를 포함할 수 있다.
- 오디오 녹음 : 음성 메일, 전화 통화, 오디오 메모 기타 오디오 파일 유형을 포함한 다양한 비정형 데이터 형태를 취한다.
- 필사본 : 인터뷰, 미팅, 전화 통화 및 연설은 모두 필사가 가능하며 정확도가 일정하지 않다.
- 이미지 : 시각적 데이터에는 사진, 다이어그램, 차트, 일러스트, 스크린샷이 포함될 수 있으며 각각에는 얼굴 표정부터 텍스트 오버레이, 복잡한 장면에 이르기까지 여러 계층의 정보가 포함될 수 있다.
- 비디오 : 비디오 콘텐츠는 시각, 청각, 그리고 많은 경우 텍스트 요소(캡션 또는 오버레이 등)를 짧은 모바일 클립부터 전문적인 프로덕션, 감시 영상에 이르는 복합적인 비정형 데이터로 결합한다.
비정형 데이터는 기계가 생성한 데이터일 수도 있다. 예를 들면 다음과 같다.
- IoT 데이터 : 인터넷에 연결된 스마트 디바이스의 수가 증가함에 따라 이런 디바이스에서 생성하고 수집하는 데이터의 양도 함께 증가한다.
- 센서 데이터 : 마찬가지로 모션 센서, GPS 센서, 온도 센서를 비롯해 데이터를 수집하는 센서의 수와 종류도 계속해서 증가하고 있다.
- 기계 로그 데이터 : 이 유형의 데이터에는 시스템 로그, 애플리케이션 로그, 이벤트 로그가 포함될 수 있다.
- NLP(natural language processing) 데이터 : 음성 인식, 언어 번역, 감정 분석 기술 모두 비정형 데이터를 생성한다.
- 웹 및 앱 데이터 : 웹 및 모바일 앱은 성능 데이터, 사용자 데이터, 오류 로그를 포함한 다양한 비정형 데이터를 생성한다.
물론 위 목록은 극히 일부일 뿐이다. 이렇게 보면 비정형 데이터가 어떻게 해서 지배적인 형태의 데이터가 되었는지 쉽게 이해할 수 있을 것이다.
데이터 관리 측면에서 비정형 데이터의 의미
정형 데이터와 비정형 데이터의 차이는 전통적인 데이터베이스 시스템과 현대적인 AI 데이터베이스 시스템의 정보 처리 방식이 다름을 의미한다.
도서관의 책 정리와 같은 작업을 고려해 보자. 전통적인 데이터베이스(정형 데이터)에서 검색은 제목, 저자 이름, 출판 날짜 등 모든 부분에 명확한 레이블이 있는 특정 책을 찾는다. 스티븐 킹이 쓴 모든 책을 찾고 싶다면 저자 카탈로그를 검색해서 일치 항목을 찾기만 하면 된다.
이것이 전통적인 데이터베이스의 기본적인 작동 방식이다. 완전히 일치하는 정보를 찾는 정확하고 예측할 수 있는 방법이다.
한편 현대적 AI 데이터베이스(비정형 데이터)에서 검색은 좋아하는 책과 비슷한 책을 찾는 것이라고 할 수 있다. 저자나 제목이 아니라 문체나 내용과 같은 요소를 고려해야 한다. 이 유형의 검색은 더 주관적이며 명확한 이분법적 일치 여부보다는 “느낌”에 더 의존한다.
이것이 현대 AI 데이터베이스에서 앞서 언급한 유형의 비정형 데이터를 다루는 방식이다. 정확한 일치 항목을 찾는 대신 비슷하거나 “충분히 근접한” 결과를 찾는다.
중요한 차이점은 전통적인 데이터베이스의 경우 기존의 라이브러리 카탈로그를 사용해서 정확한 일치 항목을 찾는다는 점이다. “스티븐 킹”을 검색하면 스티븐 킹의 책 목록만 받게 된다. 반면 AI 데이터베이스는 누군가에게 논조, 문체, 주제 등이 스티븐 킹이 쓴 책과 비슷한 책을 추천해달라고 요청하는 것과 같다. 이 시나리오에서는 유력한 제안을 받을 수 있지만 그 제안이 “완벽한” 일치 항목은 아닐 수 있다.
현대적 AI 데이터베이스의 접근 방법은 균형 잡기다. 검색에 더 많은 시간을 투자하고 더 많은 책 속성을 고려하면(논조, 문제, 주제 등) 더 정확한 결과를 얻게 되지만 프로세스의 속도는 더 느려진다.
이 모든 것이 앞으로 갖는 의미
비정형 데이터의 지속적인 폭증은 모든 유형의 조직이 극복해야 할 중요한 과제가 되고 있다. 비정형 데이터의 양은 엄청난 속도로 정형 데이터를 앞지르면서 비정형 데이터를 가장 잘 이해하고 활용하는 기업이 경쟁에서 우위를 점하게 될 것이다. 기업은 이 새로운 패러다임을 헤쳐 나가려면 데이터 자산에서 가치를 창출할 수 있게 해주는 툴을 구현하고 온전히 활용해야 한다.
여기서 키워드는 단절 없는 매끄러움이다. 정형 데이터와 비정형 데이터를 단절 없이 매끄럽게 관리하는 기업은 원시 데이터와 인사이트 사이의 간극을 이을 수 있게 되고, 이를 통해 유의미한 비즈니스 발전을 이끌 수 있다. 400제타바이트의 시대는 다가오는 중이다. 궁극적으로 비정형 데이터와 정형 데이터를 구분하는 것보다는 비정형 데이터에서 효과적으로 가치를 끌어내는 역량이 더 중요해질 것이다.
*James Luan은 Zilliz의 엔지니어링 부사장이자 오픈소스 벡터 데이터베이스 Milvus를 만들었다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






