합성 데이터를 활용한 인공지능(AI) 훈련 방식이 최근 AI 업계에서 주목받고 있다. 데이터 부족, 비용 문제, 그리고 윤리적 이슈를 해결할 방법으로 합성 데이터 생산이 부상했지만, 이 방법에는 여전히 한계와 위험이 상존한다는 분석이다.
12월 24일(현지시간), 테크크런치(TechCrunch)는 합성 데이터의 잠재력과 한계를 심도 있게 다뤘다. AI 모델 훈련을 위해 실제 데이터보다 컴퓨터가 생성한 합성 데이터를 활용하고자 하는 시도가 업계 전반에서 이어지고 있으며, 이를 적극적으로 활용하는 기업도 늘고 있다. 예컨대, 안트로픽(Anthropic)은 자사의 플래그십 모델 클로드 3.5(Claude 3.5)를 몇몇 합성 데이터로 훈련했으며, 메타(Meta)는 자사 AI 모델 라마 3.1(Llama 3.1)의 성능 개선을 위해 이 방법을 사용했다.
합성 데이터: 비용 절감과 접근성의 이점
합성 데이터는 데이터 생성비용을 크게 낮출 잠재력을 가지고 있다. 테크크런치에 따르면, AI 스타트업 라이터(Writer)는 합성 데이터로 훈련된 모델 개발 비용이 70만 달러(약 9억 8천만 원)에 불과했다고 밝혔다. 이는 같은 크기의 오픈AI(OpenAI) 모델에 드는 약 460만 달러(약 64억 원)의 비용과 비교하면 월등히 낮은 수치다.
또한, 특정 데이터세트 생성이 어려운 경우 합성 데이터를 통해 이를 보완할 수 있다. 예를 들어, 메타는 자사의 동영상 생성 모델 ‘무비 젠(Movie Gen)’ 훈련 과정에서 라마 3를 이용해 합성 캡션 데이터를 생성하고 이를 인간 전문가가 보완했다.
합성 데이터가 직면한 한계와 리스크
합성 데이터는 환상적인 대안처럼 보이지만, 모든 문제를 해결하지는 못한다. 가장 큰 문제는 AI가 생성한 데이터가 기존 데이터의 편향과 오류를 포함할 가능성이 높다는 점이다. 예컨대, 한 데이터세트에 특정 그룹이 적게 포함되어 있다면 합성 데이터도 이와 유사한 문제를 반복하게 된다.
2023년 스탠퍼드대와 라이스대 연구진은 합성 데이터를 지나치게 의존하면 모델의 품질이나 다양성이 점진적으로 감소할 수 있다고 경고했다. 실제 데이터와 혼합되지 않는 합성 데이터는 몇 번의 훈련 과정을 거친 후 예측력을 상실하기 시작하며, 더 일반적이거나 심지어 질문과 동떨어진 답변을 생성할 수 있다.
신뢰할 수 있는 AI를 위한 조화로운 접근법
AI 및 데이터 전문가들은 합성 데이터를 신뢰성 있게 활용하려면 반드시 검증, 리뷰, 필터링 과정이 필요하다는 데 의견을 모은다. 또한, 합성 데이터를 현실 세계의 데이터와 병합해 사용하는 방식이 이상적이다. 이는 AI 모델 훈련에 있어 예측력 유지와 창의적 다양성을 확보할 방법으로 제시된다.
오픈AI의 CEO 샘 알트만은 향후 AI가 스스로를 훈련할 수 있을 만큼 완벽한 합성 데이터를 생산할 날이 올 것이라고 주장했으나, 현재 기술로는 그 수준에 도달하지 못하고 있다. 전문가들은 적어도 가까운 미래에는 인간의 적극적인 개입과 검증이 필요하다고 강조한다.
AI의 발전과 데이터 제공 모델의 미래
합성 데이터 활용에 대한 찬반 논쟁에도 불구하고, 이 기술은 높은 효율성과 접근성 덕분에 빠른 속도로 발전하고 있다. 그러나 데이터 품질 저하와 같은 잠재적 문제를 지속적으로 주시해야 한다. AI 산업이 이 문제를 어떻게 해결할지에 따라 합성 데이터가 AI 혁신의 핵심 동력이 될 가능성은 여전히 크다.