구글, 앤트로픽의 클로드를 활용해 새로운 AI 모델 ‘제미니’ 성능 개선 중
구글이 자사의 최신 인공지능(AI) 모델 ‘제미니(Gemini)’의 성능을 개선하기 위해 앤트로픽(Anthropic)의 AI 모델 ‘클로드(Claude)’를 활용하고 있다는 내부 문건이 공개됐다.
23일(현지시간) 테크크런치(TechCrunch)는 구글 디프마인드(DeepMind)가 클로드의 답변을 제미니와 비교 평가하는 작업을 진행 중이라고 보도했다. 이 작업은 제미니의 출력 결과를 클로드와 비교하며 진실성, 상세성 등 다양한 기준으로 평가하는 방식으로 이뤄진다.
제미니와 클로드의 비교 테스트 진행
테크크런치가 입수한 내부 문서에 따르면, 제미니 평가를 맡고 있는 계약직 평가자들은 각 질문에 대해 두 모델의 응답을 약 30분 동안 면밀히 검토하고 있다. 특히 최근 평가 프로세스에서 클로드의 이름이 포함된 응답을 발견했으며, 일부는 “나는 앤트로픽이 만든 클로드입니다”라는 문구가 명시된 것으로 알려졌다.
앤트로픽의 클로드는 특히 안전 기준이 높은 것으로 평가되었다. 내부 채팅 기록에 따르면 클로드는 안전하지 않은 요청에 대해 응답을 회피하는 반면, 제미니는 같은 요청에 대해 “큰 안전 위반” 판정을 받은 사례도 있었다. 한 예로, 클로드는 특정 롤플레잉 요청에 응답을 거부했지만, 제미니는 부적절한(nudity와 bondage를 포함한) 콘텐츠를 생성했다는 지적을 받았다.
앤트로픽의 이용 약관 위반 가능성 논란
앤트로픽의 상업 이용약관에 따르면, 클로드는 “경쟁 제품/서비스를 구축하거나 경쟁 AI 모델을 훈련”하는 목적으로 사용이 금지된다. 이에 따라 구글이 이 과정을 위해 앤트로픽의 승인을 받았는지 여부가 쟁점으로 떠오르고 있다.
구글 디프마인드의 대변인 시라 맥나마라는 테크크런치의 질문에 대해 “업계 표준 관행에 따라 모델 출력을 비교 평가할 수 있다”면서도, “클로드를 사용해 제미니를 훈련했다는 주장은 사실이 아니다”라고 해명했다. 앤트로픽 측 대변인은 논평 요청에 응답하지 않았다.
AI 비교 평가의 중요성과 업계 관행
AI 개발 경쟁이 치열해지는 가운데, AI 모델의 성능을 비교 평가하는 방식은 업계 표준으로 자리잡은 상태다. 구글 역시 다양한 벤치마크와 타사 모델 비교를 통해 자사 AI 모델의 성능을 개선하려는 것으로 보인다. 그러나 이번 사례는 경쟁사의 모델을 평가에 활용하는 과정에서 윤리적 및 법적 이슈를 제기하며 더욱 주목받고 있다.
테크크런치는 최근 보도를 통해 구글이 AI 평가 업무를 계약직 평가자들에게 맡기면서 의료 정보를 포함한 민감한 주제에 대한 응답도 평가하도록 하고 있다고 전했다. 이는 AI가 부정확한 정보를 생성할 가능성에 대한 우려를 불러일으켰다.
AI 경쟁이 가져올 미래 과제
구글의 이번 행보는 기술 혁신 경쟁 속에서 AI의 성능과 안전성을 두루 고려해야 하는 딜레마를 단적으로 보여준다. 글로벌 AI 시장에서 제미니와 클로드 같은 모델이 제시하는 결과는 단순히 기술력에 그치지 않고, 이를 사용하는 소비자와 사회 전반의 신뢰를 직접적으로 좌우할 전망이다.