2024년 11월 27일, 알리바바가 새로운 인공지능 ‘추론’ 모델인 QwQ-32B-프리뷰를 공개했다. 이 모델은 오픈AI의 O1 모델과 경쟁할 수 있는 몇 안 되는 모델 중 하나로, 허용적인 라이선스하에 다운로드 가능한 첫 번째 모델이다.
알리바바의 췐(Qwen) 팀이 개발한 QwQ-32B-프리뷰는 325억 개의 파라미터를 포함하며 최대 32,000 단어의 프롬프트를 고려할 수 있는 능력을 갖추었다. 이 모델은 오픈AI의 O1 프리뷰 및 O1 미니 모델이 출시된 이후로 몇몇 벤치마크에서 더 나은 성능을 보였다. 모델의 파라미터는 문제 해결 능력을 어느 정도 예측할 수 있는 지표로, 일반적으로 더 많은 파라미터를 가진 모델이 더 나은 성능을 보인다.
알리바바의 테스트에 따르면 QwQ-32B-프리뷰는 AIME와 MATH 테스트에서 오픈AI의 O1 모델들을 상회하는 결과를 보였다. AIME는 다른 AI 모델을 사용하여 모델의 성능을 평가하고, MATH는 수학 문제 모음집으로 평가를 진행한다.
QwQ-32B-프리뷰는 논리 퍼즐을 해결하고 비교적 어려운 수학 질문에 답할 수 있는 “추론” 능력을 가지고 있지만, 완벽하지 않다. 알리바바는 블로그 게시물에서 이 모델이 예기치 않게 언어를 전환하거나, 루프에 빠질 수 있으며, “상식적 추론”을 요구하는 작업에서 성능이 저하될 수 있다고 지적했다.
QwQ-32B-프리뷰는 대부분의 AI 모델과 다르게 스스로 사실 확인을 효과적으로 수행하기 때문에 일반적으로 모델이 빠지기 쉬운 함정에서 모면할 수 있다. 그러나 그만큼 해결책에 도달하기까지 시간이 오래 걸린다는 단점이 있다. 이 모델은 과제를 해결할 때 계획을 세우고 일련의 작업을 수행하여 답변을 도출하는 방식으로 오픈AI의 모델 O1과 유사하게 작동한다.
이 모델은 허깅페이스(AI 개발 플랫폼)에서 실행 및 다운로드가 가능하며, 최근 출시된 딥시크(DeepSeek) 추론 모델과 유사하게 특정 정치적 주제를 조심스럽게 다룬다. 알리바바와 딥시크 같은 중국 회사들은 모델의 응답이 “핵심 사회주의 가치”를 담았는지를 평가받기 위한 인터넷 규제 테스트를 거치게 된다.
QwQ-32B-프리뷰는 “오픈” Apache 2.0 라이선스하에 제공되어 상업적 응용이 가능하다. 그러나 모델의 일부 구성 요소만 공개되어 있어 QwQ-32B-프리뷰를 그대로 복제하거나 모델의 내부 작동 방식을 깊게 알기는 어렵다.
AI 모델에 더 많은 데이터와 컴퓨팅 파워를 추가하면 지속적으로 성능이 향상된다는 기존 이론인 ‘스케일링 법칙’에 의문이 제기되면서, 이유 모델에 대한 관심이 증가하고 있다. 여러 보도에 따르면, 메이저 AI 연구소의 모델들이 이전보다 크게 발전하지 않는 상황에서 새로운 AI 접근법, 아키텍처 및 개발 기술이 도입되고 있다. 그 중 하나는 테스트 타임 컴퓨트로 알려진 방법으로, QwQ-32B-프리뷰와 같은 모델의 기반을 이루고 있다. 이 기법은 모델이 작업을 완성하는 데 더 많은 처리 시간을 부여하는 원리다.
구글을 포함한 대형 연구소들은 테스트 타임 컴퓨트가 미래라는 확신 아래 이에 대해 베팅하고 있다. 최근 더 인포메이션에 따르면, 구글은 이 분야에 대한 내실 있는 팀을 200명 정도로 확장하고 막대한 컴퓨팅 파워를 추가했다고 전해졌다.