AWS, 베드록 프롬프트 캐싱·라우팅 도입…생성 AI 비용‧성능 혁신

AWS가 베드록 서비스에 프롬프트 캐싱과 라우팅 기능을 추가해 대규모 언어 모델의 운영 비용을 절감하고 성능을 최적화했다. 이는 생성 AI의 실질적인 생산 환경 도입을 지원하며, 기업들이 AI 기술을 보다 효율적으로 활용할 수 있도록 돕는 혁신적인 전략으로 평가받는다.

아마존 비트코인 채택 신중한 이유 환경과 변동성 리스크 주목 / inteliview

AWS, 대규모 언어 모델 비용 절감 전략 도입…캐싱 및 프롬프트 라우팅 기능 공개

아마존 웹 서비스(AWS)가 대규모 언어 모델(LLM)의 운영 비용을 절감하기 위한 두 가지 핵심 기능을 자사의 베드록 서비스에 새롭게 추가했다. AWS는 라스베이거스에서 열린 ‘re:Invent 2024’ 컨퍼런스에서 프롬프트 캐싱(Prompt Caching) 및 프롬프트 라우팅(Prompt Routing) 기능을 정식 발표하며, 기업들이 생성 AI 기술을 실험 단계를 넘어 실제 프로덕션 환경에 도입할 수 있도록 지원하겠다고 밝혔다.

캐싱을 통한 비용 절감 및 응답 시간 단축

프롬프트 캐싱은 동일하거나 유사한 질의를 반복적으로 처리하기 위해 동일한 데이터나 모델 계산을 재사용함으로써 효율성을 극대화하려는 기능이다. AWS에 따르면, 이 기술은 최대 90%의 비용 감축 효과를 제공할 뿐 아니라 모델로부터 응답을 받는 데 걸리는 시간을 85%까지 단축할 수 있다. 아툴 데오(Atul Deo) AWS 베드록 제품 디렉터는 “예를 들어 많은 사용자가 동일한 문서에 대한 질문을 던질 경우 각각의 질의에 대한 비용을 매번 지불해야 한다”고 설명하며, 캐싱 기술이 이러한 문제를 해결할 핵심이라고 강조했다.

대표적인 사례로, 어도비는 자사의 생성 AI 애플리케이션에 이 캐싱 기술을 실험적으로 도입한 후 응답 시간이 72% 감소한 결과를 얻었다고 보고했다. 또한, AWS는 향후 점차 증가하는 컨텍스트 토큰 사용량에도 대비하고 있다. 현재 Nova 모델은 30만 개 이상의 컨텍스트 토큰을 지원하며, 내년에는 200만 개까지도 확장될 가능성이 있다고 전했다.

프롬프트 라우팅으로 성능과 비용의 균형

AWS는 비용 효율성을 위한 또 다른 기능으로 프롬프트 라우팅을 도입했다. 이 기능은 단순한 질의를 더 저렴하고 빠른 모델로, 복잡한 요구사항은 고급 모델로 전달해 효과적으로 시스템을 운영한다. AWS는 이를 통해 성능과 비용 사이의 균형을 자동으로 조율할 수 있다고 밝혔다.

데오는 “단순한 질문을 가장 비싸고 느린 모델로 보낼 필요는 없다”며, “입력된 프롬프트의 내용을 실시간으로 분석한 후 적합한 모델에 요청을 전달하는 방식”이라고 설명했다. 이는 한층 지능적인 라우팅 시스템으로, 대부분의 작업을 사용자 개입 없이 자동으로 수행한다는 점에서 주목받고 있다. 현재 이 라우팅 기능은 동일한 모델 계열 내에서만 실행 가능하지만, AWS는 향후 이를 확장해 사용자 설정 기능을 추가할 계획이다.

맞춤형 LLM 지원을 위한 새로운 모델 마켓플레이스

AWS는 또한 베드록을 통한 대규모 사용자 기반 외에도 소규모 특화 모델 사용자를 겨냥한 새로운 마켓플레이스를 발표했다. 이 플랫폼은 사용자가 직접 인프라 용량을 관리하고 프로비저닝해야 하지만, 베드록의 자동 관리 기능과 동일한 수준의 유연성을 제공한다고 강조했다. 현재 AWS는 약 100개의 특화 모델을 제공하며, 앞으로 더 많은 모델을 추가할 예정이다.

이번 베드록 업데이트는 생성 AI 기술이 실질적인 비즈니스 환경으로 전환되는 데 기여할 핵심적인 도구로 평가받고 있다. 특히 프롬프트 캐싱 및 라우팅은 AI 모델의 비용 효율성을 극대화함과 동시에 사용 경험을 개선해 기업들이 기존 한계를 넘어 생성 AI 모델을 보다 적극적으로 도입할 수 있도록 유도할 전망이다.

AI와 클라우드 컴퓨팅이 주도하는 글로벌 데이터 센터 혁신

china chip

중국 AI 칩, 자립 속도 높여… AMD와 글로벌 격차 좁힌다

LinkedIn, AI 콘텐츠 대량 생성 시대의 선두에 서다

AI와 블록체인의 만남, 라이트체인 프로토콜이 제시하는 2024년 혁신 로드맵

엔비디아, EU 인수 승인으로 AI 기술 강화 및 주가 상승

퀀텀 컴퓨팅 시장 선점, 인텔의 미래 투자 기회 확대

정유리 기자
정유리 기자는 테크놀로지 및 IT 산업 전문 기자로, 첨단 기술 동향과 글로벌 IT 시장에 대한 심층적인 분석을 제공합니다.
2024. 11. 16. 03:28 기준