카카오, LLM 오케스트레이션 평가 벤치마크로 ICLR 2026 채택

Home > > 기사내용

입력 2026.02.03 11:43:40

황수오

에이전틱 AI 성능 측정 지표 제시…한국어 반영한 벤치마크 깃허브 공개

사진=카카오

카카오의 인공지능(AI) 연구 성과가 글로벌 학술 무대에서 경쟁력을 인정받았다. 대형 언어모델(LLM)의 오케스트레이션 능력을 평가하는 자체 벤치마크가 세계 최고 수준의 AI 학회에서 논문으로 채택되며 기술력을 입증했다.

카카오(대표 정신아)는 자체 개발한 ‘오케스트레이션 벤치마크(Orchestration Benchmark)’가 세계 3대 AI 학회 중 하나인 ‘국제표현학습학회(ICLR) 2026’에 논문으로 채택됐다고 3일 밝혔다. ICLR은 글로벌 빅테크와 연구기관들이 주목하는 인공지능 분야 최고 권위 학회로, 올해 약 1만9000여 편의 논문 중 상위 28%만 채택됐다.

이번 벤치마크는 최근 LLM이 단순 질의응답을 넘어 다양한 작업을 스스로 계획하고 조율하는 ‘에이전틱 AI’로 진화하고 있다는 기술 흐름에 착안해 개발됐다. 카카오는 실제 서비스 환경에서 요구되는 멀티 스텝, 멀티 도메인 처리 능력을 정밀하게 평가하는 데 초점을 맞췄다.

기존 LLM 벤치마크가 단편적인 성능 측정에 머물렀다면, 카카오의 오케스트레이션 벤치마크는 사용자 요청을 해석해 작업을 계획하고 적절한 도구를 호출·실행하는 전 과정을 분리해 평가하는 프레임워크를 제시한다. 이를 통해 복잡한 서비스 환경에서의 실질적인 AI 운용 능력을 검증할 수 있도록 했다.

벤치마크는 여행, 쇼핑, 금융, 일정 관리 등 17개 서비스 도메인과 100여 개의 가상 도구로 구성됐다. 사용자 요청 변경이나 추가 질문이 이어지는 실제 대화 흐름을 반영한 시나리오를 적용해 실용성을 높였다. 모든 평가 데이터는 AI 어노테이터의 수작업 검증을 거쳐 구축됐으며, 한국어와 영어를 모두 지원한다. 특히 한국어 버전은 문화적 맥락과 표현 특성을 반영해 평가 정확도를 강화했다.

카카오는 해당 연구 성과를 깃허브에 오픈소스로 공개해 글로벌 AI 연구 개발 생태계 활성화에도 나선다. 이를 통해 다양한 연구자와 기업이 에이전틱 AI의 성능을 검증하고 고도화하는 데 활용할 수 있을 것으로 기대된다.

카카오 관계자는 “이번 오케스트레이션 벤치마크는 에이전틱 AI가 실제 서비스 환경에서 안정적으로 작동하는지를 평가하는 핵심 지표”라며 “앞으로도 에이전트 간 협업과 오케스트레이션 능력 강화를 위한 연구를 지속하며, 카카오의 에이전틱 AI 방향성에 부합하는 기술 고도화를 추진해 나갈 것”이라고 말했다.

<문화경제 황수오 기자>

황수오 jongrosuoh@naver.com