본문 바로가기
인공지능

인공지능 챗봇 대형 언어 모델 성능 비교 (태스크별, 언어별)

by AI-Play 2024. 9. 2.
반응형

정말 다양한 챗봇들이 하루가 다르게 새로운 모델로 출시되고, 세계적인 기업들이 앞다투어 최신 모델을 선보이며 치열한 경쟁을 하고 있다.

 

이렇듯 새로운 인공지능 대형 언어 모델들이 끊임없이 출시되는 오늘날, 어떤 모델이 가장 성능이 좋은지 어떻게 비교할 수 있을까?

 

챗봇 아레나 - 오픈소스 대형 언어 모델 성능 평가 플랫폼

챗봇 아레나는 오픈소스 연구 프로젝트의 일환으로 운영되고 있다. 챗봇 아레나는 실제 세계에서 사람들이 어떤 대형 언어 모델을 더 선호하는지를 실시간으로 평가할 수 있는 플랫폼이다. 시중에 가능한 모든 챗봇에게 동일한 프롬프트를 제시한 후, 사람들이 어떤 결과를 더 선호하는지를 직접 투표하는 방식으로 대형 언어 모델의 성능을 평가하고 있다.

 

챗봇 아레나 리더보드:

https://lmarena.ai/?leaderboard

 

대형 언어 모델 성능 순위 (2024년 9월 기준)

대형 언어 모델 성능 순위 - 2024년 9월 기준

 

이 표에서 볼 수 있듯이, 2024년 9월 기준으로 현재 나와 있는 대형 언어 모델들 중에서 성능이 가장 뛰어난 모델은 예상대로 ChatGPT의 최신 모델인 ChatGPT 4o (latest) 모델이다. 이 모델은 2위인 구글의 Gemini와 15점 차이로 1위를 차지하고 있다.

 

공동 2위는 구글의 제미나이 Gemini 1.5 모델과 xAI의 Grok 2 모델이다.

 

5위 또한 ChatGPT 4o 가 차지하고 있는데, 이는 최신 모델 이전 버전인 2024년 5월 모델이이다.

 

6위는 GPT 4o mini가 차지하고 있다. 이 모델은 다른 모델들에 비해서 압도적으로 저렴하기 때문에, 성능 대비 가격을 고려했을 때 현재로서는 단연 최고의 선택이 아닐까 생각한다. 성능에 따른 가격 비교는 LLMCompare 에서 제공하고 있다. 

 

그 뒤로는 Claude 3.5 Sonnet, Gemini 1.5 Flash와 Advanced App, Meta의 Llama 3.1 405b, Grok 2 Mini가 공동 6위를 기록하고 있다.

 

대형 언어 모델 태스크별 성능

대형 언어 모델 - 태스크별 성능 순위

 

ChatGPT 4o가 대부분의 태스크에서 압도적인 1위를 차지하고 있다. 태스크와 상관없이 높은 성능의 모델을 사용하려면 현재로서는 역시 ChatGPT 4o를 사용하는 것이 답인 듯하다. 코딩, 수학, 긴 쿼리 등 대부분의 영역에서 1위를 차지하고 있다.

 

수학 부분에서는 구글의 Gemini 1.5와 Claude 3.5 Sonnet이 ChatGPT와 함께 공동 1위를 차지하고 있으며, 긴 프롬프트 처리 부분에서는 구글의 Gemini 1.5가 공동 1위를 기록하고 있다.

 

대형 언어 모델 언어별 성능

대형 언어 모델 - 언어별 성능 순위

 

최신 모델인 ChatGPT 4o 가 영어 부분에서 압도적으로 1위를 달리고 있다.

 

한국어 부문에서는 꽤나 많은 모델들이 공동 1위를 차지하고 있다: ChatGPT-4o, Gemini 1.5, Grok 2가 공동으로 1위이다.

 

ChatGPT 다음으로 가장 많이 사용되고 있는 Claude 3.5 Sonnet 은 한국어 부문에서는 ChatGPT에 비해 다소 뒤처지고 있는 것으로 평가되고 있다.