W szybko ewoluującym krajobrazie sztucznej inteligencji, nadążanie za najnowszymi osiągnięciami w modelach językowych jest kluczowe. LMSYS Chatbot Arena, platforma oparta na crowdsourcingu, stała się znaczącym centrum oceny tych modeli. Wykorzystując ponad 1,7 miliona ludzkich porównań parami, platforma klasyfikuje modele językowe przy użyciu modelu Bradleya-Terry’ego, wyświetlanego w formacie skali ELO. Od sierpnia 2024 r., poniżej przedstawiono najwyżej oceniane modele językowe na podstawie ich wyników Arena:
1. ChatGPT-4o-najnowszy (2024-08-08)
- Wynik na arenie : 1316 (+4/-4)
- Głosy : 24,023
- Organizacja : OpenAI
- Licencja : Własnościowa
- Próg wiedzy : 2023/10
ChatGPT-4o-latest jest liderem, odzwierciedlając stałe skupienie OpenAI na udoskonalaniu i ulepszaniu ich flagowego modelu. Ta wersja, zaktualizowana niedawno, bo w sierpniu 2024 r., oferuje znaczące ulepszenia zarówno w zakresie rozumienia kontekstowego, jak i generowania odpowiedzi, co czyni ją najlepszym wyborem dla użytkowników.
2. Gemini-1.5-Pro-Exp-0827
- Wynik na arenie : 1301 (+5/-5)
- Głosy : 19,910
- Organizacja : Google
- Licencja : Własnościowa
- Próg wiedzy : 2023/11
Tuż za nim plasuje się Gemini-1.5-Pro-Exp-0827, opracowany przez Google, z wynikiem 1301. Model ten wyróżnia się szczególnie zaawansowanymi funkcjami eksperymentalnymi, które zapewniły mu mocną pozycję w rankingu.
3. Grok-2-08-13
- Wynik na arenie : 1295 (+6/-6)
- Głosy : 10,019
- Organizacja : xAI
- Licencja : Własnościowa
- Próg wiedzy : 2024/3
Grok-2, od xAI, zajmuje trzecie miejsce, pokazując rosnący wpływ nowych graczy w dziedzinie AI. Rozwój Grok-2 koncentruje się na precyzyjnym i bogatym w kontekst przetwarzaniu języka, ustanawiając nowy standard interakcji AI.
4. GPT-4o-2024-05-13
- Wynik na arenie : 1286 (+3/-2)
- Głosy : 82,934
- Organizacja : OpenAI
- Licencja : Własnościowa
- Próg wiedzy : 2023/10
Wersja GPT-4o, która ma zostać wydana w maju 2024 r., utrzymuje swoją mocną pozycję dzięki solidnej wydajności w różnych zadaniach, w szczególności w zakresie rozumienia i generowania języka naturalnego.
5. GPT-4o-mini-2024-07-18
- Wynik na arenie : 1274 (+4/-4)
- Głosy : 23,147
- Organizacja : OpenAI
- Licencja : Własnościowa
- Próg wiedzy : 2023/10
GPT-4o-mini to bardziej kompaktowa, ale równie wydajna alternatywa dla pełnego modelu GPT-4o, idealna do zastosowań, w których wydajność obliczeniowa jest równie ważna, jak jakość wyników.
6. Claude 3.5 Sonet
- Wynik na arenie : 1270 (+3/-3)
- Głosy : 53,352
- Organizacja : Anthropic
- Licencja : Własnościowa
- Próg wiedzy : 2024/4
Claude 3.5 Sonnet firmy Anthropic to mocny kandydat, znany ze swoich zaawansowanych możliwości etycznej sztucznej inteligencji i dogłębnego zrozumienia, co jest wysoko cenione w obsłudze klienta i środowiskach, w których przetwarzane są wrażliwe dane.
7. Meta-Llama-3.1-405b-Instrukcja
- Wynik na arenie : 1266 (+3/-5)
- Głosy : 24,584
- Organizacja : Meta
- Licencja : Llama 3.1 Community
- Próg wiedzy : 2023/12
Najnowszy model Llama firmy Meta cieszy się szczególną popularnością w środowiskach badawczo-rozwojowych dzięki swojemu otwartemu oprogramowaniu i rozbudowanym możliwościom nauczania.
8. GPT-4o-2024-08-06
- Wynik na arenie : 1262 (+5/-5)
- Głosy : 14,886
- Organizacja : OpenAI
- Licencja : Własnościowa
- Próg wiedzy : 2023/10
Kolejna wersja GPT-4o, która ma zostać wydana w sierpniu 2024 r., nadal radzi sobie wyjątkowo dobrze, zapewniając sobie miejsce w czołówce rankingów.
9. Gemini-1.5-Pro-001
- Wynik na arenie : 1259 (+3/-3)
- Głosy : 74,660
- Organizacja : Google
- Licencja : Własnościowa
- Próg wiedzy : 2023/11
Wcześniejsza wersja serii Gemini 1.5 nadal zajmuje znaczącą pozycję, co wskazuje na stałą jakość i innowacyjność działu sztucznej inteligencji firmy Google.
Wniosek
Konkurencja między modelami językowymi AI w 2024 r. jest zacięta, a główni gracze, tacy jak OpenAI, Google, xAI i Meta, przesuwają granice tego, co te modele mogą osiągnąć. Rankingi nie tylko odzwierciedlają obecny stan technologii AI, ale także wskazują na przyszłe trendy, gdy wkraczamy w 2025 r. Dzięki ciągłym postępom modele te mają stać się jeszcze bardziej zintegrowane z codziennymi aplikacjami, napędzając innowacje w różnych branżach.