Bara Google depășește GP4 pe Arena Leaderboard: O actualizare majoră
Bara Google a făcut un salt semnificativ în clasamentul Arena, depășind GP4 pentru a ocupa locul al doilea. Arena Leaderboard, menținută de organizația LM CIS, este o platformă deschisă pentru evaluarea LLN, care colectează peste 200.000 de preferințe umane pentru a clasifica LLN-urile folosind sistemul de clasare ELO.
Emoție în jurul realizării Barului Google
Organizația LM CIS a postat pe Twitter despre rezultatele Google Bar și chiar Google a retweetat tweet-ul, exprimând entuziasmul cu privire la utilizarea Bar. Această evoluție surprinzătoare i-a uimit pe toată lumea de când Gemini Pro, care deține acum a doua poziția, deținea anterior poziția a opta în clasament.
Înțelegerea Clasamentului Chat Arena
Chat Arena Leaderboard este o platformă aglomerată care evaluează LLN-urile în scenarii din lumea reală. Spre deosebire de Hugging Face Open LLM Leaderboard, care urmărește performanța LLN pe benchmark-urile existente, Chat Arena Leaderboard oferă utilizatorilor două modele selectate aleatoriu dintr-un grup de peste 20 de modele de limbă mari proprietare și open-source.
Utilizatorilor li se prezintă „Modelul A” și „Modelul B” fără să știe ce model anume sunt. După generarea răspunsurilor, utilizatorii pot alege ce răspuns preferă. De exemplu, utilizatorii pot selecta „B” dacă îl consideră mai bun. Clasamentul dezvăluie apoi modelul din spatele răspunsului ales, cum ar fi „B Gen 24 (Gemini Pro)” sau „Previzualizare GBD4”.
Clasamentul urmărește scorul mediu ELO pentru diferite modele pe baza feedback-ului utilizatorilor. În prezent, Bar cu Gemini Pro deține a doua poziție cu un scor ELO de 1215. Cu toate acestea, deoarece acest clasament se bazează pe preferințele umane, poate varia în funcție de tipurile de întrebări și interogări adresate.
Distingerea diferitelor versiuni ale Gemini Pro
A existat confuzie cu privire la diferitele versiuni de Gemini Pro disponibile pe clasament. Grupul LMIS oferă explicații pentru trei versiuni diferite:
- Gemini Pro: API-ul Vortex AI pe Google Cloud
- Gemini Pro Dev: API-ul pentru dezvoltatori pe Google AI Studio (accesibil gratuit cu limitări)
- Bard 24 ianuarie Gemini Pro: Cea mai recentă versiune, posibil să nu fie disponibilă pentru toți utilizatorii
Versiunea Bard accesibilă pe site-ul Google reflectă ultima actualizare din 18 decembrie 2023. Cu toate acestea, versiunea folosită în Chat Arena Leaderboard se bazează pe versiunea din ianuarie 2024, ceea ce indică faptul că este cea mai recentă.
Accesul Gemini Pro la Internet
Succesul Gemini Pro în cea mai recentă actualizare poate fi atribuit parțial accesului său la internet prin intermediul API-ului. Spre deosebire de GP4 Turbo și alte variante GP4 care se bazează exclusiv pe date de antrenament, noua versiune de Bar cu Gemini Pro are acces la internet. Acest lucru a fost confirmat prin întrebarea atât pe GP4, cât și pe Bar despre câștigătorul primarelor republicane din Iowa.
În timp ce GP4 a declarat că Donald Trump a câștigat primarul republican din 2020 din Iowa, Bar a oferit informații mai detaliate despre caucusurile republicane din 2024 desfășurate pe 14 ianuarie. Bar a enumerat candidații și procentele de voturi ale acestora, deși a existat o discrepanță minoră în rezultate.
Este de remarcat faptul că și alte modele de pe Chatbot Arena Leaderboard, precum cele de la Perplexity AI, au acces la internet. Cu toate acestea, performanța îmbunătățită a lui Bar cu Gemini Pro este un progres semnificativ.
Verificare și comparare pe Chatbot Arena
Chatbot Arena oferă posibilitatea de a rula două modele una lângă alta pentru a le compara răspunsurile. Selectând ediția B din 24 ianuarie a lui Bar și GP4 Turbo, liderul actual al clasamentului, utilizatorii le pot testa pe diferite solicitări.
De exemplu, când a fost întrebat despre o ghicitoare despre trei ucigași dintr-o cameră, GP4 Turbo a oferit două scenarii posibile, în timp ce Bar cu Gemini Pro a subliniat utilizarea responsabilă a limbajului și explorarea comportamentului uman. Aceasta prezintă personalitatea unică a lui Bar în comparație cu GP4 Turbo.
Este important de reținut că, în timp ce Bar cu Gemini Pro a demonstrat performanțe impresionante, utilizatorii ar trebui să verifice și să facă referințe încrucișate în mod independent răspunsurile sale pentru a asigura acuratețea.
Viitorul Barului Google
Integrarea celei mai recente versiuni de Bar alimentată de Gemini Pro este în prezent limitată la Chatbot Arena și nu este încă disponibilă ca parte a interfeței Bard sau a API-ului Gemini Pro accesibil prin Google AI Studio. Cu toate acestea, această evoluție indică faptul că Google se recuperează, iar actualizările viitoare, cum ar fi potențiala lansare a Gemini Ultra, pot îmbunătăți și mai mult capacitățile Bar.
În concluzie, upgrade-ul major al Google Bar pentru a depăși GP4 pe Arena Leaderboard este o etapă semnificativă. Chatbot Arena oferă o platformă unică pentru evaluarea comparativă a LLN-urilor și compararea performanței acestora. Deși performanța îmbunătățită a lui Bar este impresionantă, este esențial să fiți precauți și să verificați independent răspunsurile acestuia. Viitorul oferă posibilități interesante pentru Google Bar și pentru evoluția sa continuă.