Google Bar übertrifft GP4 in der Arena-Rangliste: Eine große Verbesserung
Google Bar hat in der Arena-Bestenliste einen deutlichen Sprung gemacht und GP4 überholt und sich den zweiten Platz gesichert. Das von der LM CIS-Organisation betriebene Arena Leaderboard ist eine offene Plattform zur LLN-Bewertung, die über 200.000 menschliche Präferenzen sammelt, um LLNs mithilfe des ELO-Rankingsystems zu bewerten.
Aufregung rund um die Leistung von Google Bar
Die LM CIS-Organisation twitterte über die Leistung von Google Bar, und sogar Google twitterte den Tweet erneut und brachte seine Begeisterung über die Verwendung von Bar zum Ausdruck. Diese überraschende Entwicklung hat alle in Erstaunen versetzt, da Gemini Pro, das jetzt den zweiten Platz einnimmt, zuvor den achten Platz in der Rangliste belegte.
Die Chat-Arena-Rangliste verstehen
Das Chat Arena Leaderboard ist eine Crowdsourcing-Plattform, die LLNs in realen Szenarien bewertet. Im Gegensatz zum Hugging Face Open LLM Leaderboard, das die LLN-Leistung anhand bestehender Benchmarks verfolgt, präsentiert das Chat Arena Leaderboard den Benutzern zwei Modelle, die zufällig aus einem Pool von über 20 proprietären und Open-Source-Modellen großer Sprachen ausgewählt werden.
Benutzern werden „Modell A“ und „Modell B“ angezeigt, ohne zu wissen, um welches konkrete Modell es sich handelt. Nachdem die Antworten generiert wurden, können Benutzer auswählen, welche Antwort sie bevorzugen. Benutzer können beispielsweise „B“ auswählen, wenn sie es besser finden. Die Bestenliste zeigt dann das Modell hinter der gewählten Antwort, z. B. „B Gen 24 (Gemini Pro)“ oder „GBD4 Preview“.
Die Bestenliste verfolgt den durchschnittlichen ELO-Score für verschiedene Modelle basierend auf Benutzerfeedback. Derzeit belegt Bar with Gemini Pro mit einem ELO-Wert von 1215 den zweiten Platz. Da dieses Ranking jedoch auf menschlichen Vorlieben basiert, kann es je nach Art der gestellten Fragen und Abfragen variieren.
Unterscheidung verschiedener Versionen von Gemini Pro
Es gab Verwirrung hinsichtlich der verschiedenen Versionen von Gemini Pro, die in der Bestenliste verfügbar sind. Die LMIS-Gruppe liefert Erläuterungen zu drei verschiedenen Versionen:
- Gemini Pro: Die Vortex AI API in Google Cloud
- Gemini Pro Dev: Die Entwickler-API auf Google AI Studio (mit Einschränkungen kostenlos zugänglich)
- Bard 24. Januar Gemini Pro: Die neueste Version, möglicherweise nicht für alle Benutzer verfügbar
Die auf der Google-Website zugängliche Bard-Version spiegelt das letzte Update vom 18. Dezember 2023 wider. Die im Chat Arena Leaderboard verwendete Version basiert jedoch auf der Version vom Januar 2024, was darauf hinweist, dass es sich um die neueste Version handelt.
Gemini Pros Zugang zum Internet
Der Erfolg von Gemini Pro im neuesten Update ist möglicherweise teilweise auf den Zugriff auf das Internet über die API zurückzuführen. Im Gegensatz zu GP4 Turbo und anderen GP4-Varianten, die ausschließlich auf Trainingsdaten basieren, verfügt die neue Version von Bar mit Gemini Pro über Zugang zum Internet. Dies wurde bestätigt, als sowohl GP4 als auch Bar nach dem Gewinner der republikanischen Vorwahlen in Iowa gefragt wurden.
Während GP4 erklärte, dass Donald Trump die republikanischen Vorwahlen 2020 in Iowa gewonnen habe, lieferte Bar detailliertere Informationen über die republikanischen Vorwahlen 2024, die am 14. Januar stattfanden. Bar listete die Kandidaten und ihre jeweiligen Stimmenanteile auf, obwohl es bei den Ergebnissen eine geringfügige Diskrepanz gab.
Es ist erwähnenswert, dass auch andere Modelle auf dem Chatbot Arena Leaderboard, beispielsweise die von Perplexity AI, Zugang zum Internet haben. Die verbesserte Leistung von Bar mit Gemini Pro ist jedoch ein bedeutender Fortschritt.
Überprüfung und Vergleich in der Chatbot Arena
Die Chatbot Arena bietet die Möglichkeit, zwei Modelle nebeneinander laufen zu lassen, um ihre Antworten zu vergleichen. Durch Auswahl der B-Ausgabe vom 24. Januar von Bar und GP4 Turbo, dem aktuellen Bestenlistenführer, können Benutzer sie an verschiedenen Eingabeaufforderungen testen.
Als man beispielsweise nach einem Rätsel um drei Mörder in einem Raum fragte, lieferte GP4 Turbo zwei mögliche Szenarien, während Bar mit Gemini Pro den Schwerpunkt auf verantwortungsvollen Sprachgebrauch und die Erforschung menschlichen Verhaltens legte. Dies unterstreicht die einzigartige Persönlichkeit von Bar im Vergleich zum GP4 Turbo.
Es ist wichtig zu beachten, dass Bar mit Gemini Pro zwar eine beeindruckende Leistung gezeigt hat, Benutzer ihre Antworten jedoch unabhängig überprüfen und mit Querverweisen versehen sollten, um die Richtigkeit sicherzustellen.
Die Zukunft der Google Bar
Die Integration der neuesten Version von Bar powered by Gemini Pro ist derzeit auf die Chatbot Arena beschränkt und noch nicht als Teil der Bard-Schnittstelle oder der über Google AI Studio zugänglichen Gemini Pro-API verfügbar. Diese Entwicklung deutet jedoch darauf hin, dass Google aufholt und zukünftige Updates, wie etwa die mögliche Veröffentlichung von Gemini Ultra, die Fähigkeiten von Bar weiter verbessern könnten.
Zusammenfassend lässt sich sagen, dass das große Upgrade von Google Bar, das GP4 in der Arena-Rangliste übertrifft, ein bedeutender Meilenstein ist. Die Chatbot Arena bietet eine einzigartige Plattform zum Benchmarking von LLNs und zum Vergleich ihrer Leistung. Obwohl die verbesserte Leistung von Bar beeindruckend ist, ist es wichtig, Vorsicht walten zu lassen und seine Reaktionen unabhängig zu überprüfen. Die Zukunft birgt spannende Möglichkeiten für Google Bar und seine Weiterentwicklung.



