Google Bar превосходит GP4 в таблице лидеров арены: серьезное обновление
Google Bar совершил значительный скачок в таблице лидеров Arena, превзойдя GP4 и заняв второе место. Таблица лидеров арены, поддерживаемая организацией LM CIS, представляет собой открытую платформу для оценки LLN, собирающую более 200 000 человеческих предпочтений для ранжирования LLN с использованием рейтинговой системы ELO.
Ажиотаж вокруг достижений Google Bar
Организация LM CIS написала в Твиттере о достижениях Google Bar, и даже Google ретвитнул этот твит, выразив восторг по поводу использования Bar. Это удивительное событие привело всех в трепет, поскольку Gemini Pro, который сейчас занимает вторую позицию, ранее занимал восьмую позицию в таблице лидеров.
Понимание таблицы лидеров Chat Arena
Таблица лидеров Chat Arena — это краудсорсинговая платформа, которая сравнивает LLN в реальных сценариях. В отличие от таблицы лидеров Hugging Face Open LLM, которая отслеживает производительность LLN по существующим тестам, таблица лидеров Chat Arena представляет пользователям две модели, случайно выбранные из пула, состоящего из более чем 20 проприетарных моделей больших языков и моделей с открытым исходным кодом.
Пользователям предлагаются «Модель А» и «Модель Б», но они не знают, какая именно модель. После генерации ответов пользователи могут выбрать, какой ответ они предпочитают. Например, пользователи могут выбрать «Б», если считают, что это лучше. Затем в таблице лидеров отображается модель, лежащая в основе выбранного ответа, например «B Gen 24 (Gemini Pro)» или «Предварительный просмотр GBD4».
В таблице лидеров отслеживается средний балл ELO для разных моделей на основе отзывов пользователей. В настоящее время Bar with Gemini Pro занимает вторую позицию с показателем ELO 1215. Однако, поскольку этот рейтинг основан на предпочтениях человека, он может варьироваться в зависимости от типов задаваемых вопросов и запросов.
Различие разных версий Gemini Pro
Возникла путаница относительно различных версий Gemini Pro, доступных в таблице лидеров. Группа LMIS предоставляет пояснения к трем различным версиям:
- Gemini Pro: API Vortex AI в облаке Google
- Gemini Pro Dev: API разработчика в Google AI Studio (доступен бесплатно с ограничениями).
- Бард, 24 января. Gemini Pro: последняя версия, потенциально доступная не всем пользователям.
Версия Bard, доступная на веб-сайте Google, отражает последнее обновление от 18 декабря 2023 года. Однако версия, используемая в таблице лидеров Chat Arena, основана на версии от января 2024 года, что указывает на то, что она является последней.
Доступ Gemini Pro к Интернету
Успех Gemini Pro в последнем обновлении можно частично объяснить доступом к Интернету через API. В отличие от GP4 Turbo и других вариантов GP4, которые полагаются исключительно на тренировочные данные, новая версия Bar с Gemini Pro имеет доступ к Интернету. Это было подтверждено, когда GP4 и Бар спросили о победителе республиканских праймериз в Айове.
В то время как GP4 заявила, что Дональд Трамп выиграл республиканские праймериз 2020 года в Айове, Бар предоставил более подробную информацию о республиканских кокусах 2024 года, состоявшихся 14 января. Бар перечислил кандидатов и соответствующие им проценты голосов, хотя в результатах было небольшое расхождение.
Стоит отметить, что другие модели в таблице лидеров Chatbot Arena, например модели Perplexity AI, также имеют доступ к Интернету. Однако улучшенная производительность Bar с Gemini Pro является значительным достижением.
Проверка и сравнение на арене чат-бота
Chatbot Arena предлагает возможность запускать две модели рядом, чтобы сравнить их ответы. Выбрав версию B Bar от 24 января и GP4 Turbo, текущего лидера таблицы лидеров, пользователи смогут протестировать их с помощью различных подсказок.
Например, когда его спросили о загадке о трех убийцах в комнате, GP4 Turbo предложил два возможных сценария, а Бар с Gemini Pro подчеркнул ответственное использование языка и исследование человеческого поведения. Это демонстрирует уникальную индивидуальность Бара по сравнению с GP4 Turbo.
Важно отметить, что хотя Bar with Gemini Pro показал впечатляющую производительность, пользователи должны самостоятельно проверять и перекрестно ссылаться на его ответы, чтобы обеспечить точность.
Будущее Google Bar
Интеграция последней версии Bar на базе Gemini Pro в настоящее время ограничена Chatbot Arena и пока недоступна как часть интерфейса Bard или API Gemini Pro, доступного через Google AI Studio. Однако такое развитие событий указывает на то, что Google догоняет его, и будущие обновления, такие как потенциальный выпуск Gemini Ultra, могут еще больше расширить возможности Bar.
В заключение, крупное обновление Google Bar, призванное превзойти GP4 в таблице лидеров арены, является важной вехой. Chatbot Arena предоставляет уникальную платформу для сравнительного анализа LLN и сравнения их производительности. Хотя повышение производительности Бара впечатляет, важно проявлять осторожность и независимо проверять его реакцию. Будущее открывает захватывающие возможности для Google Bar и его дальнейшего развития.