يتفوق Google Bar على GP4 في لوحة المتصدرين في الساحة: ترقية كبيرة
حقق Google Bar قفزة كبيرة في لوحة المتصدرين في الساحة، متجاوزًا GP4 ليحتل المركز الثاني. تعد لوحة المتصدرين في Arena، التي تحتفظ بها منظمة LM CIS، بمثابة منصة مفتوحة لتقييم LLN، حيث تجمع أكثر من 200000 تفضيل بشري لتصنيف LLNs باستخدام نظام التصنيف ELO.
الإثارة المحيطة بإنجازات Google Bar
قامت منظمة LM CIS بالتغريد حول إنجاز Google Bar، وحتى Google أعادت تغريد التغريدة، معربة عن حماستها لاستخدام Bar. لقد ترك هذا التطور المفاجئ الجميع في حالة من الرهبة منذ أن احتل Gemini Pro، الذي يحتل الآن المركز الثاني، المركز الثامن في قائمة المتصدرين.
فهم لوحة المتصدرين في Chat Arena
إن Chat Arena Leaderboard عبارة عن منصة ذات مصادر جماعية تعمل على قياس LLNs في سيناريوهات العالم الحقيقي. على عكس Hugging Face Open LLM Leaderboard، الذي يتتبع أداء LLN وفقًا للمعايير الحالية، تقدم Chat Arena Leaderboard للمستخدمين نموذجين تم اختيارهما عشوائيًا من مجموعة تضم أكثر من 20 نموذجًا لغويًا كبيرًا خاصًا ومفتوح المصدر.
يتم تقديم "النموذج أ" و"النموذج ب" للمستخدمين دون معرفة النموذج المحدد الذي هم عليه. بعد إنشاء الإجابات، يمكن للمستخدمين اختيار الاستجابة التي يفضلونها. على سبيل المثال، يمكن للمستخدمين تحديد "B" إذا وجدوه أفضل. تكشف لوحة المتصدرين بعد ذلك عن النموذج الكامن وراء الاستجابة المختارة، مثل "B Gen 24 (Gemini Pro)" أو "GBD4 Preview".
تتتبع لوحة المتصدرين متوسط نقاط ELO للنماذج المختلفة بناءً على تعليقات المستخدمين. حاليًا، يحتل Bar with Gemini Pro المركز الثاني بدرجة ELO تبلغ 1215. ومع ذلك، نظرًا لأن هذا التصنيف يعتمد على التفضيلات البشرية، فقد يختلف اعتمادًا على أنواع الأسئلة والاستفسارات المطروحة.
التمييز بين الإصدارات المختلفة من Gemini Pro
كان هناك ارتباك بشأن الإصدارات المختلفة من Gemini Pro المتوفرة على لوحة المتصدرين. تقدم مجموعة LMIS تفسيرات لثلاثة إصدارات مختلفة:
- Gemini Pro: Vortex AI API على Google Cloud
- Gemini Pro Dev: واجهة برمجة تطبيقات المطورين على Google AI Studio (يمكن الوصول إليها مجانًا مع فرض قيود)
- Bard 24 يناير Gemini Pro: أحدث إصدار، ومن المحتمل ألا يكون متاحًا لجميع المستخدمين
يعكس إصدار Bard الذي يمكن الوصول إليه على موقع Google الإلكتروني آخر تحديث في 18 ديسمبر 2023. ومع ذلك، فإن الإصدار المستخدم في Chat Arena Leaderboard يعتمد على إصدار يناير 2024، مما يشير إلى أنه الأحدث.
وصول Gemini Pro إلى الإنترنت
قد يُعزى نجاح Gemini Pro في التحديث الأخير جزئيًا إلى وصوله إلى الإنترنت عبر واجهة برمجة التطبيقات (API). على عكس GP4 Turbo ومتغيرات GP4 الأخرى التي تعتمد فقط على بيانات التدريب، فإن الإصدار الجديد من Bar with Gemini Pro لديه إمكانية الوصول إلى الإنترنت. تم تأكيد ذلك من خلال سؤال كل من GP4 وBar عن الفائز في الانتخابات التمهيدية للحزب الجمهوري في ولاية أيوا.
بينما ذكرت GP4 أن دونالد ترامب فاز في الانتخابات التمهيدية للحزب الجمهوري لعام 2020 في ولاية أيوا، قدم بار معلومات أكثر تفصيلاً حول المؤتمرات الحزبية للحزب الجمهوري لعام 2024 التي عقدت في 14 يناير. وقام بار بإدراج المرشحين ونسب أصواتهم، على الرغم من وجود تباين طفيف في النتائج.
تجدر الإشارة إلى أن النماذج الأخرى الموجودة على Chatbot Arena Leaderboard، مثل تلك الموجودة في Perplexity AI، تتمتع أيضًا بإمكانية الوصول إلى الإنترنت. ومع ذلك، فإن الأداء المحسن لـ Bar مع Gemini Pro يعد تقدمًا كبيرًا.
التحقق والمقارنة في Chatbot Arena
توفر Chatbot Arena القدرة على تشغيل نموذجين جنبًا إلى جنب لمقارنة ردودهم. من خلال اختيار إصدار B 24 يناير من Bar وGP4 Turbo، القائد الحالي للوحة المتصدرين، يمكن للمستخدمين اختبارهما على مطالبات مختلفة.
على سبيل المثال، عندما سئل عن لغز يتعلق بثلاثة قتلة في الغرفة، قدم GP4 Turbo سيناريوهين محتملين، في حين أكد Bar with Gemini Pro على الاستخدام المسؤول للغة واستكشاف السلوك البشري. يُظهر هذا شخصية Bar الفريدة مقارنةً بـ GP4 Turbo.
من المهم ملاحظة أنه على الرغم من أن Bar with Gemini Pro أظهر أداءً رائعًا، إلا أنه يجب على المستخدمين التحقق بشكل مستقل من إجاباته وإسنادها لضمان الدقة.
مستقبل شريط جوجل
يقتصر تكامل الإصدار الأحدث من Bar المدعوم من Gemini Pro حاليًا على Chatbot Arena ولم يتوفر بعد كجزء من واجهة Bard أو Gemini Pro API التي يمكن الوصول إليها من خلال Google AI Studio. ومع ذلك، يشير هذا التطور إلى أن Google تلحق بالركب، وقد تؤدي التحديثات المستقبلية، مثل الإصدار المحتمل لـ Gemini Ultra، إلى تعزيز قدرات Bar.
في الختام، تعد الترقية الرئيسية لـ Google Bar لتجاوز GP4 في لوحة المتصدرين في الساحة إنجازًا مهمًا. توفر Chatbot Arena منصة فريدة لقياس أداء شبكات LLN ومقارنة أدائها. في حين أن أداء بار المحسن مثير للإعجاب، فمن الضروري توخي الحذر والتحقق بشكل مستقل من ردوده. يحمل المستقبل إمكانيات مثيرة لـ Google Bar وتطوره المستمر.



