Google Bar עולה על GP4 ב- Arena Leaderboard: שדרוג משמעותי
Google Bar עשתה קפיצת מדרגה משמעותית ב- Arena Leaderboard, ועברה את GP4 כדי לתפוס את המקום השני. ארנה Leaderboard, המתוחזקת על ידי ארגון LM CIS, היא פלטפורמה פתוחה להערכת LLN, אוספת למעלה מ-200,000 העדפות אנושיות לדירוג LLN באמצעות מערכת הדירוג ELO.
התרגשות סביב ההישג של גוגל בר
ארגון LM CIS צייץ על ההישג של גוגל בר, ואפילו גוגל צייץ מחדש את הציוץ, והביע התרגשות מהשימוש ב-Bar. ההתפתחות המפתיעה הזו הותירה את כולם ביראת כבוד מאז ש-Gemini Pro, שמחזיקה כעת במיקום השני, החזיקה בעבר במקום השמיני בטבלת ההישגים.
הבנת ה-Chat Arena Leaderboard
ה-Chat Arena Leaderboard היא פלטפורמה שמקורה בהמון, אשר מודדת LLNs בתרחישים בעולם האמיתי. בניגוד ל-Hugging Face Open LLM Leaderboard, העוקב אחר ביצועי LLN על מדדים קיימים, ה-Chat Arena Leaderboard מציג למשתמשים שני דגמים שנבחרו באקראי מתוך מאגר של 20+ מודלים קנייניים וקוד פתוח בשפות גדולות.
למשתמשים מוצגים "דגם A" ו-"Model B" מבלי לדעת איזה דגם ספציפי הם. לאחר יצירת תגובות, משתמשים יכולים לבחור איזו תגובה הם מעדיפים. לדוגמה, משתמשים יכולים לבחור "B" אם הם מוצאים את זה טוב יותר. לאחר מכן, לוח התוצאות חושף את הדגם מאחורי התגובה שנבחרה, כגון "B Gen 24 (Gemini Pro)" או "GBD4 Preview."
ה-Leaderboard עוקב אחר ציון ה-ELO הממוצע עבור דגמים שונים בהתבסס על משוב משתמשים. נכון לעכשיו, בר עם Gemini Pro מחזיק במיקום השני עם ציון ELO של 1215. עם זאת, מכיוון שדירוג זה מבוסס על העדפות אנושיות, הוא עשוי להשתנות בהתאם לסוגי השאלות והשאילתות שנשאלו.
הבחנה בין גרסאות שונות של Gemini Pro
היה בלבול לגבי הגרסאות השונות של Gemini Pro הזמינות ב-Leaderboard. קבוצת LMIS מספקת הסברים לשלוש גרסאות שונות:
- Gemini Pro: API של Vortex AI ב-Google Cloud
- Gemini Pro Dev: ה-API למפתחים ב-Google AI Studio (נגיש בחינם עם הגבלות)
- Bard 24 בינואר Gemini Pro: הגרסה העדכנית ביותר, אולי לא זמינה לכל המשתמשים
גרסת Bard הנגישה באתר Google משקפת את העדכון האחרון ב-18 בדצמבר 2023. עם זאת, הגרסה שבה נעשה שימוש ב-Chat Arena Leaderboard מבוססת על גרסת ינואר 2024, מה שמציין שהיא האחרונה.
הגישה של Gemini Pro לאינטרנט
ההצלחה של Gemini Pro בעדכון האחרון עשויה להיות מיוחסת חלקית לגישה שלה לאינטרנט דרך ה-API. שלא כמו GP4 Turbo וגרסאות GP4 אחרות שמסתמכות אך ורק על נתוני אימון, לגרסה החדשה של Bar עם Gemini Pro יש גישה לאינטרנט. זה אושר כששאלו את GP4 וגם את בר על הזוכה בפריימריז הרפובליקני באיווה.
בעוד ש-GP4 הצהיר שדונלד טראמפ ניצח בפריימריז הרפובליקני ב-2020 באיווה, בר סיפק מידע מפורט יותר על האסיפות הרפובליקניות ב-2024 שהתקיימו ב-14 בינואר. בר מונה את המועמדים ואת אחוזי ההצבעה שלהם, אם כי הייתה סתירה קטנה בתוצאות.
ראוי לציין שלדגמים אחרים ב-Chatbot Arena Leaderboard, כמו אלה של Perplexity AI, יש גם גישה לאינטרנט. עם זאת, הביצועים המשופרים של Bar עם Gemini Pro הם התקדמות משמעותית.
אימות והשוואה בזירת הצ'טבוט
ה-Chatbot Arena מציע את היכולת להפעיל שני דגמים זה לצד זה כדי להשוות את התגובות שלהם. על ידי בחירה במהדורה B של 24 בינואר של Bar ו-GP4 Turbo, המובילה הנוכחית ב-Leaderboard, משתמשים יכולים לבדוק אותם בהנחיות שונות.
לדוגמה, כאשר נשאל על חידה בנוגע לשלושה רוצחים בחדר, GP4 Turbo סיפק שני תרחישים אפשריים, בעוד בר עם Gemini Pro הדגיש שימוש בשפה אחראית וחקר ההתנהגות האנושית. זה מציג את האישיות הייחודית של בר בהשוואה ל-GP4 Turbo.
חשוב לציין שבעוד שבר עם Gemini Pro הראה ביצועים מרשימים, על המשתמשים לאמת באופן עצמאי ולהצליב את התגובות שלו כדי להבטיח דיוק.
העתיד של גוגל בר
האינטגרציה של הגרסה העדכנית ביותר של Bar המופעלת על ידי Gemini Pro מוגבלת כרגע לזירת Chatbot ועדיין אינה זמינה כחלק מממשק Bard או Gemini Pro API הנגיש דרך Google AI Studio. עם זאת, התפתחות זו מעידה על כך שגוגל מדביקה את הקצב, ועדכונים עתידיים, כמו השחרור הפוטנציאלי של Gemini Ultra, עשויים לשפר עוד יותר את היכולות של בר.
לסיכום, השדרוג הגדול של Google Bar לעלות על GP4 ב- Arena Leaderboard הוא אבן דרך משמעותית. ה-Chatbot Arena מספק פלטפורמה ייחודית לביצוע שוואת LLN והשוואת הביצועים שלהם. בעוד שהביצועים המשופרים של בר מרשימים, חיוני לנקוט משנה זהירות ולאמת את תגובותיו באופן עצמאי. העתיד טומן בחובו אפשרויות מרגשות עבור Google Bar והמשך ההתפתחות שלו.



