Blow your mind with Groc's Lightning-Fast Language Model Inference
Dacă ești uimit de viteza de generare a modelelor lingvistice, pregătește-te să-ți faci mintea uluită. Noua platformă hardware a lui Groc, cunoscută sub numele de Language Processing Unit (LPU), revoluționează domeniul modelelor de limbaj mari (LLM). În acest articol, vom explora viteza și capacitățile incredibile ale LPU-ului Groc, precum și accesul și prețurile la API.
Nevoia de viteză: GPD 4 vs. Mixel 87b vs. GPT 3.5
Să începem prin a compara viteza de generare pentru diferite modele de limbaj. În partea dreaptă, avem GPD 4, iar în partea stângă, avem Mixel 87b. GPD 4 a fost capabil să genereze aproape 500 de jetoane pe secundă, în timp ce Mixel 87b încă procesa o solicitare, ceea ce este uluitor.
Acum, să încercăm același experiment cu GPT 3.5. LPU-ul lui Groc, numit Croc, a generat text cu o viteză de aproape 500 de jetoane pe secundă. Această generație fulgerătoare a durat doar aproximativ 1,68 secunde. În comparație, GPD 4 încă genera text. Este clar că LPU-ul lui Croc este într-o ligă proprie când vine vorba de viteză.
Vă prezentăm Groc și Unitatea de procesare a limbajului (LPU)
Groc, compania din spatele acestei tehnologii inovatoare, a dezvoltat o platformă hardware dedicată pentru LLM numită Language Processing Unit (LPU). Acest nou hardware oferă o inferență de 18 ori mai rapidă pentru LLM-uri în comparație cu cele mai bune GPU-uri disponibile de pe piață. LPU este un schimbător de joc, permițând lui Groc să ofere cea mai bună viteză de inferență posibilă pentru LLM-urile open-source.
Ceea ce diferențiază LPU-ul Groc este arhitectura sa optimizată pentru LLM. Spre deosebire de GPU-urile, care au fost concepute inițial pentru jocuri cu grafică intensivă și ulterior reutilizate pentru antrenarea modelelor de rețele neuronale profunde, LPU-ul este conceput special pentru procesarea limbajului. Această arhitectură specializată permite o inferență mai rapidă, oferind cea mai rapidă procesare pentru aplicații intensive din punct de vedere computațional cu o componentă secvenţială, care este crucială pentru LLM.
Dezlănțuirea vitezei: Demo Groc și acces API
Groc oferă o demonstrație care permite utilizatorilor să experimenteze viteza și capacitățile LLM-urilor lor. În prezent, sunt disponibile două modele: Lama 270 Bill și mixul de model expert de la Mistal AI. Accentul demonstrației este mai degrabă pe viteza de inferență decât pe acuratețea răspunsurilor.
De exemplu, folosind modelul Lama 270 Bill, LPU-ul Groc a reușit să genereze aproximativ 280 de jetoane pe secundă în timp real. Generarea unui nou capitol din Game of Thrones unde Jon Snow își dă cu părerea despre iPhone 14 a durat aproximativ 2,08 secunde. Demo oferă, de asemenea, opțiuni de regenerare a textului în puncte sau de extindere a acestuia.
Platforma Groc oferă, de asemenea, acces API, care este pe deplin compatibil cu API-ul OpenAI. În prezent, accesul API este disponibil pentru membrii aprobați și puteți aplica pentru acces prin site-ul lor. Dacă este aprobat, veți primi 10 zile de acces gratuit, permițându-vă să utilizați până la 1 milion de jetoane gratuite. Prețul API este extrem de rezonabil, Groc garantând că va depăși orice preț publicat pe milion de jetoane de către alți furnizori.
Mintea din spatele lui Groc: Jonathan Ross
Conducerea echipei Groc este CEO-ul și co-fondatorul Jonathan Ross, care este și creatorul primei Unități de Procesare a Limbii (LPU). Înainte de Groc, Ross a lucrat la Google și a fost creatorul Tensor Processing Unit (TPU), hardware-ul dedicat Google pentru deep learning. Expertiza și experiența sa în dezvoltarea hardware-ului specializat pentru aplicații AI fac din Groc o forță de luat în seamă.
Cum realizează Groc o inferență rapidă
LPU-ul Groc depășește GPU-urile tradiționale utilizate de concurenți în ceea ce privește viteza de inferență. Arhitectura LPU-ului depășește două blocaje principale pentru LLM: densitatea de calcul și lățimea de bandă a memoriei. Fiind o unitate hardware dedicată pentru inferența LLM, LPU oferă o densitate de calcul mai mare în comparație cu GPU-urile și CPU-urile, rezultând o generare mai rapidă de text. Cu toate acestea, este important de reținut că LPU-ul este optimizat pentru inferență și nu pentru antrenament, așa că GPU-urile sunt încă necesare pentru formarea LLM-urilor.
Posibilități nesfârșite cu Inferența rapidă a lui Groc
Viteza de inferență incredibil de rapidă a lui Groc deschide o lume de posibilități pentru diverse aplicații. Conversațiile aproape în timp real cu LLM sunt acum la îndemână, mai ales atunci când sunt combinate cu modele mai rapide de transmitere a vorbirii în text. Această tehnologie inovatoare are potențialul de a revoluționa industriile și de a permite noi aplicații care înainte erau de neimaginat.
Pe măsură ce accesul API al lui Groc devine disponibil, mulți utilizatori vor trece, fără îndoială, la această platformă care schimbă jocul. Combinația dintre viteză incredibilă, precizie și prețuri rezonabile face din Groc o alegere de top pentru cei care caută o inferență LLM rapidă.
Experimentați puterea LPU-ului Groc pentru dvs. și rămâneți la curent cu actualizările viitoare cu privire la accesul lor la API. Viitorul inferenței modelului de limbaj a sosit și este mai rapid decât oricând.




