StableLM, atvirojo kodo alternatyva ChatGPT

StableLM

StableLM ir skirtas efektyviai generuoti tekstą ir kodą

Buvo paskelbta žinia, kad Stabilumo AI, įmonė, kurianti „Stable Diffusion imaging AI“ modelį, paskelbė apie pirmąjį savo StableLM kalbos modelių rinkinį.

Su tuo „Stability“ tikisi atkartoti savo atvirojo kodo vaizdo sintezės modelio poveikį Stabili difuzija, išleistas 2022 m. Patobulinus StableLM būtų galima sukurti atvirojo kodo alternatyvą ChatGPT.

Tiems, kurie nėra susipažinę su „Stability AI“, turėtumėte žinoti, kad tai Londone įsikūrusi įmonė, kuri save laiko atviro kodo „OpenAI“ konkurente – įmonei, kuri kuria galingus, bet patentuotus dirbtinės kalbos modelius, tokius kaip „ChatGPT“.

Apie StableLM

StableLM yra dirbtinės kalbos modelių šeimos, sukurtos „Stability AI“, pavadinimas, kurie yra prieinami kaip atvirasis šaltinis „GitHub“ pagal Creative Commons BY-SA-4.0 licencijąStableLM yra teksto generavimo modelis kurie gali sudaryti žmogaus tekstą ir rašyti programas, numatydami kitą sekos žodį. Jis naudoja techniką, vadinamą „lusto numatymu“ kuri apima kito žodžio fragmento atspėjimą iš konteksto, kurį pateikia žmogus „užuominos“ forma.

Kaip ir kiti „mažieji“ LLM StableLM teigia pasiekęs panašų našumą kaip GPT-3 etaloninis modelis naudojant daug mažiau bendrųjų parametrų (7 mlrd. StableLM, palyginti su 175 mlrd. GPT-3).

„StableLM“ išleidimas grindžiamas mūsų patirtimi, susijusia su ankstesniais atvirojo kodo kalbų modeliais su EleutherAI, ne pelno tyrimų centru. Šie kalbų modeliai apima GPT-J, GPT-NeoX ir Pythia rinkinį, kurie buvo parengti naudojant atvirojo kodo duomenų rinkinį The Pile.

StableLM teigia, kad jų našumas panašus į GPT-3, kalbos modelis, kuris veikia ChatGPT, naudojant daug mažiau parametrų (7 mlrd. palyginti su 175 mlrd.). Parametrai yra kintamieji, kuriuos modelis naudoja mokydamasis iš mokymo duomenų. Turint mažiau parametrų, modelis tampa mažesnis ir efektyvesnis, todėl jį lengviau naudoti vietiniuose įrenginiuose, pvz., išmaniuosiuose telefonuose ir nešiojamuosiuose kompiuteriuose.

StableLM apmokytas naudojant naują duomenų rinkinį, pagrįstą „The Pile“, yra 1,5 trilijono žetonų, o tai yra maždaug 3 kartus didesnė už krūvą. Pile yra aukštos kokybės ir įvairus kalbų modelių mokymo duomenų rinkinys.

„Stability AI“ mini, kad šablonus jau galima rasti „GitHub“ saugykloje ir kad netrukus bus išleista išsami knyga, ir tikisi tęsti bendradarbiavimą su kūrėjais ir tyrėjais, kai bus išleistas „StableLM“ rinkinys.

Be to, jie mini RLHF atviro bendradarbiavimo programos paleidimą ir bendradarbiavimą su bendruomenės pastangomis, tokiomis kaip „Open Assistant“, kuriant atvirojo kodo duomenų rinkinį AI padėjėjams.

Paskutinis, bet ne prasčiausias, Kalbėdami apie „Stability AI“ leidimus, taip pat galime pabrėžti, kad jis paskelbė beta versija SDXL (tai reiškia Stable Diffusion Extra Large), naujas dirbtinio intelekto modelis, galintis generuoti vaizdus iš tekstinių aprašymų. SDXL yra naujausias „Stable Diffusion“ komplekto, kuris taip pat apima SD, SDT ir SDC modelius, priedas.

SDXL nuo kitų modelių skiriasi savo dydžiu ir galimybėmis. 2300 milijardo parametrų SDXL yra daugiau nei 2,5 karto didesnis nei originalus SD modelis, kuriame buvo tik 890 mln. Šie papildomi parametrai leidžia SDXL generuoti vaizdus, ​​kurie geriau prilimpa prie sudėtingų modelių. Pavyzdžiui, SDXL gali sukurti skaitomą tekstą ant vaizdų arba sukurti neįtikėtinai tikroviškus išgalvotų veikėjų portretus.

SDXL šiuo metu yra beta versijos DreamStudio ir kitose populiariose vaizdo programose, tokiose kaip NightCafe Creator. Kaip ir visi „Stability AI“ modeliai, SDXL greitai bus išleistas kaip atvirasis šaltinis, užtikrinantis optimalų pasiekiamumą. „Stability AI“ skelbia, kad SDXL yra leistina licencijuota komerciniam ir nekomerciniam naudojimui, jei laikotės etinių ir teisinių gairių.

Galiausiai, jei jus domina daugiau apie tai sužinoti, galite susipažinti su išsamia informacija Šioje nuorodoje.