StableLM och är designad för att effektivt generera text och kod
Nyheten släpptes att Stabilitet AI, företaget bakom Stable Diffusion imaging AI-modellen, har tillkännagett den första av sin uppsättning StableLM-språkmodeller.
Med det Stabilitet hoppas kunna replikera effekterna av sin modell för bildsyntes med öppen källkod Stabil diffusion, släppt 2022. Med förfining skulle StableLM kunna användas för att bygga ett alternativ med öppen källkod till ChatGPT.
För de som inte är bekanta med Stability AI bör du veta att detta är ett Londonbaserat företag som positionerar sig som en rival med öppen källkod till OpenAI, ett företag som utvecklar kraftfulla men proprietära artificiella språkmodeller som ChatGPT.
Om StableLM
StableLM är namnet på familjen av konstgjorda språkmodeller skapade av Stability AI, som är tillgängliga som öppen källkod på GitHub under Creative Commons BY-SA-4.0-licensen. StableLM är en textgenereringsmodell som kan komponera mänsklig text och skriva program genom att förutsäga nästa ord i en sekvens. Den använder en teknik som kallas "chipprediction" vilket innebär att gissa nästa ordfragment från sammanhanget som tillhandahålls av en människa i form av en "ledtråd".
Som andra "små" LLM StableLM påstår sig uppnå liknande prestanda som referensmodellen GPT-3 av OpenAI samtidigt som man använder mycket färre allmänna parametrar (7 miljarder för StableLM mot 175 miljarder för GPT-3).
Utgivningen av StableLM bygger på vår erfarenhet av tidigare språkmodeller med öppen källkod med EleutherAI, ett icke-vinstdrivande forskningscenter. Dessa språkmodeller inkluderar GPT-J, GPT-NeoX och Pythia-sviten, som tränades på datauppsättningen med öppen källkod The Pile.
StableLM påstår sig ha liknande prestanda som GPT-3, språkmodellen som driver ChatGPT, samtidigt som man använder mycket färre parametrar (7 miljarder mot 175 miljarder). Parametrar är variabler som modellen använder för att lära sig av träningsdata. Att ha färre parametrar gör modellen mindre och mer effektiv, vilket kan göra det lättare att köra på lokala enheter som smartphones och bärbara datorer.
StableLM tränade på en ny datamängd baserad på The Pile, innehållande 1,5 biljoner tokens, vilket är ungefär 3 gånger storleken på högen. The Pile är en högkvalitativ och mångsidig datauppsättning för träning av språkmodeller.
Stability AI nämner att mallarna redan är tillgängliga i GitHub-förvaret och att en fullständig vitbok kommer snart, och ser fram emot att fortsätta samarbeta med utvecklare och forskare när den rullar ut StableLM-sviten.
Dessutom nämner de lanseringen av det öppna samarbetsprogrammet RLHF och att arbeta med communityinsatser som Open Assistant för att skapa en datauppsättning med öppen källkod för AI-assistenter.
Sist men inte minst, På tal om Stability AI-släpp, kan vi också lyfta fram att det tillkännagavs betaversionen av SDXL (som står för Stable Diffusion Extra Large), en ny artificiell intelligensmodell som kan generera bilder från textbeskrivningar. SDXL är det senaste tillskottet till Stable Diffusion-sviten, som även inkluderar SD-, SDT- och SDC-modeller.
SDXL skiljer sig från andra modeller i sin storlek och kapacitet. Med 2300 miljarder parametrar är SDXL mer än 2,5 gånger större än den ursprungliga SD-modellen, som bara hade 890 miljoner. Dessa ytterligare parametrar gör att SDXL kan generera bilder som bättre ansluter sig till komplexa mönster. SDXL kan till exempel producera läsbar text på bilder eller skapa slående realistiska porträtt av fiktiva karaktärer.
SDXL är för närvarande i betaversion i DreamStudio och andra populära bildbehandlingsprogram som NightCafe Creator. Precis som alla Stability AI-modeller kommer SDXL snart att släppas som öppen källkod för optimal tillgänglighet. Stability AI meddelar att SDXL är tillåtet licensierad för kommersiell och icke-kommersiell användning, så länge du följer etiska och juridiska riktlinjer.
Slutligen, om du är intresserad av att veta mer om det kan du läsa detaljerna I följande länk.