Jaunāki OpenAI modeļi jau efektīvāk zīmē un atpazīst objektus

OpenAI pētnieki ir izstrādājuši divus neironu tīklus Viņi var zīmēt objektus, kā lietotājs norādījis dabiskā valodā, un ļoti precīzi aprakstīt attēlus.

Projekti, kas viņi kļuva zināmi pirms dažām dienām paplašināt to uzdevumu loku, kuriem var piemērot mākslīgo intelektu, kā arī veicināt AI pētniecības kopienas mērķi radīt daudzpusīgākus modeļus, kuru inženieriem ir nepieciešami mazāk manuāli pielāgojumi, lai iegūtu precīzus rezultātus.

DALL E, pirmais neironu tīkls jauns, ir GPT-3 dabiskās valodas apstrādes modeļa miniaturizēta versija ka OpenAI debitēja 2020. gadā. GPT-3, kas ir viens no sarežģītākajiem līdz šim izveidotajiem neironu tīkliem, no vienkāršiem aprakstiem var ģenerēt tekstu un pat programmatūras kodu. DALL E izmanto to pašu iespēju zīmēt attēlus, kā norādījis lietotājs.

Izcilā modeļa spēja ir tā var radīt attēlus pat kā atbildi uz aprakstiem ar kuru tā sastopas pirmo reizi un ko AI parasti ir grūti interpretēt.

Testēšanas laikā, ko veica OpenAI pētnieki viņi spēja pierādīt, ka modelis var veiksmīgi ģenerēt zīmējumus atbildot uz aprakstiem, piemēram, papildus tam, modelis spēj attēlot attēlus vairākos dažādos stilos.

Pētnieki dnolēmu pārbaudīt tieši to, cik daudzpusīgs ir AI liekot viņam izpildīt vairākus papildu uzdevumus ar dažādu grūtību pakāpi.

Eksperimentu sērijā modelis izrādījās ļoti efektīvs, ar iespēju ģenerēt vienu un to pašu attēlu no vairākiem leņķiem un ar dažādu izšķirtspējas līmeni.

Vēl viens AI tests arī parādīja, ka modelis ir pietiekami izsmalcināts, lai pielāgotu atsevišķas detaļas attēlam, kuru tā lūdz ģenerēt.

"Vienlaicīga vairāku objektu, to atribūtu un to telpisko attiecību kontrole rada jaunu izaicinājumu," bloga ierakstā raksta OpenAI pētnieki. "Piemēram, ņemiet vērā frāzi" ezis sarkanā cepurē, dzeltenos cimdos, zilā kreklā un zaļās biksēs ". Lai pareizi interpretētu šo teikumu, DALL E ir ne tikai pareizi jāsastāda katrs apģērba gabals ar dzīvnieku, bet arī jāveido asociācijas (cepure, sarkana), (cimdi, dzeltena), (krekls, zila) un (bikses, zaļa), tos nemaisot. «.

Otrs neironu tīkls nesen detalizēts OpenAI, Klips, koncentrējas uz objektu atpazīšanu esošajos attēlos tā vietā, lai zīmētu jaunus.

Lai arī jau ir datorvīzijas modeļi, kas šādā veidā klasificē attēlus, ir svarīgi atzīmēt, ka lielākā daļa no tiem var identificēt tikai nelielu objektu kopumu, kuriem tie ir īpaši apmācīti.

AI, kas klasificē dzīvniekus savvaļas dzīvnieku fotogrāfijās, ir jāapmāca ar lielu skaitu savvaļas dzīvnieku fotoattēlu, lai iegūtu precīzus rezultātus. Kas atšķir Clip no OpenAI ir tas, ka tā spēj izveidot objekta aprakstu, kuru tā iepriekš nav atradusi.

Klipa daudzpusība ir jaunas apmācības pieejas auglis, ko laboratorija ir izstrādājusi modeļa izveidošanai.

Apmācības procesā OpenAI neizmantoja attēlu datu kopu zīmēts manuāli, bet attēli iegūst no publiskā tīmekļa un tam pievienotajiem teksta parakstiem. Paraksti ļāva Klipam izveidot plašu vārdu leksiku, kas saistīts ar dažāda veida objektiem, asociācijām, kuras pēc tam tas varēja izmantot, lai aprakstītu objektus, kurus vēl nebija redzējis.

"Dziļai apmācībai nepieciešams liels datu apjoms, un redzes modeļi tradicionāli ir apmācīti uz manuāli apzīmētām datu kopām, kuru būvēšana ir dārga un nodrošina pārraudzību tikai ierobežotam skaitam iepriekš noteiktu vizuālo koncepciju," sīki izklāstīja pētnieki Klips. "Drīzāk CLIP mācās no tekstu un attēlu pāriem, kas jau ir publiski pieejami internetā."

Visbeidzot, ja vēlaties uzzināt vairāk par to Par OpenAI modeļiem varat pārbaudīt informāciju Šajā saitē.

DesdeLinux

Jaunāki OpenAI modeļi jau efektīvāk zīmē un atpazīst objektus

Atstājiet savu komentāru Atcelt atbildi