Kas ir Dalle-mini un kā tas darbojas?

Kas Ir Dalle Mini Un Ka Tas Darbojas



Dalle-mini ir dziļas mācīšanās modelis, kas var ģenerēt augstas kvalitātes attēlus no lietotāja ievadītā teksta. Tas ir balstīts uz DALL-E modeli, ko OpenAI izlaida 2021. gada janvārī. DALL-E nozīmē “ Atdalīta valoda un latentā izteiksme ” ir uz transformatoriem balstīts neironu tīkls, kas var iekodēt tekstu un attēlus kopējā latentā telpā un pēc tam atšifrēt tos atpakaļ jebkurā modalitātē.

Šajā rakstā tiks izskaidrots šāds saturs:







Kas ir Dalle-mini?

Dod viņai-mini ir mazāka un ātrāka DALL-E versija, ko izveidoja EleutherAI, atvērtā pirmkoda pētniecības kolektīvs. Dalle-mini izmanto tikai 6 miljardus parametru, salīdzinot ar 12 miljardiem DALL-E, un tas var darboties ar vienu GPU. Dalle-mini teksta ievadei izmanto arī citu marķieri un vārdu krājumu, kas padara to saderīgāku ar dažādām valodām un domēniem:




Piezīme : lietotāji var ģenerēt bezmaksas attēlus, izmantojot Dalle-mini, ievērojot saite .



Kāda ir Dalle-mini darbība?

Dalle-mini galvenā ideja ir transformatoru, kas ir neironu tīkli, jauda. Viņi var apgūt liela attāluma atkarības un sarežģītus secīgu datu, piemēram, teksta vai attēlu, modeļus.





Transformatori sastāv no divām galvenajām daļām: kodētāja un dekodētāja. Pirmajā daļā tiek ievadīts ievads (teksta apraksts) un tas tiek pārveidots par slēptiem vektoriem. Pēc tam dekodētājs to paņem un ģenerē izvadi (attēlu), kas attiecas uz ievadi.

Kāda ir atšķirība starp Dalle-mini un DALL-E?

Dalle-mini un DALL-E izmanto kopīgu kodētāja-dekodētāja arhitektūru gan tekstam, gan attēliem. Viņi var kodēt un atšifrēt abas modalitātes, izmantojot vienu un to pašu tīklu. Tas ļauj viņiem apgūt kopīgu latentu telpu, kas atspoguļo semantiskās attiecības starp tekstu un attēliem. Pēc tam ļauj viņiem veikt starpmodālu ģenerēšanu, piemēram, izveidot attēlus no teksta vai otrādi.



Kā darbojas Dalle-mini?

Lai ģenerētu attēlu no teksta apraksta, Dalle-mini vispirms tokenizē tekstu, izmantojot baitu pāru kodēšanas (BPE) algoritmu, kas sadala tekstu apakšvārdu vienībās, pamatojoties uz to biežumu un līdzāsparādīšanos:


Sāksim detalizētu Dalle-mini iekšējo darbību:

Dalle-mini iekšējais darbs

Pieņemsim, ka vārds ' spēlējot 'var tikt sadalīts' pla ' un ' ying ”. Pēc tam marķieri tiek kartēti uz skaitliskiem ID, izmantojot 8192 marķieru vārdu krājumu. ID tiek ievadīti kodētājā, radot latentu 256 x 64 izmēra attēlojumu:


Pēc tam dekodētājs ņem latento attēlojumu un ģenerē attēlu ar izmēru 256 x 256 pikseļi. Dekodētājs izmanto autoregresīvu procesu, kas nozīmē, ka tas ģenerē katru pikseļu pa vienam, atkarībā no iepriekšējiem pikseļiem un latentā attēlojuma.

Kā ģenerēt attēlu no teksta apraksta, izmantojot Dalle-mini?

Lai ģenerētu teksta aprakstu no attēla, izmantojot Dalle-mini, ievadiet tekstu uzvednes logā. Piemēram, ierakstiet ' Glezna ar nejaušiem ziediem ' uzvednē un nospiediet ' Skrien ” poga:


Izvade parāda, ka Dalle-mini ir ģenerējis atbilstošus attēlus atbilstoši ievades tekstam.

Secinājums

Dalle-mini ir ievērojams modelis, kas demonstrē transformatoru potenciālu vairāku veidu ģenerēšanai. Viņi var izveidot reālistiskus un daudzveidīgus attēlus no dabiskās valodas aprakstiem, kā arī sakarīgus un atbilstošus tekstus no attēliem. Viņi var arī apstrādāt sarežģītas kompozīcijas, piemēram, apvienot vairākus objektus vai atribūtus vienā attēlā vai tekstā. Šajā rakstā ir sīki izskaidrots Dalle-mini un tā darbība.