Kas ir Dalle-mini un kā tas darbojas?

Dalle-mini ir dziļas mācīšanās modelis, kas var ģenerēt augstas kvalitātes attēlus no lietotāja ievadītā teksta. Tas ir balstīts uz DALL-E modeli, ko OpenAI izlaida 2021. gada janvārī. DALL-E nozīmē “ Atdalīta valoda un latentā izteiksme ” ir uz transformatoriem balstīts neironu tīkls, kas var iekodēt tekstu un attēlus kopējā latentā telpā un pēc tam atšifrēt tos atpakaļ jebkurā modalitātē.

Šajā rakstā tiks izskaidrots šāds saturs:

Kas ir Dalle-mini?

Dod viņai-mini ir mazāka un ātrāka DALL-E versija, ko izveidoja EleutherAI, atvērtā pirmkoda pētniecības kolektīvs. Dalle-mini izmanto tikai 6 miljardus parametru, salīdzinot ar 12 miljardiem DALL-E, un tas var darboties ar vienu GPU. Dalle-mini teksta ievadei izmanto arī citu marķieri un vārdu krājumu, kas padara to saderīgāku ar dažādām valodām un domēniem:

Piezīme : lietotāji var ģenerēt bezmaksas attēlus, izmantojot Dalle-mini, ievērojot saite .

Kāda ir Dalle-mini darbība?

Dalle-mini galvenā ideja ir transformatoru, kas ir neironu tīkli, jauda. Viņi var apgūt liela attāluma atkarības un sarežģītus secīgu datu, piemēram, teksta vai attēlu, modeļus.

Transformatori sastāv no divām galvenajām daļām: kodētāja un dekodētāja. Pirmajā daļā tiek ievadīts ievads (teksta apraksts) un tas tiek pārveidots par slēptiem vektoriem. Pēc tam dekodētājs to paņem un ģenerē izvadi (attēlu), kas attiecas uz ievadi.

Kāda ir atšķirība starp Dalle-mini un DALL-E?

Dalle-mini un DALL-E izmanto kopīgu kodētāja-dekodētāja arhitektūru gan tekstam, gan attēliem. Viņi var kodēt un atšifrēt abas modalitātes, izmantojot vienu un to pašu tīklu. Tas ļauj viņiem apgūt kopīgu latentu telpu, kas atspoguļo semantiskās attiecības starp tekstu un attēliem. Pēc tam ļauj viņiem veikt starpmodālu ģenerēšanu, piemēram, izveidot attēlus no teksta vai otrādi.

Kā darbojas Dalle-mini?

Lai ģenerētu attēlu no teksta apraksta, Dalle-mini vispirms tokenizē tekstu, izmantojot baitu pāru kodēšanas (BPE) algoritmu, kas sadala tekstu apakšvārdu vienībās, pamatojoties uz to biežumu un līdzāsparādīšanos:

Sāksim detalizētu Dalle-mini iekšējo darbību:

Dalle-mini iekšējais darbs

Pieņemsim, ka vārds ' spēlējot 'var tikt sadalīts' pla ' un ' ying ”. Pēc tam marķieri tiek kartēti uz skaitliskiem ID, izmantojot 8192 marķieru vārdu krājumu. ID tiek ievadīti kodētājā, radot latentu 256 x 64 izmēra attēlojumu:

Pēc tam dekodētājs ņem latento attēlojumu un ģenerē attēlu ar izmēru 256 x 256 pikseļi. Dekodētājs izmanto autoregresīvu procesu, kas nozīmē, ka tas ģenerē katru pikseļu pa vienam, atkarībā no iepriekšējiem pikseļiem un latentā attēlojuma.

Kā ģenerēt attēlu no teksta apraksta, izmantojot Dalle-mini?

Lai ģenerētu teksta aprakstu no attēla, izmantojot Dalle-mini, ievadiet tekstu uzvednes logā. Piemēram, ierakstiet ' Glezna ar nejaušiem ziediem ' uzvednē un nospiediet ' Skrien ” poga:

Izvade parāda, ka Dalle-mini ir ģenerējis atbilstošus attēlus atbilstoši ievades tekstam.

Secinājums

Dalle-mini ir ievērojams modelis, kas demonstrē transformatoru potenciālu vairāku veidu ģenerēšanai. Viņi var izveidot reālistiskus un daudzveidīgus attēlus no dabiskās valodas aprakstiem, kā arī sakarīgus un atbilstošus tekstus no attēliem. Viņi var arī apstrādāt sarežģītas kompozīcijas, piemēram, apvienot vairākus objektus vai atribūtus vienā attēlā vai tekstā. Šajā rakstā ir sīki izskaidrots Dalle-mini un tā darbība.

Kas ir Dalle-mini un kā tas darbojas?

Kas ir Dalle-mini?

Kāda ir Dalle-mini darbība?

Kāda ir atšķirība starp Dalle-mini un DALL-E?

Kā darbojas Dalle-mini?

Kā ģenerēt attēlu no teksta apraksta, izmantojot Dalle-mini?

Secinājums

Kategorija

Populārākas Posts

Programmā Windows Media Player Restore labojiet “Nepareizi atrasta albuma informācijas saite”.

Kā lietot saraksta parsētāju programmā LangChain?

Kā uzņemt katra masīva elementa kvadrātu programmā MATLAB

Kā iegūt pašreizējo gadu JavaScript

Kā palaist Linux komandas fonā

Kā parsēt CSV failu, izmantojot PHP

Kas ir WordPress bez galvas un kā sākt

Teksta noformējuma biezuma pielietošana, izmantojot aizvēja pārtraukuma punktus un multivides vaicājumus

Kas ir Amazon Web Services un kāpēc tas ir tik veiksmīgs?

Kā lejupielādēt un instalēt spēles, kas mitinātas vietnē GitHub?

LWC – Navigācijas dienests

Terraform valsts vadība

Kā parādīt darbojošos MySQL procesus

SQL Server izveidojiet datu bāzi

PySpark Read.Parquet()

Kā bloķēt lietotnes iPhone tālrunī

Kāda ir SQLiteStudio izmantošana?

Windows sērijveida faila parauga kods

Kā izmantot komandu wget operētājsistēmā Linux

Kā izveidot problēmu GitLab projektā?