Kā izmantot žetonus apskaujošos sejas transformatoros?

Dabiskās valodas apstrāde (NLP) darbojas, izmantojot neapstrādātu datu formu. Mašīnmācīšanās modeļi ir apmācīti, izmantojot sarežģītus datus, taču tie nevar saprast neapstrādātus datus. Šim neapstrādātajam datu veidam ir jābūt ar to saistītai skaitliskai vērtībai. Šī vērtība nosaka vārda vērtību un nozīmi datos, un uz tā pamata tiek veikti aprēķini.

Šajā rakstā ir sniegti detalizēti norādījumi par tokenizatoru izmantošanu Hugging Face Transformers.

Kas ir Tokenizators?

Tokenizer ir svarīgs NLP jēdziens, un tā galvenais mērķis ir pārvērst neapstrādātu tekstu skaitļos. Šim nolūkam ir pieejamas dažādas metodes un metodes. Tomēr ir vērts atzīmēt, ka katra tehnika kalpo noteiktam mērķim.
Kā izmantot žetonus apskaujošos sejas transformatoros?

Kā izmantot žetonus apskaujošos sejas transformatoros?

Tokenizatora bibliotēka vispirms ir jāinstalē pirms tās izmantošanas un funkciju importēšanas no tās. Pēc tam apmāciet modeli, izmantojot AutoTokenizer, un pēc tam nodrošiniet ievadi, lai veiktu marķieri.

Hugging Face ievieš trīs galvenās marķieru kategorijas, kas ir norādītas zemāk:

Uz vārdiem balstīts marķieris
Uz rakstzīmēm balstīts marķieris
Apakšvārdu marķieris

Šeit ir sniegta detalizēta rokasgrāmata par tokenizatoru izmantošanu programmā Transformers:

1. darbība. Instalējiet transformatorus
Lai instalētu transformatorus, izmantojiet komandu pip šādā komandā:

! pip uzstādīt transformatori

2. darbība: importējiet klases
No transformatoriem, imports cauruļvads , un AutoModelForSequenceClassification bibliotēka, lai veiktu klasifikāciju:

no transformatoru importa cauruļvada, AutoModelForSequenceClassification

3. darbība. Importējiet modeli
' AutoModelForSequenceClassification ” ir metode, kas pieder pie Auto-Class marķieriem. The from_pretrained() metode tiek izmantota, lai atgrieztu pareizo modeļa klasi, pamatojoties uz modeļa tipu.

Šeit mēs esam norādījuši modeļa nosaukumu sadaļā “ modeļa nosaukums ” mainīgais:

modeļa nosaukums = 'distilbert-base-uncased-finetuned-sst-2-english'
pirmsapmācības modelis =AutoModelForSequenceClassification.from_pretrained ( modeļa nosaukums )

4. darbība. Importējiet AutoTokenizer
Nodrošiniet šādu komandu, lai ģenerētu marķierus, nododot ' modeļa nosaukums ” kā arguments:

no transformatoriem importēt AutoTokenizer

ģenerētais marķieris =AutoTokenizer.from_pretrained ( modeļa nosaukums )

5. darbība: ģenerējiet marķieri
Tagad mēs ģenerēsim marķierus teikumam “Man patīk labs ēdiens” izmantojot ' ģenerētais marķieris ” mainīgais:

vārdus =ģenerēt token ( 'Man patīk labs ēdiens' )
drukāt ( vārdus )

Izvade tiek dota šādi:

Kods iepriekš minētajam Google Co ir sniegts šeit.

Secinājums

Lai izmantotu marķierus programmā Hugging Face, instalējiet bibliotēku, izmantojot pip komandu, apmāciet modeli, izmantojot AutoTokenizer, un pēc tam nodrošiniet ievadi marķieru veikšanai. Izmantojot tokenizāciju, piešķiriet vārdiem svaru, pamatojoties uz kuriem tie tiek sakārtoti, lai saglabātu teikuma nozīmi. Šis rādītājs arī nosaka to vērtību analīzei. Šis raksts ir detalizēts ceļvedis par tokenizatoru izmantošanu Hugging Face Transformers.

Kā izmantot žetonus apskaujošos sejas transformatoros?

Kas ir Tokenizators?

Kā izmantot žetonus apskaujošos sejas transformatoros?

Secinājums

Kategorija

Populārākas Posts

FileHandle modulis programmā Perl

3 populārākie veidi, kā novērst Wi-Fi savienojuma problēmas operētājsistēmā Windows 10

Kur Minecraftā atrast ogles

Kā izdzēst atlicinātāju?

Kā instalēt MongoDB operētājsistēmā Windows

Ametists Minecraft: viss, kas jums par to jāzina

Golang SQLite piemēri

Linux Core izgāztuves atrašanās vietas iestatīšana

Cik daudz nesaskaņu kontu jums var būt

Kā LaTeX aptīt tekstu ap figūrām

Kādas ir izslēgšanas komandas sistēmā Windows

Kāda ir atšķirība starp izplūdušo vaicājumu un atbilstošo vaicājumu?

Kā rakstīt datus teksta failā MATLAB, izmantojot funkciju fprintf ()?

Ko nozīmē “Nosūtīts kā SMS caur serveri” Android

Kā instalēt Conda komandrindu Ubuntu Linux

Kā mainīt objekta vērtību, kas atrodas masīvā, izmantojot JavaScript?

Pilna viļņa taisngriezis ar kondensatora filtru

Windows 11 KB5026446 Moment 3 bezsaistes instalēšanas programmas un izmaiņu žurnāls

Google Chrome sākuma ekrāna flīžu ikona Liela (Fix) - Winhelponline

Makefile sintakses izpratne: izplatītas problēmas un risinājumi (tostarp “Trūkstošais operators” un “Ieejas punkts nav atrasts”)