Kā izmantot žetonus apskaujošos sejas transformatoros?

Ka Izmantot Zetonus Apskaujosos Sejas Transformatoros



Dabiskās valodas apstrāde (NLP) darbojas, izmantojot neapstrādātu datu formu. Mašīnmācīšanās modeļi ir apmācīti, izmantojot sarežģītus datus, taču tie nevar saprast neapstrādātus datus. Šim neapstrādātajam datu veidam ir jābūt ar to saistītai skaitliskai vērtībai. Šī vērtība nosaka vārda vērtību un nozīmi datos, un uz tā pamata tiek veikti aprēķini.

Šajā rakstā ir sniegti detalizēti norādījumi par tokenizatoru izmantošanu Hugging Face Transformers.

Kas ir Tokenizators?

Tokenizer ir svarīgs NLP jēdziens, un tā galvenais mērķis ir pārvērst neapstrādātu tekstu skaitļos. Šim nolūkam ir pieejamas dažādas metodes un metodes. Tomēr ir vērts atzīmēt, ka katra tehnika kalpo noteiktam mērķim.
Kā izmantot žetonus apskaujošos sejas transformatoros?







Kā izmantot žetonus apskaujošos sejas transformatoros?

Tokenizatora bibliotēka vispirms ir jāinstalē pirms tās izmantošanas un funkciju importēšanas no tās. Pēc tam apmāciet modeli, izmantojot AutoTokenizer, un pēc tam nodrošiniet ievadi, lai veiktu marķieri.



Hugging Face ievieš trīs galvenās marķieru kategorijas, kas ir norādītas zemāk:



  • Uz vārdiem balstīts marķieris
  • Uz rakstzīmēm balstīts marķieris
  • Apakšvārdu marķieris

Šeit ir sniegta detalizēta rokasgrāmata par tokenizatoru izmantošanu programmā Transformers:





1. darbība. Instalējiet transformatorus
Lai instalētu transformatorus, izmantojiet komandu pip šādā komandā:

! pip uzstādīt transformatori



2. darbība: importējiet klases
No transformatoriem, imports cauruļvads , un AutoModelForSequenceClassification bibliotēka, lai veiktu klasifikāciju:

no transformatoru importa cauruļvada, AutoModelForSequenceClassification

3. darbība. Importējiet modeli
' AutoModelForSequenceClassification ” ir metode, kas pieder pie Auto-Class marķieriem. The from_pretrained() metode tiek izmantota, lai atgrieztu pareizo modeļa klasi, pamatojoties uz modeļa tipu.

Šeit mēs esam norādījuši modeļa nosaukumu sadaļā “ modeļa nosaukums ” mainīgais:

modeļa nosaukums = 'distilbert-base-uncased-finetuned-sst-2-english'
pirmsapmācības modelis =AutoModelForSequenceClassification.from_pretrained ( modeļa nosaukums )

4. darbība. Importējiet AutoTokenizer
Nodrošiniet šādu komandu, lai ģenerētu marķierus, nododot ' modeļa nosaukums ” kā arguments:

no transformatoriem importēt AutoTokenizer

ģenerētais marķieris =AutoTokenizer.from_pretrained ( modeļa nosaukums )

5. darbība: ģenerējiet marķieri
Tagad mēs ģenerēsim marķierus teikumam “Man patīk labs ēdiens” izmantojot ' ģenerētais marķieris ” mainīgais:

vārdus =ģenerēt token ( 'Man patīk labs ēdiens' )
drukāt ( vārdus )

Izvade tiek dota šādi:

Kods iepriekš minētajam Google Co ir sniegts šeit.

Secinājums

Lai izmantotu marķierus programmā Hugging Face, instalējiet bibliotēku, izmantojot pip komandu, apmāciet modeli, izmantojot AutoTokenizer, un pēc tam nodrošiniet ievadi marķieru veikšanai. Izmantojot tokenizāciju, piešķiriet vārdiem svaru, pamatojoties uz kuriem tie tiek sakārtoti, lai saglabātu teikuma nozīmi. Šis rādītājs arī nosaka to vērtību analīzei. Šis raksts ir detalizēts ceļvedis par tokenizatoru izmantošanu Hugging Face Transformers.