Kā lietot cauruļvadus datu kopā transformatoros?

Funkcija pipeline() ir Transformer bibliotēkas neatņemama sastāvdaļa. Nepieciešamas vairākas ievades, kurās mēs varam definēt secinājumu uzdevumu, modeļus, marķierizācijas mehānismu utt. Funkciju konveijera() galvenokārt izmanto, lai veiktu NLP uzdevumus vienam vai vairākiem tekstiem. Tā veic ievades priekšapstrādi un pēcapstrādi, pamatojoties uz modeli, lai radītu cilvēkam lasāmu izvadi un precīzu prognozi ar maksimālu precizitāti.

Šajā rakstā ir apskatīti šādi aspekti:

Kas ir apskaujošās sejas datu kopu bibliotēka?
Kā uzlikt cauruļvadus datu kopai apskaujošā sejā?

Kas ir apskaujošās sejas datu kopas bibliotēka?

Hugging Face datu kopu bibliotēka ir API, kas satur vairākas publiskas datu kopas un nodrošina vienkāršu veidu, kā tās lejupielādēt. Šo bibliotēku var importēt un instalēt lietojumprogrammā, izmantojot ' pip ” komandu. Lai iegūtu praktisku demonstrāciju, kā lejupielādēt un instalēt Hugging Face bibliotēkas datu kopas, apmeklējiet šo Google Colab saite. Varat lejupielādēt vairākas datu kopas no vietnes Hugging Face Dataset Hub.

Uzziniet vairāk par cauruļvada() funkcijas darbību, atsaucoties uz šo rakstu ' Kā izmantot cauruļvada() funkciju transformatoros? ”.

Kā uzlikt cauruļvadus datu kopai apskaujošā sejā?

Hugging Face nodrošina vairākas dažādas publiskas datu kopas, kuras var viegli instalēt, izmantojot vienas rindas kodu. Šajā rakstā mēs redzēsim praktisku demonstrāciju par cauruļvadu izmantošanu šīm datu kopām. Ir divi veidi, kā datu kopā var ieviest konveijerus.

1. metode: iterācijas metodes izmantošana
2. metode. Datu kopu bibliotēkas izmantošana

1. metode: iterācijas metodes izmantošana

Funkciju cauruļvads () var atkārtot arī datu kopā un modelī. Šim nolūkam veiciet tālāk norādītās darbības.

1. darbība. Instalējiet Transformatora bibliotēku

Lai instalētu Transformatora bibliotēku, norādiet šādu komandu:

!pip install transformatori

2. darbība: importējiet cauruļvadus

Mēs varam importēt cauruļvadu no Transformatora bibliotēkas. Šim nolūkam norādiet šādu komandu:

no transformatoru importa cauruļvada

3. darbība: ieviešiet cauruļvadu

Šeit funkcija pipeline() ir ieviesta modelī ' gpt2 ”. Jūs varat lejupielādēt modeļus no Apskāvienu sejas modeļu centrs:

def imp_pipeline():
x diapazonā (1000):
raža f'Ieviešanas datu kopa{x}'

gener_pipeline= konveijera(modelis='gpt2', device=0)
gen_char= 0
izvadei gener_pipeline(imp_pipeline()):
gen_char += len(izeja[0]['ģenerēts_teksts'])

Šajā kodā ' Generator_pipeline ” ir mainīgais, kas satur pipeline() funkciju ar modeli “ gpt2 ”. Kad to sauc ar “ imp_pipeline() ” funkcija, tā automātiski atpazīst datus, kas palielināti ar diapazonu, kas norādīts līdz 1000:

Tas prasīs kādu laiku, lai apmācītu. Saite uz Google Co tiek dota arī.

2. metode: datu kopu bibliotēkas izmantošana

Šajā metodē mēs parādīsim cauruļvada ieviešanu, izmantojot “datu kopu” bibliotēku:

1. darbība. Instalējiet transformatoru

Lai instalētu Transformatora bibliotēku, norādiet šādu komandu:

!pip install transformatori

2. darbība. Instalējiet datu kopas bibliotēku

Kā “ datu kopas ” bibliotēkā ir visas publiskās datu kopas, mēs varam to instalēt, izmantojot šādu komandu. Instalējot ' datu kopas ” bibliotēku, mēs varam tieši importēt jebkuru datu kopu, norādot tās nosaukumu:

!pip instalēšanas datu kopas

3. darbība: datu kopas cauruļvads

Lai izveidotu cauruļvadu datu kopā, izmantojiet tālāk norādīto kodu. KeyDataset ir līdzeklis, kas izvada tikai tās vērtības, kas interesē lietotāju:

no transformers.pipelines.pt_utils importēt KeyDataset
no transformatoru importa cauruļvada
no datu kopām importēt load_dataset
gen_pipeline = cauruļvads (modelis = 'hf-internal-testing/tiny-random-wav2vec2', ierīce = 0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]') izvadei gen_pipeline(KeyDataset(loaddataset, 'audio')):
print ('Drukāšanas izvade tagad')
drukāt ('-----------------')
drukāt (izvade)

Iepriekš minētā koda izvade ir norādīta zemāk:

Tas ir viss no šīs rokasgrāmatas. Saite uz Google Co ir minēts arī šajā rakstā

Secinājums

Lai datu kopā lietotu konveijerus, mēs varam atkārtot datu kopu, izmantojot funkciju pipeline() vai izmantot “ datu kopas ” bibliotēka. Hugging Face saviem lietotājiem nodrošina GitHub repozitorija saiti gan datu kopām, gan modeļiem, kurus var izmantot, pamatojoties uz prasībām. Šajā rakstā ir sniegts visaptverošs ceļvedis par cauruļvadu lietošanu datu kopā Transformers.

Kā lietot cauruļvadus datu kopā transformatoros?

Kas ir apskaujošās sejas datu kopas bibliotēka?

Kā uzlikt cauruļvadus datu kopai apskaujošā sejā?

1. metode: iterācijas metodes izmantošana

1. darbība. Instalējiet Transformatora bibliotēku

2. darbība: importējiet cauruļvadus

3. darbība: ieviešiet cauruļvadu

2. metode: datu kopu bibliotēkas izmantošana

1. darbība. Instalējiet transformatoru

2. darbība. Instalējiet datu kopas bibliotēku

3. darbība: datu kopas cauruļvads

Secinājums

Kategorija

Populārākas Posts

Kā instalēt Ruby Ubuntu 22.04

HKEY_USERS | Kā saskaņot lietotāja profilu ar mapēm

Izlabojiet Discord Error 1105 operētājsistēmā Windows PC

Kā PyTorch aprēķināt tenzora nemērogoto gradientu?

Kas ir MoUSOCoreWorker.exe

Kas ir AWS CLI — instalēšana, komandas un lietojumprogrammas

Kā palaist Docker attēlu no vietējās krātuves?

Gaistošs C++

Kā lietot kļūdas.Jauna() funkcija Golangā – piemēri

Kā izdzēst Lambda funkciju, izmantojot SDK Python (Boto3)?

Attālināti piekļūstiet Raspberry Pi aiz ugunsmūra, izmantojot JFrog Connect

Kā instalēt Starship Shell Prompt for Zsh operētājsistēmā Mac?

Kā instalēt PIP operētājsistēmā Mac

Pandas DataFrame uz JSON

Kāda ir atšķirība starp S3 un EC2?

Saglabājiet pārlūkprogrammas Internet Explorer izlase kārtību, pārsūtot uz citu datoru - Winhelponline

Kā izveidot neona mājdzīvnieku filmā Adopt Me — Roblox

Kā atrast vakardienas datumu Bašā

Kopējiet tabulu SQL

Kā lietot teksta uzvednes ar DALL-E?