Kā lietot cauruļvadus datu kopā transformatoros?

Ka Lietot Caurulvadus Datu Kopa Transformatoros



Funkcija pipeline() ir Transformer bibliotēkas neatņemama sastāvdaļa. Nepieciešamas vairākas ievades, kurās mēs varam definēt secinājumu uzdevumu, modeļus, marķierizācijas mehānismu utt. Funkciju konveijera() galvenokārt izmanto, lai veiktu NLP uzdevumus vienam vai vairākiem tekstiem. Tā veic ievades priekšapstrādi un pēcapstrādi, pamatojoties uz modeli, lai radītu cilvēkam lasāmu izvadi un precīzu prognozi ar maksimālu precizitāti.

Šajā rakstā ir apskatīti šādi aspekti:







Kas ir apskaujošās sejas datu kopas bibliotēka?

Hugging Face datu kopu bibliotēka ir API, kas satur vairākas publiskas datu kopas un nodrošina vienkāršu veidu, kā tās lejupielādēt. Šo bibliotēku var importēt un instalēt lietojumprogrammā, izmantojot ' pip ” komandu. Lai iegūtu praktisku demonstrāciju, kā lejupielādēt un instalēt Hugging Face bibliotēkas datu kopas, apmeklējiet šo Google Colab saite. Varat lejupielādēt vairākas datu kopas no vietnes Hugging Face Dataset Hub.



Uzziniet vairāk par cauruļvada() funkcijas darbību, atsaucoties uz šo rakstu ' Kā izmantot cauruļvada() funkciju transformatoros? ”.



Kā uzlikt cauruļvadus datu kopai apskaujošā sejā?

Hugging Face nodrošina vairākas dažādas publiskas datu kopas, kuras var viegli instalēt, izmantojot vienas rindas kodu. Šajā rakstā mēs redzēsim praktisku demonstrāciju par cauruļvadu izmantošanu šīm datu kopām. Ir divi veidi, kā datu kopā var ieviest konveijerus.





1. metode: iterācijas metodes izmantošana

Funkciju cauruļvads () var atkārtot arī datu kopā un modelī. Šim nolūkam veiciet tālāk norādītās darbības.

1. darbība. Instalējiet Transformatora bibliotēku

Lai instalētu Transformatora bibliotēku, norādiet šādu komandu:



!pip install transformatori

2. darbība: importējiet cauruļvadus

Mēs varam importēt cauruļvadu no Transformatora bibliotēkas. Šim nolūkam norādiet šādu komandu:

no transformatoru importa cauruļvada

3. darbība: ieviešiet cauruļvadu

Šeit funkcija pipeline() ir ieviesta modelī ' gpt2 ”. Jūs varat lejupielādēt modeļus no Apskāvienu sejas modeļu centrs:

def imp_pipeline():
x diapazonā (1000):
raža f'Ieviešanas datu kopa{x}'


gener_pipeline= konveijera(modelis='gpt2', device=0)
gen_char= 0
izvadei gener_pipeline(imp_pipeline()):
gen_char += len(izeja[0]['ģenerēts_teksts'])

Šajā kodā ' Generator_pipeline ” ir mainīgais, kas satur pipeline() funkciju ar modeli “ gpt2 ”. Kad to sauc ar “ imp_pipeline() ” funkcija, tā automātiski atpazīst datus, kas palielināti ar diapazonu, kas norādīts līdz 1000:

Tas prasīs kādu laiku, lai apmācītu. Saite uz Google Co tiek dota arī.

2. metode: datu kopu bibliotēkas izmantošana

Šajā metodē mēs parādīsim cauruļvada ieviešanu, izmantojot “datu kopu” bibliotēku:

1. darbība. Instalējiet transformatoru

Lai instalētu Transformatora bibliotēku, norādiet šādu komandu:

!pip install transformatori

2. darbība. Instalējiet datu kopas bibliotēku

Kā “ datu kopas ” bibliotēkā ir visas publiskās datu kopas, mēs varam to instalēt, izmantojot šādu komandu. Instalējot ' datu kopas ” bibliotēku, mēs varam tieši importēt jebkuru datu kopu, norādot tās nosaukumu:

!pip instalēšanas datu kopas

3. darbība: datu kopas cauruļvads

Lai izveidotu cauruļvadu datu kopā, izmantojiet tālāk norādīto kodu. KeyDataset ir līdzeklis, kas izvada tikai tās vērtības, kas interesē lietotāju:

no transformers.pipelines.pt_utils importēt KeyDataset
no transformatoru importa cauruļvada
no datu kopām importēt load_dataset
gen_pipeline = cauruļvads (modelis = 'hf-internal-testing/tiny-random-wav2vec2', ierīce = 0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]') izvadei gen_pipeline(KeyDataset(loaddataset, 'audio')):
print ('Drukāšanas izvade tagad')
drukāt ('-----------------')
drukāt (izvade)

Iepriekš minētā koda izvade ir norādīta zemāk:

Tas ir viss no šīs rokasgrāmatas. Saite uz Google Co ir minēts arī šajā rakstā

Secinājums

Lai datu kopā lietotu konveijerus, mēs varam atkārtot datu kopu, izmantojot funkciju pipeline() vai izmantot “ datu kopas ” bibliotēka. Hugging Face saviem lietotājiem nodrošina GitHub repozitorija saiti gan datu kopām, gan modeļiem, kurus var izmantot, pamatojoties uz prasībām. Šajā rakstā ir sniegts visaptverošs ceļvedis par cauruļvadu lietošanu datu kopā Transformers.