Kā analizēt teksta datus programmā R: virkņu manipulācijas pamati

Ka Analizet Teksta Datus Programma R Virknu Manipulacijas Pamati



Virknes ir otrs populārākais datu veids R programmēšanā, un virkņu manipulācijas ir būtisks uzdevums programmā R. Virknes manipulācijas operācijā R sastāv no vairākām funkcijām, lai izmantotu un mainītu teksta datus, tostarp mainītu un parsētu virknes. Šajā rakstā mēs apskatīsim dažas funkcijas, kas mums palīdz manipulēt ar virknēm. Šīs funkcijas ir iebūvētas R un tiek izmantotas dažādiem mērķiem, lai veiktu virknes uzdevumus.

1. piemērs: iegūstiet modeļa pozīciju no virknes, izmantojot funkciju Grep() R

Lai no virknes iegūtu norādītā raksta pozīciju, tiek izmantota R funkcija grep().

grep('i+', c('labot', 'sadalīt', 'kukurūza n', 'krāsot'), perl=TRUE, value=FALSE)

Šeit mēs izmantojam funkciju grep (), kur '+i' modelis ir norādīts kā arguments, kas jāsaskaņo virkņu vektorā. Mēs iestatām rakstzīmju vektorus, kas satur četras virknes. Pēc tam mēs iestatām argumentu 'perl' ar vērtību TRUE, kas norāda, ka R izmanto ar perl saderīgu regulāro izteiksmju bibliotēku, un parametrs 'value' tiek norādīts ar vērtību 'FALSE', ko izmanto, lai izgūtu elementu indeksus. vektorā, kas atbilst modelim.







“+i” raksta pozīcija no katras vektora rakstzīmju virknes tiek parādīta šādā izvadā:





2. piemērs: saskaņojiet modeli, izmantojot funkciju Gregexpr() R

Pēc tam mēs iegūstam indeksa pozīciju kopā ar konkrētās virknes garumu R, izmantojot funkciju gregexpr ().





char_vec <- c('PROGRAMMĒŠANAS VALODA','RSCRIPT')
gregexpr ('GRAMM', char_vec, useBytes = TRUE)

Šeit mēs iestatām mainīgo “char_vect”, kur virknes tiek nodrošinātas ar dažādām rakstzīmēm. Pēc tam mēs definējam funkciju gregexpr (), kas izmanto “GRAMM” virknes modeli, kas jāsaskaņo ar virknēm, kas tiek saglabātas “char_vec”. Pēc tam mēs iestatām parametru useBytes ar vērtību “TRUE”. Šis parametrs norāda, ka saskaņošana ir jāpanāk pa baitam, nevis pa rakstzīmei.

Tālāk norādītā izvade, kas tiek izgūta no funkcijas gregexpr (), attēlo abu vektoru virkņu indeksus un garumu:



3. piemērs: saskaitiet kopējo rakstzīmju skaitu virknē, izmantojot R funkciju Nchar().

Metode nchar (), ko mēs ieviešam tālāk, arī ļauj mums noteikt, cik rakstzīmju ir virknē:

Res <- nchar('Saskaitīt katru rakstzīmi')
drukāt (res.)

Šeit mēs izsaucam nchar () metodi, kas ir iestatīta mainīgajā “Res”. Metode nchar() tiek nodrošināta ar garu rakstzīmju virkni, kas tiek skaitīta ar metodi nchar() un nodrošina skaitītāja rakstzīmju skaitu norādītajā virknē. Pēc tam mainīgo “Res” nododam metodei print (), lai redzētu metodes nchar () rezultātus.

Rezultāts tiek saņemts šādā izvadā, kas parāda, ka norādītajā virknē ir 20 rakstzīmes:

4. piemērs: izņemiet apakšvirkni no virknes, izmantojot R apakšvirknes funkciju

Mēs izmantojam apakšvirknes () metodi ar argumentiem 'start' un 'stop', lai no virknes iegūtu konkrēto apakšvirkni.

str <- apakšvirkne('RĪTS', 2, 4)
drukāt (str)

Šeit mums ir mainīgais “str”, kurā tiek izsaukta apakšstring () metode. Metode apakšstring() izmanto virkni “RĪTS” kā pirmo argumentu un vērtību “2” kā otro argumentu, kas norāda, ka ir jāizvelk otrā rakstzīme no virknes, un argumenta “4” vērtība norāda, ka ceturtā rakstzīme ir jāizvelk. Metode apakšvirkne () izvelk rakstzīmes no virknes starp norādīto pozīciju.

Šī izvade parāda izvilkto apakšvirkni, kas atrodas starp otro un ceturto pozīciju virknē:

5. piemērs. Savienojiet virkni, izmantojot funkciju Paste() R

Funkcija paste() programmā R tiek izmantota arī virkņu manipulācijām, kas savieno norādītās virknes, atdalot atdalītājus.

msg1 <- 'Saturs'
msg2 <- 'Rakstīšana'

ielīmēt (msg1, msg2)

Šeit mēs norādām attiecīgi mainīgo “msg1” un “msg2” virknes. Pēc tam mēs izmantojam R metodi paste (), lai savienotu norādīto virkni vienā virknē. Metode paste() izmanto virkņu mainīgo kā argumentu un atgriež vienu virkni ar noklusējuma atstarpi starp virknēm.

Izpildot metodi paste (), izvade attēlo vienu virkni ar atstarpi tajā.

6. piemērs: modificējiet virkni, izmantojot R apakšvirknes funkciju

Turklāt mēs varam arī atjaunināt virkni, pievienojot virknei apakšvirkni vai jebkuru rakstzīmi, izmantojot funkciju substring(), izmantojot šādu skriptu:

str1 <- 'Varoņi'
apakšvirkne(str1, 5, 6) <- 'ic'

cat('    Modificēta virkne:', str1)

Mēs iestatām virkni “Heroes” mainīgajā “str1”. Pēc tam mēs izvietojam apakšvirknes () metodi, kur ir norādīts “str1” kopā ar apakšvirknes “sākt” un “pārtraukt” indeksa vērtībām. Metodei apakšvirkne () tiek piešķirta apakšvirkne “iz”, kas tiek novietota pozīcijā, kas norādīta dotās virknes funkcijā. Pēc tam mēs izmantojam R funkciju cat (), kas apzīmē atjaunināto virknes vērtību.

Izvade, kurā tiek parādīta virkne, tiek atjaunināta ar jauno, izmantojot apakšvirknes () metodi:

7. piemērs. Formatējiet virkni, izmantojot R formāta funkciju Format().

Tomēr virknes manipulācijas operācijā R ietver arī virknes atbilstošu formatēšanu. Šim nolūkam mēs izmantojam format() funkciju, kur virkni var līdzināt un iestatīt konkrētās virknes platumu.

izvietojums1 <- formāts ('Programmas', platums = 10, taisnojums = 'l')
izvietojums2 <- formāts ('Programmas', platums = 10, taisnojums = 'r')
placement3 <- formāts ('Programmas', platums = 10, taisnojums = 'c')

drukāt(izvietojums1)
drukāt (izvietojums2)
drukāt (izvietojums3)

Šeit mēs iestatām mainīgo “placement1”, kas tiek nodrošināts ar format() metodi. Mēs nododam formatējamo virkni “programmas” uz format() metodi. Platums ir iestatīts, un virknes līdzinājums tiek iestatīts pa kreisi, izmantojot argumentu “attaisnot”. Līdzīgi mēs izveidojam vēl divus mainīgos, “placement2” un “placement2”, un izmantojam format() metodi, lai attiecīgi formatētu norādīto virkni.

Izvadītajā attēlā tiek parādīti trīs formatēšanas stili vienai un tai pašai virknei, tostarp līdzinājums pa kreisi, pa labi un centrā:

8. piemērs: pārveidojiet virkni uz mazajiem un lielajiem burtiem R

Turklāt mēs varam arī pārveidot virkni ar mazajiem un lielajiem burtiem, izmantojot funkcijas tolower () un toupper () šādi:

s1 <- 'LABA PĀRTIKA LABA DZĪVE'
rezultāts1 <- zemāks(s1)

drukāt (rezultāts1)

s2 <- 'R programmēšanas valoda valodā'
rezultāts2 <- augšējais(s2)

drukāt (rezultāts2)

Šeit mēs sniedzam virkni, kurā ir lielie un mazie burti. Pēc tam virkne tiek saglabāta mainīgajā “s1”. Pēc tam mēs izsaucam metodi tolower () un nododam tajā virkni “s1”, lai visas virknē esošās rakstzīmes pārveidotu ar mazajiem burtiem. Pēc tam mēs izdrukājam metodes tolower () rezultātus, kas tiek saglabāti mainīgajā “result1”. Tālāk mēs iestatām citu virkni mainīgajā “s2”, kurā ir visas rakstzīmes ar mazajiem burtiem. Šai “s2” virknei mēs izmantojam metodi toupper(), lai pārveidotu esošo virkni lielos burtos.

Izvade parāda abas virknes norādītajā gadījumā šādā attēlā:

Secinājums

Mēs uzzinājām dažādus veidus, kā pārvaldīt un analizēt virknes, ko dēvē par virkņu manipulācijām. Mēs izvilkām rakstzīmes pozīciju no virknes, savienojām dažādas virknes un pārveidojām virkni norādītajā reģistrā. Mēs arī formatējām virkni, modificējām virkni, un šeit tiek veiktas dažādas citas darbības, lai manipulētu ar virkni.