Iegūstiet R DataFrame kolonnu skaitu

Iegustiet R Dataframe Kolonnu Skaitu



R versijā kolonnu skaita iegūšana ir pamata darbība, kas ir nepieciešama daudzās situācijās, strādājot ar DataFrames. Apakškopas, analizējot, manipulējot, publicējot un vizualizējot datus, kolonnu skaits ir ļoti svarīga informācija, kas jāzina. Tāpēc R nodrošina dažādas pieejas, lai iegūtu norādītā DataFrame kolonnu kopsummu. Šajā rakstā mēs apspriedīsim dažas pieejas, kas palīdz mums iegūt DataFrame kolonnu skaitu.

1. piemērs: funkcijas Ncol() izmantošana

ncol () ir visizplatītākā funkcija, lai iegūtu datu rāmju kolonnu kopsummu.







df <- data.frame('y1' = c(10, 12, 14, 19),

'y2' = c(15, 22, 24, 29),
'y3' = c(25, 32, 34, 39))


n <- ncol(df)

cat('-----Sleju skaits datu rāmī :', n)

Šajā piemērā mēs vispirms izveidojam “df” DataFrame ar trim kolonnām, kas apzīmētas kā “y1”, “y2” un “y3”, izmantojot R funkciju data.frame(). Katras kolonnas elementi ir norādīti, izmantojot funkcija c(), kas izveido elementu vektoru. Pēc tam, izmantojot mainīgo “n”, funkcija ncol () tiek izmantota, lai noteiktu kolonnu kopskaitu “df” DataFrame. Visbeidzot, izmantojot aprakstošo ziņojumu un mainīgo “n”, nodrošinātā funkcija cat () izdrukā rezultātus konsolē.



Kā paredzēts, izgūtā izvade norāda, ka norādītajam DataFrame ir trīs kolonnas:







2. piemērs: saskaitiet tukšā datu rāmja kopējo kolonnu skaitu

Tālāk mēs izmantojam funkciju ncol () tukšajam DataFrame, kas iegūst arī kopējo kolonnu vērtības, bet šī vērtība ir nulle.

tukšs_df <- data.frame()

n <- ncol(tukšs_df)

cat ('---Slejas datu rāmī :', n)

Šajā piemērā mēs ģenerējam tukšu DataFrame, “empty_df”, izsaucot data.frame(), nenorādot nekādas kolonnas vai rindas. Tālāk mēs izmantojam funkciju ncol (), kas tiek izmantota, lai atrastu kolonnu skaitu DataFrame. Funkcija ncol () šeit ir iestatīta ar “empty_df” DataFrame, lai iegūtu kopējo kolonnu skaitu. Tā kā “empty_df” DataFrame ir tukšs, tajā nav nevienas kolonnas. Tātad, ncol(empty_df) izvade ir 0. Rezultātus parāda funkcija cat (), kas šeit ir izvietota.



Izvade parāda vērtību “0”, kā paredzēts, jo DataFrame ir tukšs.

3. piemērs. Funkcijas Select_If() izmantošana kopā ar funkciju Length().

Ja vēlamies izgūt kāda noteikta veida kolonnu skaitu, mums jāizmanto funkcija select_if() kopā ar R funkciju long(). Šīs funkcijas tiek izmantotas, lai iegūtu katra veida kolonnu kopsummu. . Kods šo funkciju izmantošanai ir ieviests šādi:

bibliotēka (dplyr)

x1<-BURTI[1:10]

x2<-rpois(10,2)

x3<-rpois(10,5)

x4<-sample(c('Vasara','Ziema'),10,aizvietot=TRUE)

df1<-data.frame(x1,x2,x3,x4)

df1

garums(select_if(df1,is.numeric))

Šajā piemērā mēs vispirms ielādējam dplyr pakotni, lai mēs varētu piekļūt funkcijai select_if () un funkcijai garums (). Pēc tam mēs izveidojam četrus mainīgos - attiecīgi “x1”, “x2”, “x3” un “x4”. Šeit “x1” satur pirmos 10 angļu alfabēta lielos burtus. Mainīgie lielumi “x2” un “x3” tiek ģenerēti, izmantojot funkciju rpois (), lai izveidotu divus atsevišķus 10 nejaušu skaitļu vektorus ar attiecīgi parametriem 2 un 5. Mainīgais “x4” ir faktoru vektors ar 10 elementiem, kas ir nejauši atlasīti no vektora c (“Vasara”, “Ziema”).

Pēc tam mēs mēģinām izveidot “df1” DataFrame, kurā visi mainīgie tiek nodoti funkcijā data.frame(). Visbeidzot, mēs izsaucam funkciju garums(), lai noteiktu “df1” DataFrame garumu, kas izveidots, izmantojot funkciju select_if() no pakotnes dplyr. Funkcija select_if() atlasa kolonnas no “df1” DataFrame kā argumentu, un funkcija is.numeric() atlasa tikai tās kolonnas, kurās ir skaitliskās vērtības. Pēc tam funkcija garums () iegūst kolonnu kopsummu, ko atlasa ar select_if (), kas ir visa koda izvade.

Kolonnas garums ir parādīts šādā izvadā, kas norāda DataFrame kolonnu kopskaitu:

4. piemērs: funkcijas Sapply() izmantošana

Un otrādi, ja mēs vēlamies saskaitīt tikai trūkstošās kolonnu vērtības, mums ir funkcija sapply (). Funkcija apply() atkārtojas katrā DataFrame kolonnā, lai darbotos īpaši. Funkcija apply() vispirms tiek nodota ar DataFrame kā argumentu. Pēc tam ir nepieciešama darbība, kas jāveic ar šo DataFrame. Funkcijas sapply() ieviešana, lai iegūtu NA vērtību skaitu DataFrame kolonnās, tiek nodrošināta šādi:

new_df <- data.frame(c1 = c(10, 11, NA, 13, NA),

c2 = c('N', NA, 'A', 'M', 'E'),
c3 = c(NA, 92, NA, NA, 95))

sapply(new_df, function(x) summa(is.na(x)))

Šajā piemērā mēs ģenerējam “new_df” DataFrame ar trim kolonnām – “c1”, “c2” un “c3”. Pirmajās kolonnās “c1” un “c3” ir ietvertas skaitliskās vērtības, tostarp dažas trūkstošās vērtības, kuras attēlo NA. Otrajā kolonnā “c2” ir rakstzīmes, tostarp dažas trūkstošās vērtības, kuras arī attēlo NA. Pēc tam “new_df” DataFrame izmantojam funkciju saply() un aprēķinām trūkstošo vērtību skaitu katrā kolonnā, izmantojot sum() izteiksmi funkcijā apply().

Funkcija is.na () ir izteiksme, kas norādīta funkcijai summa () un kas atgriež loģisku vektoru, kas norāda, vai kolonnā trūkst katra elementa. Funkcija summa () saskaita TRUE vērtības, lai saskaitītu trūkstošo vērtību skaitu katrā kolonnā.

Tādējādi izvade parāda kopējās NA vērtības katrā kolonnā:

5. piemērs: funkcijas Dim() izmantošana

Turklāt mēs vēlamies iegūt kopējo kolonnu skaitu kopā ar DataFrame rindām. Pēc tam funkcija dim() nodrošina DataFrame izmērus. Funkcija dim() izmanto objektu kā argumentu, kura izmērus mēs vēlamies izgūt. Šeit ir kods funkcijas dim() izmantošanai:

d1 <- data.frame(team=c('t1', 't2', 't3', 't4'),

punkti=c(8, 10, 7, 4))

blāvs (d1)

Šajā piemērā mēs vispirms definējam “d1” DataFrame, kas tiek ģenerēts, izmantojot funkciju data.frame(), kur divas kolonnas ir iestatītas “team” un “points”. Pēc tam mēs izsaucam funkciju dim () pār “d1” DataFrame. Funkcija dim() atgriež DataFrame rindu un kolonnu skaitu. Tāpēc, palaižot dim(d1), tas atgriež vektoru ar diviem elementiem – pirmais no tiem atspoguļo rindu skaitu “d1” DataFrame, bet otrais – kolonnu skaitu.

Izvade apzīmē DataFrame izmērus, kur vērtība “4” norāda kolonnu kopskaitu un vērtība “2” apzīmē rindas:

Secinājums

Tagad mēs uzzinājām, ka kolonnu skaita R skaitīšana ir vienkārša un svarīga darbība, ko var veikt DataFrame. No visām funkcijām ncol() funkcija ir ērtākais veids. Tagad mēs esam pazīstami ar dažādiem veidiem, kā iegūt kolonnu skaitu no dotā DataFrame.