Pandas Join vs Merge

Pandas Join Vs Merge



“Pandas” ir augstas veiktspējas rīks python videi. Tas ir “atvērts” pirmkods datu analīzei. Pandu savienošanas un pandu sapludināšanas metode tiek izmantota, lai abus datu kadrus apvienotu vienā datu kadrā. Abās pandu metodēs atšķirība ir tāda, ka funkcija “join” pandas savieno datu rāmi, izmantojot indeksu. Kamēr pandas “sapludināšanas” funkcija pievienojas datu kadram, izmantojot indeksu un kolonnas metodi, kurā mēs paši varam atlasīt vajadzīgo kolonnu. Pandu sapludināšanas metode tiek izmantota galvenokārt, salīdzinot ar pandu apvienošanas metodi. Programmatūra, ko izmantosim ieviešanai, ir “spyder” programmatūra, kas atrodas python vidē un sniegs mums priekšrocības pandas join method() un pandas merge() metodes funkcijas koda ieviešanā.

Metodes Pandas Join() sintakse

“df1. pievienoties ( df2 )

“df” iepriekš minētajā sintaksē ir “dataframe” saīsinājums. Sintaksē ir divi datu kadri ar funkciju “dot join”, kas paredzēta metodes izsaukšanai. Tā ir pandas metode divu datu kadru savienošanai. Tas darbojas, izmantojot indeksu, lai apvienotu datu kadrus vienā.







Metodes Pandas Merge() sintakse

“df1. sapludināt ( df2 , ieslēgts = 'kolonnas_nosaukums' )

Pandas sapludināšanas metodes sintaksei ir divi datu kadri — “df1” un “df2”. Funkcija “Punktu sapludināšana” izsauc metodi abu datu kadru savienošanai ar apgrieztām kolonnām.



Mēs apskatīsim šādus veidus, kā apvienot divus datu kadrus, lai izmantotu pandu sapludināšanas un pandu pievienošanās metodes:



  • Pandas Join metode pārklājas.
  • Pandas pievienojas metodei, izmantojot indeksa atiestatīšanu.
  • Pandas sapludināšanas metode (kolonna “pa kreisi un pa labi”).
  • Pandas sapludināšanas metode ir skaidra.

Datu rāmju izveide Pandas sapludināšanas un Pandas pievienošanās metodes ieviešanai

Pirmkārt, mums ir jāizveido datu rāmis. Šim nolūkam mēs izmantosim “spyder” rīku. Pēc tā atvēršanas sāciet rakstīt kodu. Importējiet pandas kā “pd” pandu bibliotēku asociācijai. Mums ir datu rāmja mainīgie kā attiecīgi “x”, “y”, “p” un “q” un “a” ar vērtībām “1” un “b” ar vērtību, kas piešķirta kā “2”.





Izvade ir “df”, kas izveidots ar piešķirtajām vērtībām. Mēs varam to padarīt tik lielu, cik ir dati.



Cita datu rāmja izveide

Mums ir jāizveido vēl viens datu rāmis, lai skaidri saprastu pandu pievienošanās un saplūšanas metodes. Šeit mēs esam izveidojuši tādu pašu “df”, kā iepriekš minētais “df”, tikai piešķirtās mainīgās vērtības atšķiras. Mums ir “h”, “j”, “s” un “d”, savukārt vērtības “b” piešķir ar vērtību “8” un “Y” ar vērtību “3”.

Izvade parāda vienkāršu izveidoto “df”.

01. piemērs: Pandas pievienošanās metode (pārklājas)

Tagad mēs redzēsim, kā savienot divus datu kadrus, izmantojot pandas savienošanas metodi. Šai metodei mēs varam izvēlēties kolonnu pēc jūsu izvēles, ar kuru mēs vēlamies strādāt no datu rāmja. Mēs ņēmām piemēru ar pārklājošo kolonnu “pa kreisi” no “df”, lai mēs varētu to labot ar “sufiksu”, lai novērstu datu pārklāšanos. Šeit izmantotie mainīgie ir “x”, “z”, “v”, “d”. “p”, “o”, “l” un “y” ar vērtībām, kas piešķirtas kā “3”, “6”, “7” un “9”. “.join” izsauc metodi, un līdzināšana ir iestatīta uz kreiso savienojumu ar labo “df” sufiksu. ”. Kodā izmantotais “sufikss” ir tāpēc, ka datu ietvarā ir divas kolonnas, kurām ir vienāds nosaukums, kas ir “atslēga”, un kas nepārklāsies ar datiem.

Izvadē netiek rādīti dati, kas pārklājas, izmantojot divu “df” savienošanas metodi, izmantojot pandas savienošanas metodi.

02. piemērs: Pandas pievienošanās metode, izmantojot indeksa atiestatīšanu

Šajā piemērā mēs atsevišķi norādīsim kolonnu ar parametru “ieslēgts”, lai to izmantotu kā “atslēgu” savienojuma metodē, kas palīdz savienot divus datu kadrus. kombinētā lieta tiek veikta ar šo parametru. Arī viena no diviem “df” indeksam jābūt līdzīgam, lai tiem pievienotos. Līdzīga veida datus vai datus, kas tiek izmantoti vienam un tam pašam mērķim, apstrādei var izmantot kopā. Tiks izmantots rādītājs joprojām, izmantojot no labās puses. Mainīgie lielumi ir “s”, “t”, “u”, “v”, “n”, “w”, “k” un “q”. Piešķirtās vērtības ir “3”, “6”, “7” un “9”. “Atiestatīt punktu indeksu” ir pandu metode, lai atiestatītu “df” indeksu. Atiestatīšanas indekss iestata visus jūsu datu rāmja saraksta veselos skaitļus no 0 līdz datu rāmja datu pagarināšanai.

Šeit ir izvade, kas tiek parādīta ar indeksa “atslēgas” pievienošanās metodi pandas.

03. piemērs: Pandas sapludināšanas metode (kolonna “pa kreisi un pa labi”)

Apvienošanas metode veic līdzīgu darbību kā pandu pievienošanās metode. Abas metodes ir paredzētas datu apvienošanai līdzīgā datu ietvarā. Apvienošanas metode ir daudzpusīgāka, un tai ir jānorāda atslēga. Mēs to varam norādīt arī kreisajā un labajā kolonnā atkarībā no jūsu datu rāmja darbības. Koda mainīgie ir “s”, “d”, “g”, “f”, “k”, “j”, “b” un “q”. piešķirtās vērtības ir “9”, “5”, “6” un “7”. Ārējā “join” ieviešana tiek veikta abos “df”, izmantojot pandas sapludināšanas metodes funkcijas parametru “how”.

Izvade, ko mēs redzam, parāda abu datu kadru apvienotos datus. “NaN” apzīmē “nav skaitlis”, kas nozīmē, ka, ja datos nav piešķirts numurs, “NaN” tiek rādīts.

04. piemērs: sapludināšanas metode

Šeit, šajā piemērā, sapludināšanas metode ir indeksa iznīcināšana, un datu kadrā netiek pieņemta indeksa vērtība. Mēs veiksim šo metodi atbilstoši veicamajam darbam, kur skaidri noteikts, ka ir jāseko līdzi. Tas apvienos datus, pamatojoties uz kreiso indeksu vai labo indeksu, ar parametru. Mainīgie šajā datu ietvarā ir “t”, “r”, “I”, “u”, “h”, “o”, “e” un “e”. Piešķirtās vērtības ir “2”, “4”, “6” un “4”. Iepriekš minētais pandu sapludināšanas metodes piemērs ar kolonnu atlasi atbilstoši vajadzībām ir vispiemērotākā un vērtīgākā metode abu datu kadru savienošanai. Koda rindas beigās tiek pārbaudīts, vai sapludināšanas atslēga datu kopā ir unikāla.

Zemāk esošajā izvadā indekss netiek parādīts bez indeksa, bet funkcija tiek veikta, pamatojoties uz labo un kreiso indeksu.

Secinājums

Metodes sapludināšana () un join () ir ļoti ērtas un efektīvas. Abas šīs funkcijas tiek izmantotas, lai savienotu divus atsevišķus datu kadrus vienā datu ietvarā, taču atkarībā no gadījuma tās tiek izmantotas atšķirīgi. Šajā rakstā mēs uzzinājām galvenās atšķirības starp pandu pievienošanās un sapludināšanas metodi. Pēc piemēru izpildīšanas un pandu pievienošanās metodes izpratnes mēs to noslēgsim ar zināšanām, ka, ja vēlamies elastīgāku un datu bāzes stila savienošanu, vēlams izmantot pandu sapludināšanas metodi. No otras puses, ja mēs vēlamies plaši apvienot datu kadru ar indeksu, mēs varam izmantot pandas join() metodes funkciju.