Kas ir Amazon Redshift datu tipi?

Kas Ir Amazon Redshift Datu Tipi



Amazon Redshift ir AWS piedāvātais mākoņrisinājums, kas pilda datu noliktavas mērķi. Datu noliktava ir liela vieta mākonī, kurā glabājas milzīgs datu apjoms. Atšķirība starp datu noliktavu un datu bāzi ir tāda, ka pirmajā tiek glabāti ne tikai pašreizējie dati, bet arī visa datu vēsture.

Šajā rakstā tiks uzzināts par AWS Amazon Redshift un datu veidiem, ko atbalsta šis pakalpojums.







Kas ir Amazon RedShift?

Tas ir mākoņrisinājums datu glabāšanai, kura pamatā ir 'PostgreSQL' . Tas izmanto tehnoloģiju, ko sauc “Masīvi paralēlā apstrāde (MPP)” lai zibens ātrumā apstrādātu datu petabaitus. Tas nodrošina vienkāršu risinājumu reāllaika prognozēšanai, pamatojoties uz vēsturiskiem datiem un straumēšanas risinājumiem.



Nākamajā attēlā parādīts Amazon Redshift darbības mehānisms:







Šis grafiskais skaidrojums par to, kā darbojas Amazon Redshift, ir ļoti vienkāršs un skaidrs. Tas sniedz mums informāciju par to, kā dati tiek izgūti un tālāk apstrādāti, lai ģenerētu izejas un izveidotu uz datiem balstītas lietojumprogrammas.

Amazon Redshift datu noliktavas arhitektūra ir redzama arī attēlā zemāk:



Tagad mēs pievērsīsimies šī pakalpojuma lietojumiem un funkcijām.

Iespējas

Kā jau minēts, Amazon Redshift ir balstīts uz PostgreSQL un izmanto tehnoloģiju, ko sauc par masveida paralēlo apstrādi, kas ļauj ātri apstrādāt datu petabaitus. Tāpēc Redshift piedāvā daudz funkciju un lietojumu. Tālāk ir norādītas dažas no šīm funkcijām.

  • Datu drošība un šifrēšana.
  • Biznesa analīze.
  • Uz datiem balstītu lietojumprogrammu atbalsts.
  • Paredzamā analīze.
  • Automatizēta uzdevumu atkārtošana.
  • Vienlaicīga datu mērogošana.
  • Datu noliktavas.

Dažas šī pakalpojuma papildu funkcijas ir redzamas attēlā zemāk:

Šīs bija lielākā daļa Redshift piedāvāto funkciju, un tagad mēs pāriesim uz šī pakalpojuma atbalstītajiem datu veidiem.

Datu veidi

Amazon Redshift ir datu noliktavas risinājums ar lielu skaitu funkciju. Tas atbalsta gan strukturētus, gan nestrukturētus datu tipus. Tā kā tas ir balstīts uz PostgreSQL, ar datiem var manipulēt, izmantojot vienkāršus SQL vaicājumus.

Tagad rodas cits jautājums, t.i., ar ko šie datu formāti atšķiras viens no otra? Apspriedīsim šos divus datu formātus.

Strukturētie dati

Augsti formatētu datu tipu, ko viegli pārtulko mašīnmācīšanās algoritmi, sauc par strukturētiem datiem. SQL datu bāze darbojas ar strukturētiem datiem. Strukturētie dati ir tabulas veidā, piemēram, dati, ko izmanto relāciju datu bāzes

Viena no plaši izmantotajām SQL datu bāzes pārvaldības sistēmām ir MYSQL. Tās arhitektūru var redzēt zemāk dotajā attēlā:

Nestrukturēti dati

Nestrukturēti dati ir mazāk formāta dati, piemēram, dati, kas tiek izmantoti nerelāciju datu bāzēs. MongoDB ir slavena nerelāciju datubāze. SQL vaicājumi nedarbojas nerelāciju datu bāzēs, tāpēc šīs datu bāzes tiek sauktas arī par NoSQL datu bāzēm.

Kā jau minēts, MongoDB ir nestrukturēta datu bāzes pārvaldības sistēma, un tās arhitektūra ir redzama zemāk dotajā attēlā:

Mēs esam izpētījuši divus pamata datu tipus, kas tiek izmantoti datu bāzēs, un tagad mēs pievērsīsimies faktiskajiem datu tipiem, kurus atbalsta Amazon Redshift. Šie datu veidi ir:

  • Skaitliskie dati
  • Rakstzīmju dati
  • Datums un laiks Dati
  • Būla dati
  • HLLSKETCH dati
  • SUPER dati
  • AIZMAIŅAS Dati

Apspriedīsim šos datu veidus:

Skaitliskie dati

Šis datu veids ir pašsaprotams. Tā atbalsta datus, kas ir veselu skaitļu, decimāldaļu, peldošā komata un citu skaitlisku datu veidu formā.

Vesela skaitļa datu tipa īpašības ir redzamas attēlā zemāk:

Decimāldatu tips saglabā datus, pamatojoties uz lietotāja precizitāti. Tās īpašības ir šādas:

Rakstzīmju dati

CHAR un VARCHAR datu tipi ietilpst uz rakstzīmēm balstītu datu tipu kategorijā. NCHAR un NVARCHAR ir arī rakstzīmju tipa datu tipi. Atšķirībā no CHAR un VARCHAR, šie divi datu veidi saglabā fiksēta garuma unikoda rakstzīmes. Apskatīsim šo datu tipu īpašības, piemēram:

  • CHAR, CHARACTER, NCHAR diapazons ir 4 KB.
  • VARCHAR, NVARCHAR diapazons ir 64 KB.
  • BPCHAR diapazons ir 256 baiti.
  • TEXT ir 260 baitu diapazons.

Datums un laiks Dati

Datuma un laika datu tipi ir DATE, TIME, TIMETZ, TIMESTAMP, TIMESTAMPTZ. Šo datu tipu funkcionālās iespējas ir šādas:

  • DATE vienkārši saglabā kalendāra datumus.
  • TIME saglabā laiku, neatsaucoties uz kādu laika joslu. Pēc noklusējuma tas ir UTC.
  • TIMETZ saglabā laiku, atsaucoties uz laika joslu. Pēc noklusējuma tas ir UTC gan lietotāju tabulās, gan sistēmas tabulās.
  • TIMESTAMP ietver ne tikai laiku, bet arī datumus. Pēc noklusējuma tas ir UTC gan lietotāju tabulās, gan sistēmas tabulās.
  • TIMESTAMPTZ ietver ne tikai laiku, bet arī datumus. Pēc noklusējuma tas ir UTC tikai lietotāju tabulās.

Būla dati

Būla datu tips ir binārs datu tips, kas nozīmē, ka ir tikai divas vērtības. Būla datu tipa raksturlielumu tabula ir parādīta zemāk attēlā:

HLLSKETCH dati

Šis datu tips tiek izmantots skiču glabāšanai. Sarkanā nobīde var attēlot skices gan retā, gan blīvā formā. Skices sākas kā retas un pakāpeniski kļūst blīvākas, kad blīvs formāts nodrošina lielāku efektivitāti, sekojot saitei.

SUPER dati

Šis datu tips attiecas uz nestrukturētiem datiem, kas var būt masīvu, ligzdotu struktūru vai JSON formātā. Nav datu modeļa vai formāta. Lietotāji var izpētīt vairāk informācijas, pārvietojoties saitē.

AIZMAIŅAS dati

Šis datu tips saglabā arī rakstzīmes. Tomēr garums ir ierobežots. Amazon Redshift ļauj nodot VARBYTE datus jebkura vesela skaitļa vai rakstzīmju tipa datos. Lai iegūtu papildinformāciju par šo datu tipu, izmantojiet tālāk norādīto saiti.

Tas ir viss, kas attiecas uz Amazon Redshift un tā atbalstītajiem datu veidiem.

Secinājums

Amazon Redshift ir AWS pakalpojums, kas savā pamatveidā kalpo datu noliktavas mērķim, taču ir ļoti spēcīgs un ērts risinājums analīzei un prognozēšanai. Šajā rakstā ir apskatīts Redshift un tā atbalstītie datu veidi. Šie datu veidi tika īsi izskaidroti kopā ar to īpašībām.