XPath un Selēna izmantošana, lai atrastu elementu HTML lapā

XPath, pazīstams arī kā XML ceļa valoda, ir valoda elementu atlasei no XML dokumenta. Tā kā HTML un XML ir viena un tā pati dokumentu struktūra, XPath var izmantot arī, lai atlasītu elementus no tīmekļa lapas.

Elementu atrašana un atlase no tīmekļa lapas ir atslēga tīmekļa nokasīšanai ar selēnu. Lai atrastu un atlasītu elementus no tīmekļa lapas, jūs varat izmantot XPath selektorus selēnā.

Šajā rakstā es jums parādīšu, kā atrast un atlasīt elementus no tīmekļa lapām, izmantojot XPath selektorus Selēnā ar Selēna python bibliotēku. Tātad, sāksim.

Priekšnosacījumi:

Lai izmēģinātu šī raksta komandas un piemērus, jums ir jābūt:

Jūsu datorā instalēta Linux izplatīšana (vēlams Ubuntu).
Python 3 ir instalēts jūsu datorā.
PIP 3 ir instalēts jūsu datorā.
Python virtualenv pakotne, kas instalēta jūsu datorā.
Jūsu datorā ir instalētas pārlūkprogrammas Mozilla Firefox vai Google Chrome.
Jāzina, kā instalēt Firefox Gecko draiveri vai Chrome tīmekļa draiveri.

Lai izpildītu 4., 5. un 6. prasības, izlasiet manu rakstu Ievads selēnā programmā Python 3 . Jūs varat atrast daudz rakstu par citām tēmām LinuxHint.com . Noteikti pārbaudiet tos, ja jums nepieciešama palīdzība.

Projekta direktorija iestatīšana:

Lai viss būtu sakārtots, izveidojiet jaunu projektu direktoriju selēns-xpath/ sekojoši:

$mkdir -pvselēns-xpath/šoferi

Dodieties uz selēns-xpath/ projekta direktoriju šādi:

$CDselēns-xpath/

Projekta direktorijā izveidojiet Python virtuālo vidi šādi:

$virtualenv .venv

Aktivizējiet virtuālo vidi šādi:

$avots.venv/esmu/aktivizēt

Instalējiet Selenium Python bibliotēku, izmantojot PIP3 šādi:

$ pip3 instalēt selēnu

Lejupielādējiet un instalējiet visu nepieciešamo tīmekļa draiveri šoferi/ projekta direktoriju. Savā rakstā esmu izskaidrojis tīmekļa draiveru lejupielādes un instalēšanas procesu Ievads selēnā programmā Python 3 .

Iegūstiet XPath Selector, izmantojot Chrome izstrādātāja rīku:

Šajā sadaļā es parādīšu, kā atrast tīmekļa lapas elementa XPath atlasītāju, kuru vēlaties atlasīt, izmantojot Selēnu, izmantojot Google Chrome tīmekļa pārlūkprogrammas iebūvēto izstrādātāja rīku.

Lai iegūtu XPath atlasītāju, izmantojot tīmekļa pārlūkprogrammu Google Chrome, atveriet pārlūku Google Chrome un apmeklējiet vietni, no kuras vēlaties iegūt datus. Pēc tam nospiediet peles labo pogu (RMB) tukšā lapas apgabalā un noklikšķiniet uz Pārbaudīt lai atvērtu Chrome izstrādātāja rīks .

Varat arī nospiest + Shift + Es lai atvērtu Chrome izstrādātāja rīks .

Chrome izstrādātāja rīks vajadzētu atvērt.

Lai atrastu vēlamā tīmekļa lapas elementa HTML attēlojumu, noklikšķiniet uz Pārbaudīt (

) ikona, kā atzīmēts zemāk esošajā ekrānuzņēmumā.

Pēc tam virziet kursoru virs vēlamā tīmekļa lapas elementa un nospiediet peles kreiso pogu (LMB), lai to atlasītu.

Atlasītā tīmekļa elementa HTML attēlojums tiks iezīmēts sadaļā Elementi cilne Chrome izstrādātāja rīks, kā redzat zemāk esošajā ekrānuzņēmumā.

Lai iegūtu vajadzīgā elementa XPath atlasītāju, atlasiet elementu no Elementi cilne no Chrome izstrādātāja rīks un ar peles labo pogu noklikšķiniet uz tā (RMB). Pēc tam izvēlieties Kopēt > Kopēt XPath, kā norādīts zemāk esošajā ekrānuzņēmumā.

Esmu ielīmējis XPath atlasītāju teksta redaktorā. XPath atlasītājs izskatās, kā parādīts zemāk esošajā ekrānuzņēmumā.

Iegūstiet XPath Selector, izmantojot Firefox izstrādātāja rīku:

Šajā sadaļā es parādīšu, kā atrast tīmekļa lapas elementa XPath atlasītāju, kuru vēlaties atlasīt, izmantojot Selēnu, izmantojot tīmekļa pārlūkprogrammas Mozilla Firefox iebūvēto izstrādātāja rīku.

Lai iegūtu XPath atlasītāju, izmantojot Firefox tīmekļa pārlūkprogrammu, atveriet Firefox un apmeklējiet vietni, no kuras vēlaties iegūt datus. Pēc tam nospiediet peles labo pogu (RMB) tukšā lapas apgabalā un noklikšķiniet uz Pārbaudīt elementu (Q) lai atvērtu Firefox izstrādātāja rīks .

Firefox izstrādātāja rīks vajadzētu atvērt.

Lai atrastu vēlamā tīmekļa lapas elementa HTML attēlojumu, noklikšķiniet uz Pārbaudīt (

) ikona, kā atzīmēts zemāk esošajā ekrānuzņēmumā.

Pēc tam virziet kursoru virs vēlamā tīmekļa lapas elementa un nospiediet peles kreiso pogu (LMB), lai to atlasītu.

Atlasītā tīmekļa elementa HTML attēlojums tiks iezīmēts sadaļā Inspektors cilne no Firefox izstrādātāja rīks, kā redzat zemāk esošajā ekrānuzņēmumā.

Lai iegūtu vajadzīgā elementa XPath atlasītāju, atlasiet elementu no Inspektors cilne no Firefox izstrādātāja rīks un ar peles labo pogu noklikšķiniet uz tā (RMB). Pēc tam izvēlieties Kopēt > XPath kā norādīts zemāk esošajā ekrānuzņēmumā.

Vēlamā elementa XPath atlasītājam vajadzētu izskatīties apmēram šādi.

Datu ieguve no tīmekļa lapām, izmantojot XPath Selector:

Šajā sadaļā es jums parādīšu, kā atlasīt tīmekļa lapas elementus un iegūt no tiem datus, izmantojot XPath selektorus ar Selenium Python bibliotēku.

Vispirms izveidojiet jaunu Python skriptu ex01.py un ierakstiet šādas kodu rindas.

noselēnsimportēttīmekļa draiveris
noselēns.tīmekļa draiveris.bieži.atslēgas importētAtslēgas
noselēns.tīmekļa draiveris.bieži.pēc importētAutors
iespējas=tīmekļa draiveris.ChromeOptions()
iespējas.bez galvas = Taisnība
pārlūkprogrammā=tīmekļa draiveris.Chrome(izpildāms_ceļš='./drivers/chromedriver',
iespējas=iespējas)
pārlūkprogrammā.gūt('https://www.unixtimestamp.com/')
laika zīmogs=pārlūkprogrammā.find_element_by_xpath('/html/body/div [1]/div [1]
/div [2]/div [1]/div/div/h3 [2] ')
drukāt('Pašreizējais laikspiedols: %s'%(laika zīmogs.teksts.sadalīt('')[0]))
pārlūkprogrammā.aizvērt()

Kad esat pabeidzis, saglabājiet ex01.py Python skripts.

1. – 3. Rindā tiek importēti visi nepieciešamie selēna komponenti.

5. rindā tiek izveidots Chrome opciju objekts, bet 6. rindā tiek iespējots režīms bez galvas bez pārlūka Chrome.

8. rindā tiek izveidots pārlūks Chrome pārlūkprogrammā objekts, izmantojot hromodriveris binārs no šoferi/ projekta direktoriju.

10. rindiņa liek pārlūkam ielādēt vietni unixtimestamp.com.

12. rindā, izmantojot XPath atlasītāju, tiek atrasts elements, kuram ir lapas laika zīmogs, un tas tiek saglabāts mapē laika zīmogs mainīgais.

13. rindiņa analizē laika zīmoga datus no elementa un izdrukā tos konsolē.

Esmu nokopējis atzīmētā XPath atlasītāju h2 elements no unixtimestamp.com izmantojot Chrome izstrādātāja rīku.

14. rinda aizver pārlūkprogrammu.

Palaidiet Python skriptu ex01.py sekojoši:

$ python3 ex01.py

Kā redzat, laika zīmoga dati tiek drukāti uz ekrāna.

Šeit es izmantoju browser.find_element_by_xpath (atlasītājs) metode. Vienīgais šīs metodes parametrs ir atlasītājs, kas ir elementa XPath atlasītājs.

Tā vietā browser.find_element_by_xpath () metodi, varat arī izmantot browser.find_element (Autors, atlasītājs) metode. Šai metodei nepieciešami divi parametri. Pirmais parametrs Autors būs Autors: XPATH kā mēs izmantosim XPath atlasītāju un otro parametru atlasītājs būs pats XPath atlasītājs. Rezultāts būs tāds pats.

Lai redzētu, kā browser.find_element () metode darbojas XPath atlasītājam, izveidojiet jaunu Python skriptu ex02.py , kopējiet un ielīmējiet visas rindas no ex01.py uz ex02.py un mainīt 12. rinda kā norādīts zemāk esošajā ekrānuzņēmumā.

Kā redzat, Python skripts ex02.py dod tādu pašu rezultātu kā ex01.py .

$ python3 ex02.py

The browser.find_element_by_xpath () un browser.find_element () metodes tiek izmantotas, lai tīmekļa lapās atrastu un atlasītu vienu elementu. Ja vēlaties atrast un atlasīt vairākus elementus, izmantojot XPath atlasītājus, jums tas jāizmanto browser.find_elements_by_xpath () vai browser.find_elements () metodes.

The browser.find_elements_by_xpath () metodei ir tāds pats arguments kā browser.find_element_by_xpath () metode.

The browser.find_elements () metodei ir tādi paši argumenti kā browser.find_element () metode.

Apskatīsim piemēru, kā izgūt vārdu sarakstu, izmantojot XPath atlasītāju no random-name-generator.info ar Selenium Python bibliotēku.

Nesakārtots saraksts ( nomirt atzīmei) ir 10 pie tagi katrā, kas satur nejaušu nosaukumu. XPath, lai atlasītu visus pie tagi nomirt atzīme šajā gadījumā ir //*[@id = main]/div [3]/div [2]/ol // li

Apskatīsim vairāku elementu atlases piemēru no tīmekļa lapas, izmantojot XPath atlasītājus.

Izveidojiet jaunu Python skriptu ex03.py un ierakstiet tajā šādas kodu rindas.

noselēnsimportēttīmekļa draiveris
noselēns.tīmekļa draiveris.bieži.atslēgas importētAtslēgas
noselēns.tīmekļa draiveris.bieži.pēc importētAutors
iespējas=tīmekļa draiveris.ChromeOptions()
iespējas.bez galvas = Taisnība
pārlūkprogrammā=tīmekļa draiveris.Chrome(izpildāms_ceļš='./drivers/chromedriver',
iespējas=iespējas)
pārlūkprogrammā.gūt('http://random-name-generator.info/')
vārdi=pārlūkprogrammā.find_elements_by_xpath('
//*[@id = 'main']/div [3]/div [2]/ol // li ')
priekšvārdsiekšāvārdi:
drukāt(vārds.teksts)
pārlūkprogrammā.aizvērt()

Kad esat pabeidzis, saglabājiet ex03.py Python skripts.

1-8. Rinda ir tāda pati kā ex01.py Python skripts. Tāpēc es tos šeit vairs neskaidrošu.

10. rindiņa liek pārlūkam ielādēt vietni random-name-generator.info.

12. rindā tiek izvēlēts vārdu saraksts, izmantojot browser.find_elements_by_xpath () metode. Šī metode izmanto XPath selektoru //*[@id = main]/div [3]/div [2]/ol // li lai atrastu vārdu sarakstu. Pēc tam vārdu saraksts tiek saglabāts mapē vārdi mainīgais.

13. un 14. rindā a priekš cilpa tiek izmantota, lai atkārtotu caur vārdi sarakstu un izdrukājiet nosaukumus konsolē.

16. rinda aizver pārlūkprogrammu.

Palaidiet Python skriptu ex03.py sekojoši:

$ python3 ex03.py

Kā redzat, vārdi tiek iegūti no tīmekļa lapas un izdrukāti konsolē.

Tā vietā, lai izmantotu browser.find_elements_by_xpath () metodi, varat izmantot arī browser.find_elements () metode kā iepriekš. Šīs metodes pirmais arguments ir Autors: XPATH, un otrs arguments ir XPath atlasītājs.

Lai eksperimentētu ar browser.find_elements () metodi, izveidojiet jaunu Python skriptu ex04.py , kopējiet visus kodus no ex03.py uz ex04.py un mainiet 12. rindu, kā norādīts zemāk esošajā ekrānuzņēmumā.

Jums vajadzētu iegūt tādu pašu rezultātu kā iepriekš.

$ python3 ex04.py

XPath Selector pamati:

Firefox vai Google Chrome tīmekļa pārlūkprogrammas izstrādātāja rīks automātiski ģenerē XPath atlasītāju. Bet ar šiem XPath atlasītājiem dažkārt nepietiek jūsu projektam. Tādā gadījumā jums jāzina, ko konkrēts XPath atlasītājs dara, lai izveidotu XPath atlasītāju. Šajā sadaļā es jums parādīšu XPath atlasītāju pamatus. Pēc tam jums vajadzētu būt iespējai izveidot savu XPath atlasītāju.

Izveidojiet jaunu direktoriju www/ projekta direktorijā šādi:

$mkdir -vwww

Izveidojiet jaunu failu web01.html iekš www/ direktoriju un ierakstiet šādas faila rindas.

Kad esat pabeidzis, saglabājiet web01.html failu.

Palaist vienkāršu HTTP serveri portā 8080, izmantojot šādu komandu:

$ python3 -m http.serveris-direktorijs www/8080

HTTP serverim vajadzētu sākt.

Jums vajadzētu būt iespējai piekļūt web01.html failu, izmantojot URL http: // localhost: 8080/web01.html , kā redzat zemāk esošajā ekrānuzņēmumā.

Kamēr ir atvērts Firefox vai Chrome izstrādātāja rīks, nospiediet + F lai atvērtu meklēšanas lodziņu. Šeit varat ierakstīt savu XPath atlasītāju un redzēt, ko tas ļoti viegli izvēlas. Es izmantošu šo rīku visā šajā sadaļā.

XPath atlasītājs sākas ar slīpsvītra uz priekšu (/) lielāko daļu laika. Tas ir kā Linux direktoriju koks. The / ir visu tīmekļa lapas elementu sakne.

Pirmais elements ir html . Tātad, XPath atlasītājs /html izvēlas visu html tagu.

Iekšpusē html tag, mums ir a ķermenis tagu. The ķermenis tagu var atlasīt, izmantojot XPath selektoru /html/body

The h1 galvene atrodas ķermenis tagu. The h1 galveni var izvēlēties ar XPath selektoru /html/body/h1

Šāda veida XPath atlasītāju sauc par absolūtā ceļa atlasītāju. Absolūtā ceļa atlasītājā jums ir jāšķērso tīmekļa lapa no lapas saknes (/). Absolūtā ceļa atlasītāja trūkums ir tāds, ka pat nelielas izmaiņas tīmekļa lapas struktūrā var padarīt XPath atlasītāju nederīgu. Šīs problēmas risinājums ir relatīvs vai daļējs XPath atlasītājs.

Lai redzētu, kā darbojas relatīvais ceļš vai daļējais ceļš, izveidojiet jaunu failu web02.html iekš www/ direktoriju un ierakstiet tajā šādas kodu rindas.

Kad esat pabeidzis, saglabājiet web02.html failu un ielādējiet to savā tīmekļa pārlūkprogrammā.

Kā redzat, XPath atlasītājs // div/lpp izvēlas lpp atzīme iekšpusē div tagu. Šis ir relatīvā XPath atlasītāja piemērs.

Relatīvais XPath atlasītājs sākas ar // . Pēc tam jūs norādāt atlasāmā elementa struktūru. Šajā gadījumā, div/lpp .

Tātad, // div/lpp nozīmē izvēlēties lpp elements iekšpusē a div elements, nav svarīgi, kas ir pirms tam.

Varat arī atlasīt elementus pēc dažādiem atribūtiem, piemēram id , klase , veids, utt., izmantojot XPath selektoru. Apskatīsim, kā to izdarīt.

Izveidojiet jaunu failu web03.html iekš www/ direktoriju un ierakstiet tajā šādas kodu rindas.

< html lang='ieslēgts'>
< galvu >
< meta rakstzīmju kopa='UTF-8'>
< meta vārds='skata logs' saturu='platums = ierīces platums, sākotnējā skala = 1,0'>
< titulu > Pamata HTML dokuments</ titulu >
</ galvu >
< ķermenis >
< h1 > Sveika pasaule</ h1 >
< div klase='konteiners1'>
< lpp > šī ir ziņa</ lpp >
< laidums > šī ir vēl viena ziņa</ laidums >
</ div >
< div klase='konteiners1'>
< h2 > virsraksts2</ h2 >
< lpp > Daži cilvēki
prātīgi izvēlēties sāpes, nepatikšanas un tās, kas neietilpst izvēlētajā
nav viegli lidojumi un citi lieliski pakalpojumi? No kurienes vai no kurienes viņš piedzima?</ lpp >
</ div >

< laidums id='kājene-ziņojums'> šī ir kājene</ laidums >
</kājene>
</ ķermenis >
</ html >

Kad esat pabeidzis, saglabājiet web03.html failu un ielādējiet to savā tīmekļa pārlūkprogrammā.

Pieņemsim, ka vēlaties atlasīt visus div elementi, kuriem ir klase vārds konteiners 1 . Lai to izdarītu, varat izmantot XPath atlasītāju // div [@class = ’container1 ′]

Kā redzat, man ir 2 elementi, kas atbilst XPath atlasītājam // div [@class = ’container1 ′]

Lai izvēlētos pirmo div elements ar klase vārds konteiners 1 , pievienot [1] XPath beigās izvēlieties, kā parādīts zemāk esošajā ekrānuzņēmumā.

Tādā pašā veidā jūs varat izvēlēties otro div elements ar klase vārds konteiners 1 izmantojot XPath selektoru // div [@class = ’container1 ′] [2]

Jūs varat izvēlēties elementus pēc id arī.

Piemēram, lai atlasītu elementu, kuram ir id no kājenes ziņojums , varat izmantot XPath selektoru //*[@id = ’footer-msg’]

Lūk, * pirms tam [@id = ’footer-msg’] tiek izmantots, lai atlasītu jebkuru elementu neatkarīgi no tā taga.

Tas ir XPath atlasītāja pamati. Tagad jums vajadzētu būt iespējai izveidot savu XPath atlasītāju saviem selēna projektiem.

Secinājums:

Šajā rakstā es jums parādīju, kā atrast un atlasīt elementus no tīmekļa lapām, izmantojot XPath selektoru ar Selenium Python bibliotēku. Esmu arī apspriedis visbiežāk sastopamos XPath atlasītājus. Pēc šī raksta lasīšanas jums vajadzētu justies diezgan pārliecināti, izvēloties elementus no tīmekļa lapām, izmantojot XPath selektoru ar Selenium Python bibliotēku.

XPath un Selēna izmantošana, lai atrastu elementu HTML lapā

Priekšnosacījumi:

Projekta direktorija iestatīšana:

Instalējiet Selenium Python bibliotēku, izmantojot PIP3 šādi:

Iegūstiet XPath Selector, izmantojot Chrome izstrādātāja rīku:

Iegūstiet XPath Selector, izmantojot Firefox izstrādātāja rīku:

Datu ieguve no tīmekļa lapām, izmantojot XPath Selector:

XPath Selector pamati:

Secinājums:

Kategorija

Populārākas Posts

Kā samazināt Docker attēla izmēru

BotGhost — bezmaksas Discord robotu veidotājs

Kā noņemt pirmo virknes rakstzīmi Java

Kā nodrošināt savu HAProxy, izmantojot SSL

Kā iegūt Slimeballs programmā Minecraft

Kā lietot C++ galvenes failu – īsa rokasgrāmata

Neskaidrs kustīgais vidējais

Vai AWS konts ir tāds pats kā Amazon konts?

Novērsiet RSS plūsmas atjaunināšanas problēmas, atiestatot plūsmu datu bāzi programmā Internet Explorer 7 - Winhelponline

Git repozitorija tālvadības pults saraksts?

CSS izmantošana lapas ielādes izzušanas efektam

Kā iestatīt Wine operētājsistēmā Debian 12

Gaismas atkarīgais rezistors - LDR sensors ar ESP32, izmantojot Arduino IDE

Pārvietošanās pogas trūkst cilnes Atrašanās vieta publiskajām mapēm sistēmā Windows Vista - Winhelponline

Kā lietot Ubuntu ekrāna ierakstītāju

Kā dzēst nevēlamo tukšo lapu Word dokumenta beigās

Kā lietot mantojumu C#

Kā lasīt lietotāja ievadi mainīgajā programmā Bash

Kā mainīt starpniekservera iestatījumus pārlūkā Chrome?

Vai Kinesis ir tas pats, kas Kafka?