Datu kopēšana no web resursa

Dažreiz gadās, ka kāda projekta ietvaros ir nepieciešami dati, kuri atrodas uz cita servera web pieejamā formātā. Šie dati ir brīvi pieejami izmantojot web pārlūku, tomēr pie noteiktiem apjomiem to manuāla apstrāde nav praktiski lietderīga.
Lielākoties šādiem gadījumiem izmatoju Unix komandu wget ar kuru var saglabāt web lapas saturu, kuru pēc tam ar cat, grep, awk, cut un citām Unix komandām var sastrukturizēt sev vēlamā formātā.
Ziemassvētku brīvdienās, statistikas nolūkos, radās nepieciešamība apstrādāt vienā resursā saglabāto informācija.
Diemžēl pakāpeniski šajā konkrētā situācijā radās divas problēmas- satura iegūšanai bija nepieciešams autorizēties un lietotāja sesija tika kontrolēta izmantojot pārlūka sesiju (nestrādā ar wget).
Ar pirmo problēmu veiksmīgi varēja tikt galā autorizējoties ar pārlūku un pēc tam izmantojot export_firefox_cookies.py skriptu (https://github.com/jabbalaci/Bash-Utils/blob/master/firefox/export_firefox_cookies.py), lai pārlūka cookies varētu izeksportēt wget saprotamā formātā.
Skripta sintakse ir vienkārša:
./skripta_nosaukums majaslapas_adrese
Rezultātā iegūstam visus nepieciešamos cookies failā cookies.txt (pirms tam jāparediģē skripts, norādot korektu adresi, kur atrodas cookie DB).
Nākamais jau sagādāja problēmas, jo neizdevās ar wget nosimulēt noturīgu sesiju.
wget –cookies=on –load-cookies=cookies.txt –keep-session-cookies –post-data ‘email=rear_email&password=real_password’ –save-cookies cookies.txt http://autorization _web_page_from_form
Diemžēl šādi var tikai sekmīgi autorizēties un iegūt pirmo noklusēto lappusi pēc autorizācijas. Piekļūt jau pie nākamajiem resursiem neizdodas un notiek redirect uz autorizācijas lapu.
Šo problēmu var atrisināt uzstādot SaveAll! Pluginu Iceweasel pārlūkam-
pirmo reizi autorizējamies ar pārlūku, atveram visus resursus un saglabajam:
./Iceweasel resursa_adrese (iepriekš saglabāta no faila. Kā to izdarīt var pameklēt http://www.cyberciti.biz/faq/bash-for-loop/)

Kad ir atvērti visi resursi ar uztādīto pluginu File->Save All Tabs as .. saglabājam lapas. X+ Save pogas nospiešana un lieta darīta. Varam sev pasist pa plecu.

Pārējais ir tikai failu satura analīze, šķirošana un ievietošana DB.
Šajā sakarā ļoti palīdz web programmētāji, kas vajadzīgo informāciju marķē, jo to vienkārši var atlasīt:

http://stackoverflow.com/questions/10781717/how-to-find-information-inside-a-xml-tag-using-grep

grep -oP ‘(?<=).*?(?=)’

Ko no tā ir vērts piefiksēt vēsturei:

wget labi strādā lapās bez autorizācijas
wget labi strādā lapās, kurās autorizācija tiek kontrolēta tikai ar cookies
Ar parasti glābēj rīku OWASP ZAP skriptējot pieprasījumus izdevās iegūt vajadzīgās atbildes, diemžēl funkcija Report-> Export Responses ļauj saglabāt tikai vienu atbildi. Pameklējot noteikti no ZAP DB varētu izvilkt visus ierakstus, bet tas šoreiz netika izmantots. Nospiest ok daudzas reizes bija vieglāk.
Vēl iešāvās doma par web offline reader funkcionalitāti, kas saglabā visus resursus vienā vietā pēc autorizācijas, bet to funkcionalitāte netika pārbaudīta (vajadzētu paeksperimentēt).

Kā aizsargāties no kopēšanas:

Vai mēs to gribām?- tas prasa iestrādātus risinājumus un datora kapacitāti

Ja tomēr gribam:

Limitēt pieprasījumus no vienas IP (viegli apejams, uzstādot, lai IP mainās noteiktā periodā
Limitēt pieprasījumus no vienas IP konkrētai adresei (diezgan procesora jaudas aizņemošs)
Izmantot limitāciju ar CAPCHA funkcionalitāti, piemēram, pēc x izsaukumiem x stundās no vienas IP lietotājam jāievada CAPCHA. X parametrs brīvi variējams atkarībā no projekta svarīguma. Šis ir pats labākais risinājums, diemžēl ne pārāk daudz to izmanto.

Lai jums izaicinājumu bagāts nākamais gads.

Datu kopēšana no web resursa

Trending Articles

Grīdas segums. Vinils vai parkets? (1 Komentēt šo ziņu)

OHLMEIER BT02T BT Bootstrailer laivu piekabe

AVR ARB 230 Самоходный (услуги по уборке) kartupeļu kombains

Skolēnus aicina piedalīties bezmaksas meistarklasēs par filmu veidošanu

Re: Benekov Pelling 27

Siltās grīdas pīrāgs uz grunts (nav atbildes)

Ar ko tinktūra atšķiras no izvilkuma spirtā? Skaidro Vija Eniņa

Vai ēst vīnogu kauliņus? Atbild uztura speciāliste

Lieliski vingrojumi, pirtī ejot. Iesaka fizioterapeite Anita Elksne

CLAAS RU 450 Xtra kukurūzas pļaujmašīna

Re: Akumulācijas tvertnes siltināšana

ER klīnika: sava metodika, sava pieeja

KRUPP Rammeinheit KRB 19 Trägergergerät O und K TGKL16 pāļu dzīšanas iekārta

Re: Koka karkass Bez tvaika izolācijas

Re: Kaļķa apmetums uz kokšķiedras (Steico/Isoplaat)

4 seksa veidi, kas nekam neder

Kāpēc… niez pēdas ?

JOHN DEERE Timberjack Bruunett FMG 678 F Forwarder Rückezug forvarders

Damper citas dzinēja rezerves daļas paredzēts VOLVO A40D būvniecības tehnikas

NEOPLAN Tendliner N 3516 ÜC / original 317750 km / 61 SS starppilsētu...