Semalt Review: Web Scraping For Fun & Profit

Dir kënnt Site scrape ouni d'Noutwendegkeet vun engem API. Iwwerdeems Site Besëtzer aggressiv sinn iwwer Scraping ze stoppen, këmmeren se sech manner wéi APIen an amplaz méi Websäiten ze betounen. D'Fakten, déi vill Säiten net adequat géint den automateschen Zougang schützen, schaaft e Spillraum fir Scrapers. E puer einfache Léisunge wäert Iech hëllefen Är Donnéeën ze sammelen.
Ugefaangen mat Schrott

Scraping erfuerdert d'Struktur vun den Daten déi Dir braucht an hir Accessibilitéit ze verstoen. Dëst fänkt un Är Donnéeën ze sichen. Fannt d'URL déi Informatiounen déi Dir braucht. Surft duerch d'Websäit a kuckt wéi d'URLen änneren wann Dir duerch verschidde Sektiounen navigéiert.
Alternativ, sichen verschidde Begrëffer op der Säit a kuckt wéi d'URLen op Basis vun Ärem Sichbegrëff änneren. Dir sollt e GET-Parameter gesinn wéi q = dat ännert wann Dir en neie Begrëff sicht. Kritt d'GET Parameteren noutwendeg fir Är Donnéeën ze lueden an déi aner ze läschen.
Wéi mat Paginatioun ze këmmeren
Paginatioun verhënnert datt Dir Zougang zu allen Donnéeën hutt déi Dir braucht. Wann Dir op Säit 2 klickt, gëtt en Offset = Parameter der URL bäigefüügt. Dëst ass entweder d'Zuel vun den Elementer op enger Säit oder der Säitennummer. Dës Zuel op all Säit vun Ären Donnéeën eropkréien.
Fir Siten déi AJAX benotzen, zitt d'Netzwierk Tab op Firebug oder Inspector. Préift d'XHR Demandë, identifizéiert a fokusséiert op déi, déi an Är Donnéeën zéien.
Kritt Daten vum Page Markup
Dëst gëtt mat Hëllef vu CSS Haken erreecht. Riets-klickt op eng bestëmmte Sektioun vun Ären Donnéeën. Pull de Firebug oder Inspekter an zoomt duerch den DOM Bam fir den äusserst <div> ze kréien deen en eenzegt Element wéckelt. Wann Dir de richtege Node vum DOM Bam hutt, kuckt op der Säitquell fir ze garantéieren datt Är Elementer am raw HTML zougänglech sinn.
Fir de Site erfollegräich ze schrauwen braucht Dir eng HTML Parsing Bibliothéik déi an HTML liest an en an en Objet ëmdréit dat Dir kënnt iteréieren bis Dir kritt wat Dir braucht. Wann Är HTTP Bibliothéik erfuerdert datt Dir e puer Cookien oder Header setzt, kuckt de Site an Ärem Webbrowser a kritt d'Headers déi vun Ärem Browser geschéckt ginn. Setzt se an engem Wierderbuch a schéckt weider mat Ärer Ufro.
Wann Dir e Login fir Schrackeren braucht
Wann Dir e Konto musst kreéieren an Login fir d'Donnéeën ze kréien, déi Dir wëllt, musst Dir eng gutt HTTP-Bibliothéik hunn fir Logins ze behandelen. Scraper Login gëtt Iech op Drëtt-Partei-Säiten exponéiert.
Wann den Taux Limit vun Ärem Web Service ofhängeg vun der IP Adress ass, set e Code deen den Web Service op e Client-Säit Javascript trefft. Da gitt d'Resultater zréck op Äre Server vun all Client. D'Resultater schéngen aus sou vill Plazen ofzewaarden ze kommen, a kee gëtt seng Rategrenz iwwerschratt.

Schlecht geformte Markup
E puer Markups kënne schwiereg sinn ze validéieren. An esou Fäll, graft an Äre HTML Parser fir Feeler Toleranzinstellungen. Alternativ behandelt dat ganzt HTML Dokument als e laange String an maacht d'String splitting.
Iwwerdeems Dir kënnt all Zort vun Daten um Netz schrauwen, verschidde Websäite benotze Software fir Scrap ze stoppen, an aner verbidden Web Scraping. Esou Säiten kënnen Iech verfaassen an souguer hutt Dir gespaart fir hir Donnéeën ze sammelen. Also sollt Dir intelligent an all Äre Web Schrauwen a maacht et sécher.