Scraping webové stránky s Python a BeautifulSoup - Semalt Advice

Na internetu je více než dostatek informací o tom, jak správně poškrábat webové stránky a blogy. Potřebujeme nejen přístup k těmto datům, ale také škálovatelné způsoby jejich shromažďování, analýzy a organizace. Python a BeautifulSoup jsou dva úžasné nástroje pro škrábání webových stránek a extrahování dat. V případě webového škrabání lze data snadno extrahovat a prezentovat ve formátu, který potřebujete. Pokud jste vášnivým investorem, který si cení svého času a peněz, určitě musíte urychlit proces seškrabávání webu a učinit jej tak optimalizovaným, jak by mohl být.

Začínáme

Jako hlavní škrabací jazyk použijeme Python i BeautifulSoup.

  • 1. Pro uživatele Mac je Python předinstalován v OS X. Stačí otevřít Terminál a napsat python –version . Tímto způsobem uvidí verzi Python 2.7.
  • 2. Pro uživatele Windows doporučujeme nainstalovat Python prostřednictvím oficiálních stránek.
  • 3. Dále musíte přistupovat do knihovny BeautifulSoup pomocí pip. Tento nástroj pro správu balíků byl vytvořen speciálně pro Python.

Do terminálu musíte vložit následující kód:

easy_install pip

pip install BeautifulSoup4

Pravidla stírání:

Hlavní pravidla pro stírání, o které byste se měli starat, jsou:

  • 1. Než začnete se škrabáním, musíte zkontrolovat pravidla a předpisy webu. Takže buďte velmi opatrní!
  • 2. Neměli byste požadovat data z webů příliš agresivně. Ujistěte se, že nástroj, který používáte, se chová přiměřeně. Jinak můžete web rozbít.
  • 3. Jedna žádost za sekundu je správná praxe.
  • 4. Rozložení blogu nebo webu lze kdykoli změnit, a možná budete muset znovu navštívit tento web a v případě potřeby přepsat svůj vlastní kód.

Prohlédněte si stránku

Umístěním kurzoru na stránku Cena pochopíte, co by se mělo dělat. Přečtěte si text týkající se HTML i Pythonu a z výsledků uvidíte ceny uvnitř značek HTML.

Export do Excelu CSV

Po extrahování dat je dalším krokem uložení offline. Formát oddělený čárkami je v tomto ohledu nejlepší volbou a můžete jej snadno otevřít v listu Excel. Nejdříve však budete muset importovat moduly Python CSV a moduly data-time, abyste správně zaznamenali svá data. Do sekce importu lze vložit následující kód:

importovat csv

od importu datetime do datetime

Pokročilé techniky stírání

BeautifulSoup je jedním z nejjednodušších a nejkomplexnějších nástrojů pro webový škrabání. Pokud však potřebujete sbírat velké objemy dat, zvažte některé další alternativy:

  • 1. Scrapy je výkonný a úžasný pythonový škrabací rámec.
  • 2. Můžete také integrovat kód s veřejným API. Účinnost vašich dat bude důležitá. Můžete například vyzkoušet rozhraní Facebook Graph API, které pomáhá skrýt data a nezobrazuje je na stránkách Facebooku.
  • 3. Kromě toho můžete používat programy typu backend, jako je MySQL, a ukládat data ve velkém množství s velkou přesností.
  • 4. DRY je zkratka pro „Don't Repeat Yourself“ a pomocí této techniky můžete zkusit automatizovat pravidelné úkoly.