informáTICa para todos: Web Scraping e Web Crawling

domingo, 26 de maio de 2019

Web Scraping e Web Crawling

“Web Scraping” é um termo que se usa para designar os programas que extraem dados e informação de

páginas web de forma automática, podendo depois ser armazenada em bases de dados. Essas informações

podem ser usadas para criar outro site ou para análise de dados.

“Web Crawling” é um termo que se usa para designar os programas que descarregam uma página web,

extraem os links dessa página para os seguir. Este processo é conhecido também como indexação, pois é

usado para indexar páginas web e muito usado pelos crawlers ou bots dos motores de busca.

Para criar estes crawlers e scrapers podem ser usadas bibliotecas como o Scrapy, Ghost, lxml, aiohttp ou

Selenium, geralmente escritos em Python.

Esta extração de informação automática é normalmente legal, embora se esta for feita com intenção

maliciosa ou danosa, como extrair dados para prejudicar uma empresa, então será considerada ilegal.

Há muitas áreas cinzentas relativamente ao que se pode ou não fazer usando estas ferramentas.

Referências:

Comente de forma construtiva...

Nota: só um membro deste blogue pode publicar um comentário.

informáTICa para todos