O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

Web scraping: raspando dados na internet

Alessandro Reis

nov 5, 2025

Coletar dados em quantidade e qualidade é fundamental para qualquer pesquisa científica. No entanto, e se eles já estiverem disponíveis na internet, apenas esperando que você encontre os instrumentos certos para “raspá-los” e colocá-los na sua tigela de análise?

O post de hoje é sobre essa forma de coleta de dados, chamada de web scraping (“raspagem de dados da internet”), empregada, por exemplo, no artigo “Potencialidades e limitações dos dados de web scraping para o mapeamento dos preços dos imóveis urbanos”, conduzido por pesquisadores da Universidade Federal de Uberlândia (Souza et al., 2023).

Nesse trabalho, os autores coletaram dados de sites como OLX e Imovelweb e, assim, mapearam o preço médio do metro quadrado em diferentes bairros brasileiros.

Os pesquisadores observaram que, embora a OLX apresentasse menor volume de anúncios, sua cobertura espacial era mais ampla, o que a tornava valiosa para compreender a distribuição territorial dos preços. Portanto, esse tipo de pesquisa ilustra o poder do web scraping: transformar dados dispersos pela web em conhecimento estruturado e útil.

Esse tipo de coleta, devido ao grande volume e à dispersão dos dados, teria um prazo proibitivo se feita manualmente — a menos que fosse automatizada com web scraping, é claro.

O que é web scraping?

Tecnicamente, web scraping é o processo de usar programas (scripts, bots, “robôs”) para acessar páginas web, identificar padrões de dados e extrair informações de interesse (como tabelas, listas, textos dos mais variados). Em seguida, essas informações podem ser armazenadas em planilhas, bancos de dados ou pipelines de análise.

Em vez de copiar manualmente centenas ou milhares de páginas ou registros, você automatiza esse trabalho. Por isso o web scraping é uma prática bem comum para coleta de dados em Processamento de Linguagem Natural, tais como notícias, documentos variados, posts em redes sociais, etc.

É importante diferenciar web scraping de formas mais “oficiais” de acesso a dados, como application programming interfaces (APIs). Enquanto uma API é fornecida pelo dono da fonte de dados, sendo estruturada e com documentação, o web scraping costuma “vasculhar” HTML (ou JSON, etc.) de páginas não necessariamente preparadas para isso.

homem pesquisando no browser, ilustrando a ideia de web scraping.

Como fazer web scraping?

Em seguida, apresentarei três grandes categorias: soluções pagas/comerciais, gratuitas “sem-programação” via apps/extensões, e programação “do zero”.

1. Sistemas pagos ou comerciais

  • Plataformas SaaS que oferecem “web scraping como serviço”, isto é, você indica o site, configura o que quer extrair, e eles cuidam da infraestrutura.
  • Vantagens: menos esforço técnico, escalabilidade, manutenção feita pelo provedor.
  • Desvantagens: custo, menor controle técnico, possíveis limitações de personalização.
  • Ideal para quem quer foco em “ter os dados” sem construir ferramentas internas.
  • Observação: algumas redes sociais, como o X, cobram bem caro para seus serviços nativos de web scraping, ao mesmo tempo em que dificultam, e muito, o uso de plataformas externas.

2. Ferramentas gratuitas ou apps/extensões (baixo-código)

  • Há extensões de navegador (Chrome, Firefox) que permitem “clicar” e extrair tabelas de página.
  • Aplicativos on-line gratuitos ou freemium que cobrem scraping simples.
  • Vantagens: rapidez, acessível para leigos.
  • Desvantagens: limitação de volume, menos flexibilidade, menos adequado para fluxos recorrentes ou muito customizados.
  • Boa porta de entrada para quem está começando e quer entender o processo antes de “codar”.

3. Programação “do zero”

  • Utilizando linguagens como Python (bibliotecas: BeautifulSoup, Scrapy, Selenium) ou R.
  • Fluxo típico: identificar URL-alvo → recuperar HTML → parsear / extrair os elementos desejados → limpar/tratar dados → salvar/armazenar.
  • Vantagens: máximo controle, escalável, customização forte, integração com pipelines de machine learning e de ciência de dados que você já domina.
  • Desvantagens: exige conhecimento técnico, lidar com bloqueios de sites, manutenção (mudança de layout, anti-bots).
  • Exemplos técnicos: “spiders” no Scrapy para crawlear múltiplas páginas.

Cuidados a tomar com o web scraping

Mas atenção: o uso do web scraping envolve riscos não apenas técnicos, como também legais e éticos. Mesmo quando as informações estão publicamente acessíveis, isso não significa que sejam livres para coleta e reutilização.

Por exemplo, muitos sites possuem termos de uso que restringem a extração automatizada de dados, especialmente quando envolvem informações pessoais, conteúdo protegido por direitos autorais ou quando a atividade pode sobrecarregar servidores. Por isso, alguns sites do governo federal brasileiro não permitem o web scraping.

No contexto brasileiro, o Marco Civil da Internet (Lei nº 12.965/2014) e a Lei Geral de Proteção de Dados Pessoais (Lei nº 13.709/2018) são marcos centrais. O primeiro estabelece princípios para o uso ético e responsável da internet, enquanto o segundo impõe obrigações rigorosas sobre tratamento, anonimização e consentimento de dados pessoais.

web scraping e marcos legais (LGPD).

Assim, mesmo que um dado esteja visível em um site, raspá-lo e armazená-lo pode configurar violação de privacidade ou uso indevido se houver identificação direta ou indireta de pessoas.

Portanto, a boa prática é sempre verificar:

  • Os termos de uso do site (alguns explicitamente proíbem scraping).
  • Se há API oficial — preferível, por ser legalmente autorizada.
  • Se há dados pessoais identificáveis, exigindo anonimização.
  • E se o volume de requisições pode comprometer o funcionamento do servidor (o que pode ser enquadrado como ataque).

Conclusão

Se você tem interesse em construir datasets para machine learning, mineração de texto, análise de preços de mercado etc., o web scraping é uma ferramenta poderosa — especialmente combinando sua expertise em programação, análise e metodologias rigorosas.

No entanto, é importante lembrar que o web scraping não é uma solução “mágica”: seu uso exige cuidado com a qualidade dos dados, atenção à ética, à manutenção e à legalidade. Além disso, tudo depende do contexto: para pequenas coletas esporádicas, uma extensão de navegador pode ser suficiente; já para pipelines contínuos, a programação torna-se essencial.

Referência

Souza, T. G., Fernandes, V. O., Pedrassoli, J. C., & Fonseca, F. D. R. (2023). Potencialidades e limitações dos dados de web scraping para o mapeamento dos preços dos imóveis urbanos. Caminhos de Geografia, 24(96), 73–87. https://doi.org/10.14393/RCG249668395

Como citar este post

Reis, A. (2025, 05 de novembro). Web scraping: Raspando dados na internet. Blog Psicometria Online. https://blog.psicometriaonline.com.br/web-scraping-raspando-dados-na-internet

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts sugeridos

O algoritmo k-means clustering

Quais são as diferenças entre underfitting e overfitting?

Conheça as redes bayesianas

Conteúdo

Mais lidos

O que é correlação de Pearson?

Teste t de Student

O que é o teste de Shapiro-Wilk?

O que é correlação de Spearman?

Postados recentemente

O que significa soma dos quadrados, em estatística?

Como inverter itens no SPSS?

O algoritmo k-means clustering

Tudo que você precisa saber sobre inversão de itens de instrumentos de autorrelato

Deseja se tornar completamente independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias