[R-br] WebScraping - Como passar informações ao site antes do readLines

Paulo Nogueira paulons em gmail.com
Terça Janeiro 31 14:01:35 BRST 2012


Boa tarde R-Br.
Mais uma vez peço a vocês uma orientação de caminho para descobrir como
solucionar problemas relacionados a web scraping.

Hoje consigo ler códigos HTML de ṕáginas atráves do readLines e depois
extrair os dados que me interessam utilizando funções como grep, gsub e
regexpr. Evolui nisso e tenho conseguido resultados bastante interessantes.
O problema é que nem sempre o que é exibido no navegador, está disponível
no código fonte da página.

Por exemplo, a página inicial do site Webmotors (
http://www.webmotors.com.br/index.html) apresenta um box de pesquisa.
Escolhendo, na página, os campos marca = Chevrolet, modelo = Astra, estado
= AM e cidade = Manaus e clicando em BUSCAR, encontro esse resultado:
http://www.webmotors.com.br/Webmotors/Compra/carrosResultado/carros-resultado.aspx?marca=2&modelo=1042&descrModelo=ASTRA&precoinicial=&precofinal=&uf=AM&cidade=Manaus&anoInicial=&anoFinal=&anuncionovos=N&anunciousados=U&revend=S&part=S&concessionaria=S&Ordem=OP&orig=S

E assim consigo extrair com o R as informações dos veículos Astra a venda
em Manaus.
Porém, como posso fazer para o R informar ao site que desejo fazer essa
busca? Gostaria de automatizar essa parte.
Sei que na URL resultado basta trocar os campos como &modelo=1042 ou
marca=2, etc... mas também não sei quais são os possíveis valores para
esses campos.

Ressalto que esse problema é um exemplo. Gostaria de aprender a fazer
chamada às funções (acredito que são as .js) da página para construir as
páginas com os resultados e então importar com o readLines para guardar os
dados de meu interesse. Espero ter sido claro no questionamento.
Agradeço qualquer ajuda.

Abraços,
Paulo Nogueira Starzynski
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20120131/08dfe62d/attachment.html>


Mais detalhes sobre a lista de discussão R-br