[R-br] WebScraping - Como passar informações ao site antes do readLines

Paulo Nogueira paulons em gmail.com
Quarta Fevereiro 1 08:38:12 BRST 2012


Obrigado Henrique, vou olhar.
Grato,
Paulo

Em 31 de janeiro de 2012 21:43, Henrique Dallazuanna <wwwhsd em gmail.com>escreveu:

> Paulo,
>
> Veja a função postForm do pacote RCurl, pois ela faz exatamente o post em
> formulários web.
>
> 2012/1/31 Paulo Nogueira <paulons em gmail.com>
>
>> Boa tarde R-Br.
>> Mais uma vez peço a vocês uma orientação de caminho para descobrir como
>> solucionar problemas relacionados a web scraping.
>>
>> Hoje consigo ler códigos HTML de ṕáginas atráves do readLines e depois
>> extrair os dados que me interessam utilizando funções como grep, gsub e
>> regexpr. Evolui nisso e tenho conseguido resultados bastante interessantes.
>> O problema é que nem sempre o que é exibido no navegador, está disponível
>> no código fonte da página.
>>
>> Por exemplo, a página inicial do site Webmotors (
>> http://www.webmotors.com.br/index.html) apresenta um box de pesquisa.
>> Escolhendo, na página, os campos marca = Chevrolet, modelo = Astra, estado
>> = AM e cidade = Manaus e clicando em BUSCAR, encontro esse resultado:
>>
>> http://www.webmotors.com.br/Webmotors/Compra/carrosResultado/carros-resultado.aspx?marca=2&modelo=1042&descrModelo=ASTRA&precoinicial=&precofinal=&uf=AM&cidade=Manaus&anoInicial=&anoFinal=&anuncionovos=N&anunciousados=U&revend=S&part=S&concessionaria=S&Ordem=OP&orig=S
>>
>> E assim consigo extrair com o R as informações dos veículos Astra a venda
>> em Manaus.
>> Porém, como posso fazer para o R informar ao site que desejo fazer essa
>> busca? Gostaria de automatizar essa parte.
>> Sei que na URL resultado basta trocar os campos como &modelo=1042 ou
>> marca=2, etc... mas também não sei quais são os possíveis valores para
>> esses campos.
>>
>> Ressalto que esse problema é um exemplo. Gostaria de aprender a fazer
>> chamada às funções (acredito que são as .js) da página para construir as
>> páginas com os resultados e então importar com o readLines para guardar os
>> dados de meu interesse. Espero ter sido claro no questionamento.
>> Agradeço qualquer ajuda.
>>
>> Abraços,
>> Paulo Nogueira Starzynski
>>
>>
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
>
>
>
> --
> Henrique Dallazuanna
> Curitiba-Paraná-Brasil
> 25° 25' 40" S 49° 16' 22" O
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20120201/ce30c81d/attachment.html>


Mais detalhes sobre a lista de discussão R-br