[R-br] Mais códigos HTML e função readlines

Augusto Ribas ribas.aca em gmail.com
Terça Agosto 28 02:19:38 BRT 2012


Bom, quanto ao que estudar, existe algum material pela net. Você
chegou a fazer buscas por "Web scraping R"?

No stack overflow tem soluções interessantes também que da pra copiar:
http://stackoverflow.com/search?q=scrape+R

Aqui na lista ja teve algumas mensagens sobre isso, vc pode dar uma
olhada nas funções ja comentadas.
Por exemplo aqui:
http://r-br.2285057.n4.nabble.com/R-br-OT-Distancias-entre-municipios-td3964600.html

Mas quais informações vc quer extrair? Uma lista com Empresa Partida
Destino e Preço?

Bem espero estar ajudando.

Em 28 de agosto de 2012 00:00, Paulo Nogueira <paulons em gmail.com> escreveu:
> Pessoal, não sei se a lista se presta a esclarecer dúvidas como essa
> minha, mas pelo menos estou usando R para resolver os problemas. rs
>
> Ultimamente tenho trabalhado bastante com determinadas buscas na web
> para coletar dados e estruturá-los. Porém, como meus conceitos de web
> se restringem ao conhecimento de usuário, e não de desenvolvedor,
> acabo tendo alguns problemas.
> Vou exemplificar uma das minhas dificuldades com um problema prático:
>
> Utilizar readlines() e os pacores RCurl, XML, etc, para tratar o
> código fonte é algo que já faço até que bem. Mas problemas surgem
> quando o conteúdo que eu preciso extrair de informação não vem no
> código fonte?
> Vejam esse exemplo:
> http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas-aereas-de-sao-paulo-destino-sao-luis-em-outubro-2012-e-abril-2013.html
>
> Após carregar toda a busca, o site SkyScanner exibe os preços
> encontrados para o trecho São Paulo - São Luis.
> [1] No navegador Firefox ou Chrome, ao clicar em "Exibir Código
> Fonte", não aparecem as informações do vôos, apenas o código que
> estrutura a página.
> [2] Ao clicar em "Inspecionar Elemento" eu consigo analisar o código
> fonte do meu interesse.
> [3] Ao utilizar readlines passando o a url acima o R importa o código
> fonte [1] e não o [2], com as informações de interesse.
>
> Imagino que isso tenha a ver com as funções de javascript e coisas desse tipo...
> Alguém sabe contornar essa situação com o R? Se não, o que devo
> estudar para agilizar a busca dessa solução? Estou meio perdido nessa
> parte e agradeço ajudas de qualquer tipo. rs
>
> Peço desculpas se por acaso isso for muito off-topic.
> Abraços,
> Paulo Nogueira
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.



-- 
Grato
Augusto C. A. Ribas

Site Pessoal: http://augustoribas.heliohost.org
Lattes: http://lattes.cnpq.br/7355685961127056


Mais detalhes sobre a lista de discussão R-br