[R-br] Mais códigos HTML e função readlines

Paulo Nogueira paulons em gmail.com
Quinta Agosto 30 11:51:19 BRT 2012


Opa, só agora reparei que estávamos trocando email fora da lista...
Segue para deixar por lá.

abs

Em 28 de agosto de 2012 17:58, Paulo Nogueira <paulons em gmail.com> escreveu:
> Olá Augusto.
> As páginas simples, que contém o html puro são simples de importar e
> trabalhar no R, mas tem algumas outras bem mais complicadas.
> Já fiz muita pesquisa por "Web Scrapping R" e suas variantes e ainda
> não consegui resolver problemas como esse proposto no tópico.
>
> Nesse caso, não acho que a página acesse o conteúdo da tabela através
> de outros links, mas acredito que esse conteúdo seja "dinâmico" e
> gerado por funções javascript desenvolvidas para o site.
> Se você utiliza o Chrome ou Firefox, clique na tabela com o botáo
> direito do mouse e selecione "Inspecionar elemento". Note que o html
> agora está lá, mas porque provavelmente o browser chama essas funções
> em tempo real, ou algo assim.
>
> Preciso fazer o R funcionar assim, mas não sei se é possível. Talvez
> tenha de mudar de ferramenta, o que me colocaria na estaca quase zero
> novamente.
>
> Abraços,
> Paulo Nogueira Starzynski
>
> Em 28 de agosto de 2012 15:19, Augusto Ribas <ribas.aca em gmail.com>
escreveu:
>> Rapaz, eu não entendo de web design. Mas eu tava tentando mexer nessa
>> pagina que vc queria.
>> Eu fiz uns scrapper, mas a paginas que procurava era muito mais simples.
>> Essa pagina procura em outros sites, e monta a tabela dela, por isso a
>> pagina que vc faz download so tem links.
>>
>> Mas se vc fizer uma busca por Screen Scrap vai ver algum material
interessante.
>>
>> Olhe esse exemplo:
>> http://franklincenterhq.org/2068/simple-r-screen-scraping-example/
>>
>> O cara baixa a pagina, dai baixa os links da tabela e ai retira a
>> informação que deseja.
>>
>> Eu não consegui replicar o exemplo dele no site que vc precisa, mas se
>> tiver mais sorte que eu poste na lista o seu resultado :)
>> Mas acho que vai ser algo bem similar a esse exemplo que vc vai precisar.
>>
>> Em 28 de agosto de 2012 00:00, Paulo Nogueira <paulons em gmail.com>
escreveu:
>>> Pessoal, não sei se a lista se presta a esclarecer dúvidas como essa
>>> minha, mas pelo menos estou usando R para resolver os problemas. rs
>>>
>>> Ultimamente tenho trabalhado bastante com determinadas buscas na web
>>> para coletar dados e estruturá-los. Porém, como meus conceitos de web
>>> se restringem ao conhecimento de usuário, e não de desenvolvedor,
>>> acabo tendo alguns problemas.
>>> Vou exemplificar uma das minhas dificuldades com um problema prático:
>>>
>>> Utilizar readlines() e os pacores RCurl, XML, etc, para tratar o
>>> código fonte é algo que já faço até que bem. Mas problemas surgem
>>> quando o conteúdo que eu preciso extrair de informação não vem no
>>> código fonte?
>>> Vejam esse exemplo:
>>>
http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas-aereas-de-sao-paulo-destino-sao-luis-em-outubro-2012-e-abril-2013.html
>>>
>>> Após carregar toda a busca, o site SkyScanner exibe os preços
>>> encontrados para o trecho São Paulo - São Luis.
>>> [1] No navegador Firefox ou Chrome, ao clicar em "Exibir Código
>>> Fonte", não aparecem as informações do vôos, apenas o código que
>>> estrutura a página.
>>> [2] Ao clicar em "Inspecionar Elemento" eu consigo analisar o código
>>> fonte do meu interesse.
>>> [3] Ao utilizar readlines passando o a url acima o R importa o código
>>> fonte [1] e não o [2], com as informações de interesse.
>>>
>>> Imagino que isso tenha a ver com as funções de javascript e coisas
desse tipo...
>>> Alguém sabe contornar essa situação com o R? Se não, o que devo
>>> estudar para agilizar a busca dessa solução? Estou meio perdido nessa
>>> parte e agradeço ajudas de qualquer tipo. rs
>>>
>>> Peço desculpas se por acaso isso for muito off-topic.
>>> Abraços,
>>> Paulo Nogueira
>>> _______________________________________________
>>> R-br mailing list
>>> R-br em listas.c3sl.ufpr.br
>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
código mínimo reproduzível.
>>
>>
>>
>> --
>> Grato
>> Augusto C. A. Ribas
>>
>> Site Pessoal: http://augustoribas.heliohost.org
>> Lattes: http://lattes.cnpq.br/7355685961127056
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20120830/5d09bb0b/attachment.html>


Mais detalhes sobre a lista de discussão R-br