Sempre que levantei a bola de web scraping por aqui a participação dos membros do grupo foi pequeno.
Opa, só agora reparei que estávamos trocando email fora da lista...
Segue para deixar por lá.
abs
Em 28 de agosto de 2012 17:58, Paulo Nogueira <paulons@gmail.com> escreveu:
> Olá Augusto.
> As páginas simples, que contém o html puro são simples de importar e
> trabalhar no R, mas tem algumas outras bem mais complicadas.
> Já fiz muita pesquisa por "Web Scrapping R" e suas variantes e ainda
> não consegui resolver problemas como esse proposto no tópico.
>
> Nesse caso, não acho que a página acesse o conteúdo da tabela através
> de outros links, mas acredito que esse conteúdo seja "dinâmico" e
> gerado por funções javascript desenvolvidas para o site.
> Se você utiliza o Chrome ou Firefox, clique na tabela com o botáo
> direito do mouse e selecione "Inspecionar elemento". Note que o html
> agora está lá, mas porque provavelmente o browser chama essas funções
> em tempo real, ou algo assim.
>
> Preciso fazer o R funcionar assim, mas não sei se é possível. Talvez
> tenha de mudar de ferramenta, o que me colocaria na estaca quase zero
> novamente.
>
> Abraços,
> Paulo Nogueira Starzynski
>
> Em 28 de agosto de 2012 15:19, Augusto Ribas <ribas.aca@gmail.com> escreveu:
>> Rapaz, eu não entendo de web design. Mas eu tava tentando mexer nessa
>> pagina que vc queria.
>> Eu fiz uns scrapper, mas a paginas que procurava era muito mais simples.
>> Essa pagina procura em outros sites, e monta a tabela dela, por isso a
>> pagina que vc faz download so tem links.
>>
>> Mas se vc fizer uma busca por Screen Scrap vai ver algum material interessante.
>>
>> Olhe esse exemplo:
>> http://franklincenterhq.org/2068/simple-r-screen-scraping-example/
>>
>> O cara baixa a pagina, dai baixa os links da tabela e ai retira a
>> informação que deseja.
>>
>> Eu não consegui replicar o exemplo dele no site que vc precisa, mas se
>> tiver mais sorte que eu poste na lista o seu resultado :)
>> Mas acho que vai ser algo bem similar a esse exemplo que vc vai precisar.
>>
>> Em 28 de agosto de 2012 00:00, Paulo Nogueira <paulons@gmail.com> escreveu:
>>> Pessoal, não sei se a lista se presta a esclarecer dúvidas como essa
>>> minha, mas pelo menos estou usando R para resolver os problemas. rs
>>>
>>> Ultimamente tenho trabalhado bastante com determinadas buscas na web
>>> para coletar dados e estruturá-los. Porém, como meus conceitos de web
>>> se restringem ao conhecimento de usuário, e não de desenvolvedor,
>>> acabo tendo alguns problemas.
>>> Vou exemplificar uma das minhas dificuldades com um problema prático:
>>>
>>> Utilizar readlines() e os pacores RCurl, XML, etc, para tratar o
>>> código fonte é algo que já faço até que bem. Mas problemas surgem
>>> quando o conteúdo que eu preciso extrair de informação não vem no
>>> código fonte?
>>> Vejam esse exemplo:
>>> http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas-aereas-de-sao-paulo-destino-sao-luis-em-outubro-2012-e-abril-2013.html
>>>
>>> Após carregar toda a busca, o site SkyScanner exibe os preços
>>> encontrados para o trecho São Paulo - São Luis.
>>> [1] No navegador Firefox ou Chrome, ao clicar em "Exibir Código
>>> Fonte", não aparecem as informações do vôos, apenas o código que
>>> estrutura a página.
>>> [2] Ao clicar em "Inspecionar Elemento" eu consigo analisar o código
>>> fonte do meu interesse.
>>> [3] Ao utilizar readlines passando o a url acima o R importa o código
>>> fonte [1] e não o [2], com as informações de interesse.
>>>
>>> Imagino que isso tenha a ver com as funções de javascript e coisas desse tipo...
>>> Alguém sabe contornar essa situação com o R? Se não, o que devo
>>> estudar para agilizar a busca dessa solução? Estou meio perdido nessa
>>> parte e agradeço ajudas de qualquer tipo. rs
>>>
>>> Peço desculpas se por acaso isso for muito off-topic.
>>> Abraços,
>>> Paulo Nogueira
>>> _______________________________________________
>>> R-br mailing list
>>> R-br@listas.c3sl.ufpr.br
>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
>>
>>
>>
>> --
>> Grato
>> Augusto C. A. Ribas
>>
>> Site Pessoal: http://augustoribas.heliohost.org
>> Lattes: http://lattes.cnpq.br/7355685961127056