Sempre que levantei a bola de web scraping por aqui a participação dos membros do grupo foi pequeno.<div>Como não sei se é desinteresse ou falta de conhecimento do assunto, vou compartilhar as soluções que encontrar. </div>
<div>Caso esteja fora do escopo do grupo, podem se manifestar.</div><div><br></div><div>Bem...</div><div>O R é muito abrangente e satisfatório inclusive para web scraping, desde que as páginas não sejam muito complexas e o código fonte possa ser extraído com uma função de leitura como readlines. A partir disso, parece que o negócio é aprender Python e, em particular, um framework chamado Scrapy.</div>
<div><a href="http://www.scrapy.org/">http://www.scrapy.org/</a></div><div><br></div><div>Estou separando algumas horas para ler a documentação, mas pelo que vi até agora ele é muito bom para buscar informação na web.</div>
<div>Se alguém conhecer o Scrapy por favor acrescente um pitaco à discussão.</div><div><br></div><div>Abraços</div><div>Paulo Nogueira Starzynski</div><div><div><br></div><div><br><br><div class="gmail_quote">Em 30 de agosto de 2012 11:51, Paulo Nogueira <span dir="ltr"><<a href="mailto:paulons@gmail.com" target="_blank">paulons@gmail.com</a>></span> escreveu:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Opa, só agora reparei que estávamos trocando email fora da lista...<br>Segue para deixar por lá.<br><br>abs<br><br>Em 28 de agosto de 2012 17:58, Paulo Nogueira <<a href="mailto:paulons@gmail.com" target="_blank">paulons@gmail.com</a>> escreveu:<div class="HOEnZb">
<div class="h5"><br>
> Olá Augusto.<br>> As páginas simples, que contém o html puro são simples de importar e<br>> trabalhar no R, mas tem algumas outras bem mais complicadas.<br>> Já fiz muita pesquisa por "Web Scrapping R" e suas variantes e ainda<br>

> não consegui resolver problemas como esse proposto no tópico.<br>><br>> Nesse caso, não acho que a página acesse o conteúdo da tabela através<br>> de outros links, mas acredito que esse conteúdo seja "dinâmico" e<br>

> gerado por funções javascript desenvolvidas para o site.<br>> Se você utiliza o Chrome ou Firefox, clique na tabela com o botáo<br>> direito do mouse e selecione "Inspecionar elemento". Note que o html<br>

> agora está lá, mas porque provavelmente o browser chama essas funções<br>> em tempo real, ou algo assim.<br>><br>> Preciso fazer o R funcionar assim, mas não sei se é possível. Talvez<br>> tenha de mudar de ferramenta, o que me colocaria na estaca quase zero<br>

> novamente.<br>><br>> Abraços,<br>> Paulo Nogueira Starzynski<br>><br>> Em 28 de agosto de 2012 15:19, Augusto Ribas <<a href="mailto:ribas.aca@gmail.com" target="_blank">ribas.aca@gmail.com</a>> escreveu:<br>
>> Rapaz, eu não entendo de web design. Mas eu tava tentando mexer nessa<br>
>> pagina que vc queria.<br>>> Eu fiz uns scrapper, mas a paginas que procurava era muito mais simples.<br>>> Essa pagina procura em outros sites, e monta a tabela dela, por isso a<br>>> pagina que vc faz download so tem links.<br>

>><br>>> Mas se vc fizer uma busca por Screen Scrap vai ver algum material interessante.<br>>><br>>> Olhe esse exemplo:<br>>> <a href="http://franklincenterhq.org/2068/simple-r-screen-scraping-example/" target="_blank">http://franklincenterhq.org/2068/simple-r-screen-scraping-example/</a><br>

>><br>>> O cara baixa a pagina, dai baixa os links da tabela e ai retira a<br>>> informação que deseja.<br>>><br>>> Eu não consegui replicar o exemplo dele no site que vc precisa, mas se<br>
>> tiver mais sorte que eu poste na lista o seu resultado :)<br>
>> Mas acho que vai ser algo bem similar a esse exemplo que vc vai precisar.<br>>><br>>> Em 28 de agosto de 2012 00:00, Paulo Nogueira <<a href="mailto:paulons@gmail.com" target="_blank">paulons@gmail.com</a>> escreveu:<br>

>>> Pessoal, não sei se a lista se presta a esclarecer dúvidas como essa<br>>>> minha, mas pelo menos estou usando R para resolver os problemas. rs<br>>>><br>>>> Ultimamente tenho trabalhado bastante com determinadas buscas na web<br>

>>> para coletar dados e estruturá-los. Porém, como meus conceitos de web<br>>>> se restringem ao conhecimento de usuário, e não de desenvolvedor,<br>>>> acabo tendo alguns problemas.<br>>>> Vou exemplificar uma das minhas dificuldades com um problema prático:<br>

>>><br>>>> Utilizar readlines() e os pacores RCurl, XML, etc, para tratar o<br>>>> código fonte é algo que já faço até que bem. Mas problemas surgem<br>>>> quando o conteúdo que eu preciso extrair de informação não vem no<br>

>>> código fonte?<br>>>> Vejam esse exemplo:<br>>>> <a href="http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas-aereas-de-sao-paulo-destino-sao-luis-em-outubro-2012-e-abril-2013.html" target="_blank">http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas-aereas-de-sao-paulo-destino-sao-luis-em-outubro-2012-e-abril-2013.html</a><br>

>>><br>>>> Após carregar toda a busca, o site SkyScanner exibe os preços<br>>>> encontrados para o trecho São Paulo - São Luis.<br>>>> [1] No navegador Firefox ou Chrome, ao clicar em "Exibir Código<br>

>>> Fonte", não aparecem as informações do vôos, apenas o código que<br>>>> estrutura a página.<br>>>> [2] Ao clicar em "Inspecionar Elemento" eu consigo analisar o código<br>>>> fonte do meu interesse.<br>

>>> [3] Ao utilizar readlines passando o a url acima o R importa o código<br>>>> fonte [1] e não o [2], com as informações de interesse.<br>>>><br>>>> Imagino que isso tenha a ver com as funções de javascript e coisas desse tipo...<br>

>>> Alguém sabe contornar essa situação com o R? Se não, o que devo<br>>>> estudar para agilizar a busca dessa solução? Estou meio perdido nessa<br>>>> parte e agradeço ajudas de qualquer tipo. rs<br>

>>><br>>>> Peço desculpas se por acaso isso for muito off-topic.<br>>>> Abraços,<br>>>> Paulo Nogueira<br>>>> _______________________________________________<br>>>> R-br mailing list<br>

>>> <a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>>>> <a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>

>>> Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br>>><br>>><br>>><br>>> --<br>
>> Grato<br>
>> Augusto C. A. Ribas<br>>><br>>> Site Pessoal: <a href="http://augustoribas.heliohost.org" target="_blank">http://augustoribas.heliohost.org</a><br>>> Lattes: <a href="http://lattes.cnpq.br/7355685961127056" target="_blank">http://lattes.cnpq.br/7355685961127056</a><br>

<br>
</div></div></blockquote></div><br></div></div>