
Sempre que levantei a bola de web scraping por aqui a participação dos membros do grupo foi pequeno. Como não sei se é desinteresse ou falta de conhecimento do assunto, vou compartilhar as soluções que encontrar. Caso esteja fora do escopo do grupo, podem se manifestar. Bem... O R é muito abrangente e satisfatório inclusive para web scraping, desde que as páginas não sejam muito complexas e o código fonte possa ser extraído com uma função de leitura como readlines. A partir disso, parece que o negócio é aprender Python e, em particular, um framework chamado Scrapy. http://www.scrapy.org/ Estou separando algumas horas para ler a documentação, mas pelo que vi até agora ele é muito bom para buscar informação na web. Se alguém conhecer o Scrapy por favor acrescente um pitaco à discussão. Abraços Paulo Nogueira Starzynski Em 30 de agosto de 2012 11:51, Paulo Nogueira <paulons@gmail.com> escreveu:
Opa, só agora reparei que estávamos trocando email fora da lista... Segue para deixar por lá.
abs
Em 28 de agosto de 2012 17:58, Paulo Nogueira <paulons@gmail.com> escreveu:
Olá Augusto. As páginas simples, que contém o html puro são simples de importar e trabalhar no R, mas tem algumas outras bem mais complicadas. Já fiz muita pesquisa por "Web Scrapping R" e suas variantes e ainda não consegui resolver problemas como esse proposto no tópico.
Nesse caso, não acho que a página acesse o conteúdo da tabela através de outros links, mas acredito que esse conteúdo seja "dinâmico" e gerado por funções javascript desenvolvidas para o site. Se você utiliza o Chrome ou Firefox, clique na tabela com o botáo direito do mouse e selecione "Inspecionar elemento". Note que o html agora está lá, mas porque provavelmente o browser chama essas funções em tempo real, ou algo assim.
Preciso fazer o R funcionar assim, mas não sei se é possível. Talvez tenha de mudar de ferramenta, o que me colocaria na estaca quase zero novamente.
Abraços, Paulo Nogueira Starzynski
Em 28 de agosto de 2012 15:19, Augusto Ribas <ribas.aca@gmail.com> escreveu:
Rapaz, eu não entendo de web design. Mas eu tava tentando mexer nessa pagina que vc queria. Eu fiz uns scrapper, mas a paginas que procurava era muito mais simples. Essa pagina procura em outros sites, e monta a tabela dela, por isso a pagina que vc faz download so tem links.
Mas se vc fizer uma busca por Screen Scrap vai ver algum material interessante.
Olhe esse exemplo: http://franklincenterhq.org/2068/simple-r-screen-scraping-example/
O cara baixa a pagina, dai baixa os links da tabela e ai retira a informação que deseja.
Eu não consegui replicar o exemplo dele no site que vc precisa, mas se tiver mais sorte que eu poste na lista o seu resultado :) Mas acho que vai ser algo bem similar a esse exemplo que vc vai precisar.
Em 28 de agosto de 2012 00:00, Paulo Nogueira <paulons@gmail.com> escreveu:
Pessoal, não sei se a lista se presta a esclarecer dúvidas como essa minha, mas pelo menos estou usando R para resolver os problemas. rs
Ultimamente tenho trabalhado bastante com determinadas buscas na web para coletar dados e estruturá-los. Porém, como meus conceitos de web se restringem ao conhecimento de usuário, e não de desenvolvedor, acabo tendo alguns problemas. Vou exemplificar uma das minhas dificuldades com um problema prático:
Utilizar readlines() e os pacores RCurl, XML, etc, para tratar o código fonte é algo que já faço até que bem. Mas problemas surgem quando o conteúdo que eu preciso extrair de informação não vem no código fonte? Vejam esse exemplo:
http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas...
Após carregar toda a busca, o site SkyScanner exibe os preços encontrados para o trecho São Paulo - São Luis. [1] No navegador Firefox ou Chrome, ao clicar em "Exibir Código Fonte", não aparecem as informações do vôos, apenas o código que estrutura a página. [2] Ao clicar em "Inspecionar Elemento" eu consigo analisar o código fonte do meu interesse. [3] Ao utilizar readlines passando o a url acima o R importa o código fonte [1] e não o [2], com as informações de interesse.
Imagino que isso tenha a ver com as funções de javascript e coisas
desse tipo...
Alguém sabe contornar essa situação com o R? Se não, o que devo estudar para agilizar a busca dessa solução? Estou meio perdido nessa parte e agradeço ajudas de qualquer tipo. rs
Peço desculpas se por acaso isso for muito off-topic. Abraços, Paulo Nogueira _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Grato Augusto C. A. Ribas
Site Pessoal: http://augustoribas.heliohost.org Lattes: http://lattes.cnpq.br/7355685961127056