[R-br] Mais códigos HTML e função readlines

Lucas Cusinato lucasbcr em gmail.com
Quinta Agosto 30 22:34:41 BRT 2012


Paulo,

Eu já procurei informações sobre esse outro tipo de acesso (inclusive para
fazer login em sites com R), mas não consegui implementar nenhuma solução.
Me indicaram também o pacote RCurl para isso, mas a documentação do pacote
não me ajudou muito. No problema das distâncias entre cidades, o que eu
usei foi só readLines mesmo pq o googlemaps dá o resultado direto no html
mesmo.

Enfim, se você encontrar uma solução pra esse problema específico eu também
tenho interesse!

Em 30 de agosto de 2012 12:29, Paulo Nogueira <paulons em gmail.com> escreveu:

> Sempre que levantei a bola de web scraping por aqui a participação dos
> membros do grupo foi pequeno.
> Como não sei se é desinteresse ou falta de conhecimento do assunto, vou
> compartilhar as soluções que encontrar.
> Caso esteja fora do escopo do grupo, podem se manifestar.
>
> Bem...
> O R é muito abrangente e satisfatório inclusive para web scraping, desde
> que as páginas não sejam muito complexas e o código fonte possa ser
> extraído com uma função de leitura como readlines. A partir disso, parece
> que o negócio é aprender Python e, em particular, um framework chamado
> Scrapy.
> http://www.scrapy.org/
>
> Estou separando algumas horas para ler a documentação, mas pelo que vi até
> agora ele é muito bom para buscar informação na web.
> Se alguém conhecer o Scrapy por favor acrescente um pitaco à discussão.
>
> Abraços
> Paulo Nogueira Starzynski
>
>
>
> Em 30 de agosto de 2012 11:51, Paulo Nogueira <paulons em gmail.com>escreveu:
>
> Opa, só agora reparei que estávamos trocando email fora da lista...
>> Segue para deixar por lá.
>>
>> abs
>>
>> Em 28 de agosto de 2012 17:58, Paulo Nogueira <paulons em gmail.com>
>> escreveu:
>>
>> > Olá Augusto.
>> > As páginas simples, que contém o html puro são simples de importar e
>> > trabalhar no R, mas tem algumas outras bem mais complicadas.
>> > Já fiz muita pesquisa por "Web Scrapping R" e suas variantes e ainda
>> > não consegui resolver problemas como esse proposto no tópico.
>> >
>> > Nesse caso, não acho que a página acesse o conteúdo da tabela através
>> > de outros links, mas acredito que esse conteúdo seja "dinâmico" e
>> > gerado por funções javascript desenvolvidas para o site.
>> > Se você utiliza o Chrome ou Firefox, clique na tabela com o botáo
>> > direito do mouse e selecione "Inspecionar elemento". Note que o html
>> > agora está lá, mas porque provavelmente o browser chama essas funções
>> > em tempo real, ou algo assim.
>> >
>> > Preciso fazer o R funcionar assim, mas não sei se é possível. Talvez
>> > tenha de mudar de ferramenta, o que me colocaria na estaca quase zero
>> > novamente.
>> >
>> > Abraços,
>> > Paulo Nogueira Starzynski
>> >
>> > Em 28 de agosto de 2012 15:19, Augusto Ribas <ribas.aca em gmail.com>
>> escreveu:
>> >> Rapaz, eu não entendo de web design. Mas eu tava tentando mexer nessa
>> >> pagina que vc queria.
>> >> Eu fiz uns scrapper, mas a paginas que procurava era muito mais
>> simples.
>> >> Essa pagina procura em outros sites, e monta a tabela dela, por isso a
>> >> pagina que vc faz download so tem links.
>> >>
>> >> Mas se vc fizer uma busca por Screen Scrap vai ver algum material
>> interessante.
>> >>
>> >> Olhe esse exemplo:
>> >> http://franklincenterhq.org/2068/simple-r-screen-scraping-example/
>> >>
>> >> O cara baixa a pagina, dai baixa os links da tabela e ai retira a
>> >> informação que deseja.
>> >>
>> >> Eu não consegui replicar o exemplo dele no site que vc precisa, mas se
>> >> tiver mais sorte que eu poste na lista o seu resultado :)
>> >> Mas acho que vai ser algo bem similar a esse exemplo que vc vai
>> precisar.
>> >>
>> >> Em 28 de agosto de 2012 00:00, Paulo Nogueira <paulons em gmail.com>
>> escreveu:
>> >>> Pessoal, não sei se a lista se presta a esclarecer dúvidas como essa
>> >>> minha, mas pelo menos estou usando R para resolver os problemas. rs
>> >>>
>> >>> Ultimamente tenho trabalhado bastante com determinadas buscas na web
>> >>> para coletar dados e estruturá-los. Porém, como meus conceitos de web
>> >>> se restringem ao conhecimento de usuário, e não de desenvolvedor,
>> >>> acabo tendo alguns problemas.
>> >>> Vou exemplificar uma das minhas dificuldades com um problema prático:
>> >>>
>> >>> Utilizar readlines() e os pacores RCurl, XML, etc, para tratar o
>> >>> código fonte é algo que já faço até que bem. Mas problemas surgem
>> >>> quando o conteúdo que eu preciso extrair de informação não vem no
>> >>> código fonte?
>> >>> Vejam esse exemplo:
>> >>>
>> http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas-aereas-de-sao-paulo-destino-sao-luis-em-outubro-2012-e-abril-2013.html
>> >>>
>> >>> Após carregar toda a busca, o site SkyScanner exibe os preços
>> >>> encontrados para o trecho São Paulo - São Luis.
>> >>> [1] No navegador Firefox ou Chrome, ao clicar em "Exibir Código
>> >>> Fonte", não aparecem as informações do vôos, apenas o código que
>> >>> estrutura a página.
>> >>> [2] Ao clicar em "Inspecionar Elemento" eu consigo analisar o código
>> >>> fonte do meu interesse.
>> >>> [3] Ao utilizar readlines passando o a url acima o R importa o código
>> >>> fonte [1] e não o [2], com as informações de interesse.
>> >>>
>> >>> Imagino que isso tenha a ver com as funções de javascript e coisas
>> desse tipo...
>> >>> Alguém sabe contornar essa situação com o R? Se não, o que devo
>> >>> estudar para agilizar a busca dessa solução? Estou meio perdido nessa
>> >>> parte e agradeço ajudas de qualquer tipo. rs
>> >>>
>> >>> Peço desculpas se por acaso isso for muito off-topic.
>> >>> Abraços,
>> >>> Paulo Nogueira
>> >>> _______________________________________________
>> >>> R-br mailing list
>> >>> R-br em listas.c3sl.ufpr.br
>> >>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> >>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>> >>
>> >>
>> >>
>> >> --
>> >> Grato
>> >> Augusto C. A. Ribas
>> >>
>> >> Site Pessoal: http://augustoribas.heliohost.org
>> >> Lattes: http://lattes.cnpq.br/7355685961127056
>>
>>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20120830/e9b30fa7/attachment.html>


Mais detalhes sobre a lista de discussão R-br