<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META content="text/html; charset=iso-8859-1" http-equiv=Content-Type>
<META name=GENERATOR content="MSHTML 8.00.6001.19298">
<STYLE></STYLE>
</HEAD>
<BODY bgColor=#ffffff>
<DIV><FONT size=2><FONT face=Arial><FONT color=#0000ff size=3>Tentei rodar vosso
script mas não consegui baixar esta library(RDCOMClient), a mensgem diz que não
está disponível para versão R15.1. Por acaso é exclusiva do
Linux?</FONT><BR></FONT></FONT><BR></DIV>
<BLOCKQUOTE
style="BORDER-LEFT: #000000 2px solid; PADDING-LEFT: 5px; PADDING-RIGHT: 0px; MARGIN-LEFT: 5px; MARGIN-RIGHT: 0px">Henrique,
não conhecia essa possibilidade via Internet explorer.
<DIV>Bacana, vou testar.</DIV>
<DIV><BR></DIV>
<DIV>Em tempo, o que seria "uma instância" e porque só é possível no
Windows/Explorer? Alguma questão relacionada à segurança da informação ou
coisa do gênero? Apenas curiosidade mesmo.</DIV>
<DIV><BR></DIV>
<DIV>Abraços,</DIV>
<DIV>Paulo Nogueira Starzynski</DIV>
<DIV><BR>
<DIV class=gmail_quote>Em 30 de agosto de 2012 23:36, Henrique Dallazuanna
<SPAN dir=ltr><<A href="mailto:wwwhsd@gmail.com"
target=_blank>wwwhsd@gmail.com</A>></SPAN> escreveu:<BR>
<BLOCKQUOTE
style="BORDER-LEFT: #ccc 1px solid; MARGIN: 0px 0px 0px 0.8ex; PADDING-LEFT: 1ex"
class=gmail_quote>
<DIV>Paulo, </DIV>
<DIV> </DIV>
<DIV>Esse é um comportamento das páginas que utilizam carregamento dinâmico
(Ajax, jQuery, etc..).</DIV>
<DIV> </DIV>
<DIV>Uma solução que utilizo neste casos é usar uma instância do Internet
Explorer (logo funciona apenas no Windows):</DIV>
<DIV> </DIV>
<DIV># Carregando Pacotes<BR>library(RDCOMClient)<BR>library(XML)</DIV>
<DIV> </DIV>
<DIV># Criando Instancia<BR>ieApp <-
COMCreate("InternetExplorer.Application")</DIV>
<DIV> </DIV>
<DIV># Acessando a página<BR>ieApp$Navigate("<A
href="http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas-aereas-de-sao-paulo-destino-sao-luis-em-outubro-2012-e-abril-2013.html"
target=_blank>http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas-aereas-de-sao-paulo-destino-sao-luis-em-outubro-2012-e-abril-2013.html</A>")</DIV>
<DIV> </DIV>
<DIV># Código da Página<BR>srcHTML <-
htmlTreeParse(ieApp$Document()$Body()$OuterHTML(), asText = TRUE,
useInternalNodes = TRUE)</DIV>
<DIV> </DIV>
<DIV># Partidas e Chegadas<BR>cbind(unlist(xpathApply(srcHTML,
"//span[@class='sta sta-dep' and @mode='flight']",
xmlValue)),<BR> unlist(xpathApply(srcHTML,
"//span[@class='sta sta-arr' and @mode='flight']", xmlValue)))<BR><BR></DIV>
<DIV class=gmail_quote>2012/8/28 Paulo Nogueira <SPAN dir=ltr><<A
href="mailto:paulons@gmail.com"
target=_blank>paulons@gmail.com</A>></SPAN><BR>
<BLOCKQUOTE
style="BORDER-LEFT: rgb(204,204,204) 1px solid; MARGIN: 0px 0px 0px 0.8ex; PADDING-LEFT: 1ex"
class=gmail_quote>
<DIV>
<DIV class=h5>Pessoal, não sei se a lista se presta a esclarecer dúvidas
como essa<BR>minha, mas pelo menos estou usando R para resolver os
problemas. rs<BR><BR>Ultimamente tenho trabalhado bastante com
determinadas buscas na web<BR>para coletar dados e estruturá-los. Porém,
como meus conceitos de web<BR>se restringem ao conhecimento de usuário, e
não de desenvolvedor,<BR>acabo tendo alguns problemas.<BR>Vou exemplificar
uma das minhas dificuldades com um problema prático:<BR><BR>Utilizar
readlines() e os pacores RCurl, XML, etc, para tratar o<BR>código fonte é
algo que já faço até que bem. Mas problemas surgem<BR>quando o conteúdo
que eu preciso extrair de informação não vem no<BR>código fonte?<BR>Vejam
esse exemplo:<BR><A
href="http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas-aereas-de-sao-paulo-destino-sao-luis-em-outubro-2012-e-abril-2013.html"
target=_blank>http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas-aereas-de-sao-paulo-destino-sao-luis-em-outubro-2012-e-abril-2013.html</A><BR><BR>Após
carregar toda a busca, o site SkyScanner exibe os preços<BR>encontrados
para o trecho São Paulo - São Luis.<BR>[1] No navegador Firefox ou Chrome,
ao clicar em "Exibir Código<BR>Fonte", não aparecem as informações do
vôos, apenas o código que<BR>estrutura a página.<BR>[2] Ao clicar em
"Inspecionar Elemento" eu consigo analisar o código<BR>fonte do meu
interesse.<BR>[3] Ao utilizar readlines passando o a url acima o R importa
o código<BR>fonte [1] e não o [2], com as informações de
interesse.<BR><BR>Imagino que isso tenha a ver com as funções de
javascript e coisas desse tipo...<BR>Alguém sabe contornar essa situação
com o R? Se não, o que devo<BR>estudar para agilizar a busca dessa
solução? Estou meio perdido nessa<BR>parte e agradeço ajudas de qualquer
tipo. rs<BR><BR>Peço desculpas se por acaso isso for muito
off-topic.<BR>Abraços,<BR>Paulo Nogueira<BR></DIV></DIV>
<DIV class=im>_______________________________________________<BR>R-br
mailing list<BR><A href="mailto:R-br@listas.c3sl.ufpr.br"
target=_blank>R-br@listas.c3sl.ufpr.br</A><BR><A
href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br"
target=_blank>https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</A><BR>Leia
o guia de postagem (<A href="http://www.leg.ufpr.br/r-br-guia"
target=_blank>http://www.leg.ufpr.br/r-br-guia</A>) e forneça código
mínimo reproduzível.<BR></DIV></BLOCKQUOTE></DIV><SPAN class=HOEnZb><FONT
color=#888888><BR><BR clear=all><BR>-- <BR>Henrique
Dallazuanna<BR>Curitiba-Paraná-Brasil<BR>25° 25' 40" S 49° 16' 22"
O<BR></FONT></SPAN><BR></BLOCKQUOTE></DIV></DIV></BLOCKQUOTE></BODY></HTML>