Achei, é só pegar o html de <a href="http://maplink.com.br/transito/sao-paulo-sp">http://maplink.com.br/transito/sao-paulo-sp</a><br>Tipo assim:<br><i>conexao <- url( "<a href="http://maplink.com.br/transito/sao-paulo-sp">http://maplink.com.br/transito/sao-paulo-sp</a>" )<br>
pagina <- readLines(conexao)<br>pos <- grep('<span class="km_status">', pagina) </i> ### eu vi que o trecho <i><span class="km_status"> </i> vinha logo antes da quilometragem no html<i><br>
pagina[ pos:(pos+2) ]<br>close(conexao)<br></i><br>Pelo que eu vi aqui agora, a informação sempre estará na linha <b>pagina[pos+1]</b>. Mas é melhor verificar isso direito.<br><br><div class="gmail_quote">Em 17 de fevereiro de 2012 18:20, Lucas Barbosa <span dir="ltr"><<a href="mailto:lucasbcr@gmail.com">lucasbcr@gmail.com</a>></span> escreveu:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Paulo,<br>Eu abri agora a página e está com 533 km congestionados, mas não aparece nenhum número 533 no html. Talvez esse 300 que você encontrou representava outra coisa.<br>
Eu fiz algo parecido para resolver o problema de calcular distâncias entre cidades, mas foi com o Google Maps. Meu caso foi simples porque os valores de interesse já estavam no html, mas a parte de congestionamento do maplink parece estar só no java script mesmo.<br>
Talvez você encontre essa informação no html de outro lugar desse site, vou dar uma olhada aqui.<br>Att.,<br>Lucas Cusinato<br><br><br><br><div class="gmail_quote">Em 15 de fevereiro de 2012 10:14, Paulo Nogueira <span dir="ltr"><<a href="mailto:paulons@gmail.com" target="_blank">paulons@gmail.com</a>></span> escreveu:<div>
<div class="h5"><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Henrique, obrigado pelas dicas.<br>Uso Ubuntu mas vou tentar adaptar o código que me passou e estudar o que posso fazer com ele.<br>
Muito obrigado.<br><br>Paulo NS<br><br><div class="gmail_quote">Em 14 de fevereiro de 2012 23:24, Henrique Dallazuanna <span dir="ltr"><<a href="mailto:wwwhsd@gmail.com" target="_blank">wwwhsd@gmail.com</a>></span> escreveu:<div>
<div><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Paulo, <div><br></div><div>Esses casos ocorrem pois o conteúdo é carregado dinamicamente (via Ajax, jQuery, etc..), portanto o conteúdo não fica disponível no Source Code da página.</div>
<div><br></div><div>Uma alternativa pode ser utilizado abaixo, ou ainda alternativas como <a href="http://maplink.com.br/transito/sao-paulo-sp" target="_blank">http://maplink.com.br/transito/sao-paulo-sp</a> que carrega o coteudo diretamente na página.</div>
<div><br></div><div>## Para Windows</div><div><div>library(RDCOMClient)</div><div>library(XML)</div><div><br></div><div>ieApp <- COMCreate("InternetExplorer.Application")</div><div><br></div><div>ieApp[['Visible']] <- TRUE</div>
<div>ieApp$Navigate("<a href="http://www.maplink.com.br" target="_blank">http://www.maplink.com.br</a>")</div><div><br></div><div>ieApp$Document()$Body()$OuterHTML()</div><div><div></div><div><br><div class="gmail_quote">
2012/2/13 Paulo Nogueira <span dir="ltr"><<a href="mailto:paulons@gmail.com" target="_blank">paulons@gmail.com</a>></span><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><a href="http://www.maplink.com.br" target="_blank">www.maplink.com.br</a>Henrique, dei mais uma mexida aqui e ainda não resolvi meu problema.<div>
Talvez eu não tenha sido claro na pergunta, então vou mudar o exemplo.</div><div><br></div>
<div>Quando acesso o site <a href="http://www.maplink.com.br" target="_blank">Maplink</a> aparece um mapa da cidade de São Paulo (minha localidade) e um box na direita com a informação de quantos quilômetros de congestionamento a cidade apresenta no momento (aliás, estamos com 300km às 13:40!).</div>
<div><br></div><div><div>url<-url('<a href="http://maplink.com.br/" target="_blank">http://maplink.com.br/</a>',"rt")</div><div>map<-readLines(url)</div><div>grep('Km',map)</div><div><br></div>
<div>Ao rodar o código acima o R importa o código fonte da página, que não contem o valor 300. </div>
<div>Ao abrir o Chrome ou Firefox e utilizar a opção "Inspecionar Elemento" é possível encontrar o 300 no meio do código.</div><div>Será possível importar no R o código HTML que eu vejo no inspecionar elemento? Isso seria suficiente e resolveria uma séria de questões que tenho. </div>
<div><br></div><div>Alguém já fez algo semelhante a isso ou pode dar a dica de algum caminho, mesmo sem o R?</div><div><br></div><div>Abraços,</div><div>Paulo</div><br><div class="gmail_quote"><div>Em 31 de janeiro de 2012 21:43, Henrique Dallazuanna <span dir="ltr"><<a href="mailto:wwwhsd@gmail.com" target="_blank">wwwhsd@gmail.com</a>></span> escreveu:<br>
</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Paulo, <div><div><div><br></div><div>Veja a função postForm do pacote RCurl, pois ela faz exatamente o post em formulários web.</div>
<div><br><div class="gmail_quote">2012/1/31 Paulo Nogueira <span dir="ltr"><<a href="mailto:paulons@gmail.com" target="_blank">paulons@gmail.com</a>></span><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div></div><div>Boa tarde R-Br.<br>Mais uma vez peço a vocês uma orientação de caminho para descobrir como solucionar problemas relacionados a web scraping.<br>
<br>Hoje consigo ler códigos HTML de ṕáginas atráves do readLines e depois extrair os dados que me interessam utilizando funções como grep, gsub e regexpr. Evolui nisso e tenho conseguido resultados bastante interessantes. O problema é que nem sempre o que é exibido no navegador, está disponível no código fonte da página.<br>
<br>Por exemplo, a página inicial do site Webmotors (<a href="http://www.webmotors.com.br/index.html" target="_blank">http://www.webmotors.com.br/index.html</a>) apresenta um box de pesquisa. Escolhendo, na página, os campos marca = Chevrolet, modelo = Astra, estado = AM e cidade = Manaus e clicando em BUSCAR, encontro esse resultado:<br>
<a href="http://www.webmotors.com.br/Webmotors/Compra/carrosResultado/carros-resultado.aspx?marca=2&modelo=1042&descrModelo=ASTRA&precoinicial=&precofinal=&uf=AM&cidade=Manaus&anoInicial=&anoFinal=&anuncionovos=N&anunciousados=U&revend=S&part=S&concessionaria=S&Ordem=OP&orig=S" target="_blank">http://www.webmotors.com.br/Webmotors/Compra/carrosResultado/carros-resultado.aspx?marca=2&modelo=1042&descrModelo=ASTRA&precoinicial=&precofinal=&uf=AM&cidade=Manaus&anoInicial=&anoFinal=&anuncionovos=N&anunciousados=U&revend=S&part=S&concessionaria=S&Ordem=OP&orig=S</a><br>
<br>E assim consigo extrair com o R as informações dos veículos Astra a venda em Manaus.<br>Porém, como posso fazer para o R informar ao site que desejo fazer essa busca? Gostaria de automatizar essa parte.<br>Sei que na URL resultado basta trocar os campos como &modelo=1042 ou marca=2, etc... mas também não sei quais são os possíveis valores para esses campos.<br>
<br>Ressalto que esse problema é um exemplo. Gostaria de aprender a fazer chamada às funções (acredito que são as .js) da página para construir as páginas com os resultados e então importar com o readLines para guardar os dados de meu interesse. Espero ter sido claro no questionamento.<br>
Agradeço qualquer ajuda.<br><br>Abraços,<span><font color="#888888"><br>Paulo Nogueira Starzynski<br><br><br>
</font></span><br></div></div>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><font color="#888888"><br><br clear="all">
<div><br></div>-- <br>
Henrique Dallazuanna<br>Curitiba-Paraná-Brasil<br>25° 25' 40" S 49° 16' 22" O<br>
</font></div>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></div></div></blockquote></div><br></div>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>
Henrique Dallazuanna<br>Curitiba-Paraná-Brasil<br>25° 25' 40" S 49° 16' 22" O<br>
</div></div></div>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div></div></div><br>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div></div></div><br>
</blockquote></div><br>