<div dir="ltr"><div class="gmail_default" style="font-family:verdana,sans-serif">Leonardo, boa tarde!</div><div class="gmail_default" style="font-family:verdana,sans-serif"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif">Voltando na discussão...</div><div class="gmail_default" style="font-family:verdana,sans-serif"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif">Acredito que não tem como fazer a conexão direta com o arquivo .zip alocado na web, mas uma vez que você baixa o arquivo com download.file(), pode usar unz() para não precisar descompactar. Tem um post antigo em <<a href="https://stat.ethz.ch/pipermail/r-help/2008-October/176266.html">https://stat.ethz.ch/pipermail/r-help/2008-October/176266.html</a>>.</div><div class="gmail_default" style="font-family:verdana,sans-serif"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif">Abaixo tem um exemplo bem simples, mas que pode ser útil. É feita a leitura de uma tabela .html a partir de um arquivo .zip alocado no Google Drive.</div><div class="gmail_default" style="font-family:verdana,sans-serif"><br></div><div class="gmail_default" style=""><div class="gmail_default"><font face="monospace, monospace">### <code r></font></div><div class="gmail_default"><font face="monospace, monospace">setwd("D:\\TEMP")</font></div><div class="gmail_default"><font face="monospace, monospace">url.zip <- "<a href="https://drive.google.com/open?id=0B8y1jJExW6kabHU3SXV3dXB2OEk">https://drive.google.com/open?id=0B8y1jJExW6kabHU3SXV3dXB2OEk</a>"</font></div><div class="gmail_default"><font face="monospace, monospace">url.zip <- sub("^.*\\?(id.*$)", "<a href="https://drive.google.com/uc?export=download&\\1">https://drive.google.com/uc?export=download&\\1</a>", url.zip)</font></div><div class="gmail_default"><font face="monospace, monospace">url.zip ### <a href="https://drive.google.com/uc?export=download&id=0B8y1jJExW6kabHU3SXV3dXB2OEk">https://drive.google.com/uc?export=download&id=0B8y1jJExW6kabHU3SXV3dXB2OEk</a>"</font></div><div class="gmail_default"><font face="monospace, monospace"><br></font></div><div class="gmail_default"><font face="monospace, monospace">if (!file.exists("html.zip")) download.file(url.zip, "html.zip", mode="wb")</font></div><div class="gmail_default"><font face="monospace, monospace">unzip("html.zip", list=T) ### conteúdo</font></div><div class="gmail_default"><font face="monospace, monospace"><br></font></div><div class="gmail_default"><font face="monospace, monospace">closeAllConnections()</font></div><div class="gmail_default"><font face="monospace, monospace">con <- unz("html.zip", "htmlTable.html")</font></div><div class="gmail_default"><font face="monospace, monospace">XML::readHTMLTable(readLines(con))</font></div><div class="gmail_default"><font face="monospace, monospace"># $`NULL`</font></div><div class="gmail_default"><font face="monospace, monospace">#   First Name Last Name Points</font></div><div class="gmail_default"><font face="monospace, monospace"># 1       Jill     Smith     50</font></div><div class="gmail_default"><font face="monospace, monospace"># 2        Eve   Jackson     94</font></div><div class="gmail_default"><font face="monospace, monospace">close(con)</font></div><div class="gmail_default"><font face="monospace, monospace">### </code></font></div></div><div class="gmail_default" style="font-family:verdana,sans-serif"><br></div><div class="gmail_default" style=""><br></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><font face="arial, helvetica, sans-serif" style="font-size:small"><div style="font-family:'trebuchet ms',sans-serif;display:inline">​</div>================================================<br>Éder Comunello</font><div style="font-size:small"><span style="font-family:arial,helvetica,sans-serif">PhD Student in Agricultural Systems Engineering (USP/Esalq)</span><br></div><div><span style="font-size:small">Brazilian Agricultural Research Corporation (</span><font face="arial, helvetica, sans-serif" style="font-size:small">Embrapa)</font><div style="font-size:small"><font face="arial, helvetica, sans-serif">Dourados, MS, Brazil [</font>22 16.5'S, 54 49.0'W<span style="font-family:arial,helvetica,sans-serif">]</span></div><div><div><br></div><div><br></div></div><div style="font-size:small"><br></div></div></div></div></div></div></div></div></div>
<br><div class="gmail_quote">Em 7 de janeiro de 2016 10:54, Leonard de Assis <span dir="ltr"><<a href="mailto:assis.leonard@gmail.com" target="_blank">assis.leonard@gmail.com</a>></span> escreveu:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div lang="PT-BR" link="blue" vlink="purple"><div><p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Paulo, o que achei via google de ontem pra hoje vai nessa direção mesmo.<u></u><u></u></span></p><p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p><p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Estou rodando vários exemplos que achei e, em paralelo, adaptando meu código.<u></u><u></u></span></p><p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p><p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Eu já consigo ler os trecos dentro do HTML, o que agarra é esse processo de descompactar o htm dentro.<u></u><u></u></span></p><p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p><p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Fiz um esqueminha em C usando curl e xml que funciona. Se ficar demorando muito, porto essa joça pra ficar no formato que o R entende e resolvo por esse caminho.<u></u><u></u></span></p><p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p><p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Ou então, deixo como está, que é baixar o zip, descompactar e ler.<u></u><u></u></span></p><p class="MsoNormal"><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p><p class="MsoNormal"><b><span style="font-size:11pt;font-family:Calibri,sans-serif">De:</span></b><span style="font-size:11pt;font-family:Calibri,sans-serif"> R-br [mailto:<a href="mailto:r-br-bounces@listas.c3sl.ufpr.br" target="_blank">r-br-bounces@listas.c3sl.ufpr.br</a>] <b>Em nome de </b>Paulo Nogueira Starzynski<br><b>Enviada em:</b> quinta-feira, 7 de janeiro de 2016 09:39<br><b>Para:</b> R-BR <<a href="mailto:r-br@listas.c3sl.ufpr.br" target="_blank">r-br@listas.c3sl.ufpr.br</a>><br><b>Assunto:</b> Re: [R-br] Ler um HTM<u></u><u></u></span></p><div><div class="h5"><p class="MsoNormal"><u></u> <u></u></p><div><div><p class="MsoNormal">Leonardo, <u></u><u></u></p></div><p class="MsoNormal">talvez você já tenha alguma vez trilhado o caminho das pedras do webscrapping, mas, se não, recomendo os pacotes XML, RCurl e rvest (eu uso mais os dois primeiros).<u></u><u></u></p></div><div><p class="MsoNormal"><br clear="all"><u></u><u></u></p><div><div><div><div><div><p class="MsoNormal">Abraços,<u></u><u></u></p></div><div><p class="MsoNormal">Paulo<u></u><u></u></p></div></div></div></div></div><p class="MsoNormal"><u></u> <u></u></p><div><p class="MsoNormal">Em 6 de janeiro de 2016 23:45, Leonard de Assis <<a href="mailto:assis.leonard@gmail.com" target="_blank">assis.leonard@gmail.com</a>> escreveu:<u></u><u></u></p><blockquote style="border-style:none none none solid;border-left-color:rgb(204,204,204);border-left-width:1pt;padding:0cm 0cm 0cm 6pt;margin-left:4.8pt;margin-right:0cm"><div><div><p class="MsoNormal">Boa noite a todos<u></u><u></u></p><p class="MsoNormal"> <u></u><u></u></p><p class="MsoNormal">Estou com um problema idiota em mãos. Preciso ler um arquivo .HTM dentro de um arquivo .zip.<u></u><u></u></p><p class="MsoNormal">Até agora, o jeito que achei mais produtivo foi:<u></u><u></u></p><p>1.<span style="font-size:7pt">       </span>baixar o zip (posso fazer isso com o R via download.file)<u></u><u></u></p><p>2.<span style="font-size:7pt">       </span>extrair o .HTM do arquivo (posso fazer isso via unzip)<u></u><u></u></p><p>3.<span style="font-size:7pt">       </span>ler a tabela contida no HTM utilizando readHTMLTable (lib XML)<u></u><u></u></p><p class="MsoNormal"> <u></u><u></u></p><p class="MsoNormal">A questão que tenho é a seguinte:<u></u><u></u></p><p class="MsoNormal"> <u></u><u></u></p><p class="MsoNormal">Existe um jeito mais rápido que este? Eu já consegui ler .csv direto de arquivo .zip utilizando o comando unz e read.table. Será que funciona assim também em HTML? Se sim, qual seria a func?<u></u><u></u></p><p class="MsoNormal"> <u></u><u></u></p><p class="MsoNormal">Leonard<u></u><u></u></p><p class="MsoNormal"> <u></u><u></u></p><p class="MsoNormal">OS: ainda tenho que pensar como fazer webscrap desse htm, kkk<u></u><u></u></p><p class="MsoNormal"> <u></u><u></u></p><p class="MsoNormal"><img border="0" width="151" height="151" src="cid:image001.png@01D14942.1BB6D090"><u></u><u></u></p><p class="MsoNormal"> <u></u><u></u></p></div></div><p class="MsoNormal"><br>_______________________________________________<br>R-br mailing list<br><a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br><a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<u></u><u></u></p></blockquote></div><p class="MsoNormal"><u></u> <u></u></p></div></div></div></div></div><br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" rel="noreferrer" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" rel="noreferrer" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br></div></div>