Benilton e Henrique, estou conseguindo progredir.<br>Muito obrigado.<br><br>abs<br>Paulo<br><br><div class="gmail_quote">Em 28 de novembro de 2011 21:47, Henrique Dallazuanna <span dir="ltr"><<a href="mailto:wwwhsd@gmail.com">wwwhsd@gmail.com</a>></span> escreveu:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">Paulo, <div><br></div><div>Você pode fazer uso do XPATH do pacote XML:</div><div><br></div><div>
<div>Lines <- '<div id="individual-completo"> </div><div><div></div><div class="h5"><div> <div class="title-box"></div>
<div> <img src="<a href="http://address.jpg" target="_blank">http://address.jpg</a>" gestor="foto" class="foto" /></div><div> <div></div><div> <div class="colright"></div>
<div> <span>Participações: 22</span></div><div> <a href="<a href="http://players" target="_blank">http://players</a>" class="visite">Saiba Mais</a></div><div>
</div></div>
<div> <h2>NomeElemento</h2></div><div> <p class="tflag"><img src="<a href="http://team" target="_blank">http://team</a>" /> <a href="/refteam">NomeGrupo</a></p></div>
<div> <p>NomeFunção</p></div><div> </div></div><div> </div></div><div> <div class="content-box"></div><div> <h2>Desempenho completo</h2></div><div>
<table cellspacing="0" cellpadding="0"></div><div> <tbody></div><div><br></div><div> <tr></div><div> <th>Parâmetro1</th></div><div> <td><span gestor="param1">2</span></td></div>
<div> </tr></div><div> <tr class="divisor"></div><div> <td colspan="2"> </td></div><div> </tr></div><div> </div><div> <tr></div>
<div> <th>Parâmetro2</th></div><div> <td><span gestor="param2">63</span></td></div><div> </tr></div><div><br></div><div> <tr class="odd"></div>
<div> <th>Parâmetro3</th></div><div> <td><span gestor="param3">87</span></td></div><div> </tr></div><div> <tr class="divisor"></div>
<div> <td colspan="2"> </td></div><div> </tr></div><div> <tr class="destaque"></div><div><br></div><div> </tbody></div><div> </table></div>
<div> </div></div></div></div><div></div>'</div><div><br></div><div>h <- htmlTreeParse(Lines, useInternalNodes = TRUE)</div><div>matrix(xpathApply(h, "//th|//td//span", xmlValue), ncol = 2, byrow = TRUE)</div>
<br><div class="gmail_quote">2011/11/27 Paulo Nogueira <span dir="ltr"><<a href="mailto:paulons@gmail.com" target="_blank">paulons@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<div><div></div><div class="h5">
Saudações a todos!<br><br>Preciso aprender como tratar HTML no R para identificar alguns padrões na estrutura do código, extrair e guardar determinadas informações.<br>Alguém costuma fazer algo do tipo e poderia informar os pacotes mais indicados para esse trabalho?<br>
<br>Terei de acessar cerca de 300 páginas semanalmente, e extrais alguns parâmetros.<br>O HTML abaixo é um trecho do código que terei de lidar, e preciso extrair as informações destacadas.<br><br>Alguém pode me sugerir o início do caminho das pedras, como algum pacote e/ou funções específicas?<br>
<br><div id="individual-completo"> <br> <div class="title-box"><br> <img src="<a href="http://address.jpg" target="_blank">http://address.jpg</a>" gestor="foto" class="foto" /><br>
<div><br> <div class="colright"><br> <span><span style="background-color: rgb(255, 255, 0);">Participações: 22</span></span><br> <a href="<a href="http://players" target="_blank">http://players</a>" class="visite">Saiba Mais</a><br>
</div><br> <h2><span style="background-color: rgb(255, 255, 0);">NomeElemento</span></h2><br> <p class="tflag"><img src="<a href="http://team" target="_blank">http://team</a>" /> <a href="/refteam"><span style="background-color: rgb(255, 255, 0);">NomeGrupo</span></a></p><br>
<p><span style="background-color: rgb(255, 255, 0);">NomeFunção</span></p><br> </div><br> </div><br> <div class="content-box"><br> <h2>Desempenho completo</h2><br>
<table cellspacing="0" cellpadding="0"><br> <tbody><br><br> <tr><br> <th><span style="background-color: rgb(255, 255, 0);">Parâmetro1</span></th><br>
<td><span gestor="param1"><span style="background-color: rgb(255, 255, 0);">2</span></span></td><br> </tr><br> <tr class="divisor"><br> <td colspan="2"> </td><br>
</tr><br> <br> <tr><br> <th><span style="background-color: rgb(255, 255, 0);">Parâmetro2</span></th><br> <td><span gestor="param2"><span style="background-color: rgb(255, 255, 0);">63</span></span></td><br>
</tr><br><br> <tr class="odd"><br> <th><span style="background-color: rgb(255, 255, 0);">Parâmetro3</span></th><br> <td><span gestor="param3"><span style="background-color: rgb(255, 255, 0);">87</span></span></td><br>
</tr><br> <tr class="divisor"><br> <td colspan="2"> </td><br> </tr><br> <tr class="destaque"><br><br> </tbody><br>
</table><br> </div><br></div><br><br>Obrigado<br>
<br></div></div>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><font color="#888888"><br><br clear="all">
<div><br></div>-- <br>
Henrique Dallazuanna<br>Curitiba-Paraná-Brasil<br>25° 25' 40" S 49° 16' 22" O<br>
</font></div>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br>