Paulo, <div><br></div><div>Você pode fazer uso do XPATH do pacote XML:</div><div><br></div><div><div>Lines <- '<div id="individual-completo"> </div><div> <div class="title-box"></div>
<div> <img src="<a href="http://address.jpg">http://address.jpg</a>" gestor="foto" class="foto" /></div><div> <div></div><div> <div class="colright"></div>
<div> <span>Participações: 22</span></div><div> <a href="<a href="http://players">http://players</a>" class="visite">Saiba Mais</a></div><div> </div></div>
<div> <h2>NomeElemento</h2></div><div> <p class="tflag"><img src="<a href="http://team">http://team</a>" /> <a href="/refteam">NomeGrupo</a></p></div>
<div> <p>NomeFunção</p></div><div> </div></div><div> </div></div><div> <div class="content-box"></div><div> <h2>Desempenho completo</h2></div><div>
<table cellspacing="0" cellpadding="0"></div><div> <tbody></div><div><br></div><div> <tr></div><div> <th>Parâmetro1</th></div><div> <td><span gestor="param1">2</span></td></div>
<div> </tr></div><div> <tr class="divisor"></div><div> <td colspan="2"> </td></div><div> </tr></div><div> </div><div> <tr></div>
<div> <th>Parâmetro2</th></div><div> <td><span gestor="param2">63</span></td></div><div> </tr></div><div><br></div><div> <tr class="odd"></div>
<div> <th>Parâmetro3</th></div><div> <td><span gestor="param3">87</span></td></div><div> </tr></div><div> <tr class="divisor"></div>
<div> <td colspan="2"> </td></div><div> </tr></div><div> <tr class="destaque"></div><div><br></div><div> </tbody></div><div> </table></div>
<div> </div></div><div></div>'</div><div><br></div><div>h <- htmlTreeParse(Lines, useInternalNodes = TRUE)</div><div>matrix(xpathApply(h, "//th|//td//span", xmlValue), ncol = 2, byrow = TRUE)</div>
<br><div class="gmail_quote">2011/11/27 Paulo Nogueira <span dir="ltr"><<a href="mailto:paulons@gmail.com">paulons@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
Saudações a todos!<br><br>Preciso aprender como tratar HTML no R para identificar alguns padrões na estrutura do código, extrair e guardar determinadas informações.<br>Alguém costuma fazer algo do tipo e poderia informar os pacotes mais indicados para esse trabalho?<br>
<br>Terei de acessar cerca de 300 páginas semanalmente, e extrais alguns parâmetros.<br>O HTML abaixo é um trecho do código que terei de lidar, e preciso extrair as informações destacadas.<br><br>Alguém pode me sugerir o início do caminho das pedras, como algum pacote e/ou funções específicas?<br>
<br><div id="individual-completo"> <br> <div class="title-box"><br> <img src="<a href="http://address.jpg" target="_blank">http://address.jpg</a>" gestor="foto" class="foto" /><br>
<div><br> <div class="colright"><br> <span><span style="background-color:rgb(255,255,0)">Participações: 22</span></span><br> <a href="<a href="http://players" target="_blank">http://players</a>" class="visite">Saiba Mais</a><br>
</div><br> <h2><span style="background-color:rgb(255,255,0)">NomeElemento</span></h2><br> <p class="tflag"><img src="<a href="http://team" target="_blank">http://team</a>" /> <a href="/refteam"><span style="background-color:rgb(255,255,0)">NomeGrupo</span></a></p><br>
<p><span style="background-color:rgb(255,255,0)">NomeFunção</span></p><br> </div><br> </div><br> <div class="content-box"><br> <h2>Desempenho completo</h2><br>
<table cellspacing="0" cellpadding="0"><br> <tbody><br><br> <tr><br> <th><span style="background-color:rgb(255,255,0)">Parâmetro1</span></th><br>
<td><span gestor="param1"><span style="background-color:rgb(255,255,0)">2</span></span></td><br> </tr><br> <tr class="divisor"><br> <td colspan="2"> </td><br>
</tr><br> <br> <tr><br> <th><span style="background-color:rgb(255,255,0)">Parâmetro2</span></th><br> <td><span gestor="param2"><span style="background-color:rgb(255,255,0)">63</span></span></td><br>
</tr><br><br> <tr class="odd"><br> <th><span style="background-color:rgb(255,255,0)">Parâmetro3</span></th><br> <td><span gestor="param3"><span style="background-color:rgb(255,255,0)">87</span></span></td><br>
</tr><br> <tr class="divisor"><br> <td colspan="2"> </td><br> </tr><br> <tr class="destaque"><br><br> </tbody><br>
</table><br> </div><br></div><br><br>Obrigado<br>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>
Henrique Dallazuanna<br>Curitiba-Paraná-Brasil<br>25° 25' 40" S 49° 16' 22" O<br>
</div>