Paulo, <div><br></div><div>Você pode fazer uso do XPATH do pacote XML:</div><div><br></div><div><div>Lines <- '<div id="individual-completo"> </div><div>  <div class="title-box"></div>

<div>      <img src="<a href="http://address.jpg">http://address.jpg</a>" gestor="foto" class="foto" /></div><div>      <div></div><div>        <div class="colright"></div>

<div>          <span>Participações: 22</span></div><div>          <a href="<a href="http://players">http://players</a>" class="visite">Saiba Mais</a></div><div>        </div></div>

<div>        <h2>NomeElemento</h2></div><div>        <p class="tflag"><img src="<a href="http://team">http://team</a>" /> <a href="/refteam">NomeGrupo</a></p></div>

<div>        <p>NomeFunção</p></div><div>       </div></div><div>   </div></div><div>   <div class="content-box"></div><div>      <h2>Desempenho completo</h2></div><div>

      <table cellspacing="0" cellpadding="0"></div><div>      <tbody></div><div><br></div><div>        <tr></div><div>        <th>Parâmetro1</th></div><div>        <td><span gestor="param1">2</span></td></div>

<div>        </tr></div><div>        <tr class="divisor"></div><div>        <td colspan="2">&nbsp;</td></div><div>        </tr></div><div> </div><div>        <tr></div>

<div>        <th>Parâmetro2</th></div><div>        <td><span gestor="param2">63</span></td></div><div>        </tr></div><div><br></div><div>        <tr class="odd"></div>

<div>        <th>Parâmetro3</th></div><div>        <td><span gestor="param3">87</span></td></div><div>        </tr></div><div>        <tr class="divisor"></div>

<div>        <td colspan="2">&nbsp;</td></div><div>        </tr></div><div>        <tr class="destaque"></div><div><br></div><div>      </tbody></div><div>      </table></div>

<div>    </div></div><div></div>'</div><div><br></div><div>h <- htmlTreeParse(Lines, useInternalNodes = TRUE)</div><div>matrix(xpathApply(h, "//th|//td//span", xmlValue), ncol = 2, byrow = TRUE)</div>

<br><div class="gmail_quote">2011/11/27 Paulo Nogueira <span dir="ltr"><<a href="mailto:paulons@gmail.com">paulons@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

Saudações a todos!<br><br>Preciso aprender como tratar HTML no R para identificar alguns padrões na estrutura do código, extrair e guardar determinadas informações.<br>Alguém costuma fazer algo do tipo e poderia informar os pacotes mais indicados para esse trabalho?<br>



<br>Terei de acessar cerca de 300 páginas semanalmente, e extrais alguns parâmetros.<br>O HTML abaixo é um trecho do código que terei de lidar, e preciso extrair as informações destacadas.<br><br>Alguém pode me sugerir o início do caminho das pedras, como algum pacote e/ou funções específicas?<br>



<br><div id="individual-completo"> <br>  <div class="title-box"><br>      <img src="<a href="http://address.jpg" target="_blank">http://address.jpg</a>" gestor="foto" class="foto" /><br>



      <div><br>        <div class="colright"><br>          <span><span style="background-color:rgb(255,255,0)">Participações: 22</span></span><br>          <a href="<a href="http://players" target="_blank">http://players</a>" class="visite">Saiba Mais</a><br>



        </div><br>        <h2><span style="background-color:rgb(255,255,0)">NomeElemento</span></h2><br>        <p class="tflag"><img src="<a href="http://team" target="_blank">http://team</a>" /> <a href="/refteam"><span style="background-color:rgb(255,255,0)">NomeGrupo</span></a></p><br>



        <p><span style="background-color:rgb(255,255,0)">NomeFunção</span></p><br>       </div><br>   </div><br>   <div class="content-box"><br>      <h2>Desempenho completo</h2><br>



      <table cellspacing="0" cellpadding="0"><br>      <tbody><br><br>        <tr><br>        <th><span style="background-color:rgb(255,255,0)">Parâmetro1</span></th><br>



        <td><span gestor="param1"><span style="background-color:rgb(255,255,0)">2</span></span></td><br>        </tr><br>        <tr class="divisor"><br>        <td colspan="2">&nbsp;</td><br>



        </tr><br> <br>        <tr><br>        <th><span style="background-color:rgb(255,255,0)">Parâmetro2</span></th><br>        <td><span gestor="param2"><span style="background-color:rgb(255,255,0)">63</span></span></td><br>



        </tr><br><br>        <tr class="odd"><br>        <th><span style="background-color:rgb(255,255,0)">Parâmetro3</span></th><br>        <td><span gestor="param3"><span style="background-color:rgb(255,255,0)">87</span></span></td><br>



        </tr><br>        <tr class="divisor"><br>        <td colspan="2">&nbsp;</td><br>        </tr><br>        <tr class="destaque"><br><br>      </tbody><br>



      </table><br>    </div><br></div><br><br>Obrigado<br>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>

Henrique Dallazuanna<br>Curitiba-Paraná-Brasil<br>25° 25' 40" S 49° 16' 22" O<br>
</div>