Benilton e Henrique, estou conseguindo progredir.<br>Muito obrigado.<br><br>abs<br>Paulo<br><br><div class="gmail_quote">Em 28 de novembro de 2011 21:47, Henrique Dallazuanna <span dir="ltr"><<a href="mailto:wwwhsd@gmail.com">wwwhsd@gmail.com</a>></span> escreveu:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">Paulo, <div><br></div><div>Você pode fazer uso do XPATH do pacote XML:</div><div><br></div><div>
<div>Lines <- '<div id="individual-completo"> </div><div><div></div><div class="h5"><div>  <div class="title-box"></div>

<div>      <img src="<a href="http://address.jpg" target="_blank">http://address.jpg</a>" gestor="foto" class="foto" /></div><div>      <div></div><div>        <div class="colright"></div>


<div>          <span>Participações: 22</span></div><div>          <a href="<a href="http://players" target="_blank">http://players</a>" class="visite">Saiba Mais</a></div><div>
        </div></div>

<div>        <h2>NomeElemento</h2></div><div>        <p class="tflag"><img src="<a href="http://team" target="_blank">http://team</a>" /> <a href="/refteam">NomeGrupo</a></p></div>


<div>        <p>NomeFunção</p></div><div>       </div></div><div>   </div></div><div>   <div class="content-box"></div><div>      <h2>Desempenho completo</h2></div><div>


      <table cellspacing="0" cellpadding="0"></div><div>      <tbody></div><div><br></div><div>        <tr></div><div>        <th>Parâmetro1</th></div><div>        <td><span gestor="param1">2</span></td></div>


<div>        </tr></div><div>        <tr class="divisor"></div><div>        <td colspan="2">&nbsp;</td></div><div>        </tr></div><div> </div><div>        <tr></div>


<div>        <th>Parâmetro2</th></div><div>        <td><span gestor="param2">63</span></td></div><div>        </tr></div><div><br></div><div>        <tr class="odd"></div>


<div>        <th>Parâmetro3</th></div><div>        <td><span gestor="param3">87</span></td></div><div>        </tr></div><div>        <tr class="divisor"></div>


<div>        <td colspan="2">&nbsp;</td></div><div>        </tr></div><div>        <tr class="destaque"></div><div><br></div><div>      </tbody></div><div>      </table></div>


<div>    </div></div></div></div><div></div>'</div><div><br></div><div>h <- htmlTreeParse(Lines, useInternalNodes = TRUE)</div><div>matrix(xpathApply(h, "//th|//td//span", xmlValue), ncol = 2, byrow = TRUE)</div>


<br><div class="gmail_quote">2011/11/27 Paulo Nogueira <span dir="ltr"><<a href="mailto:paulons@gmail.com" target="_blank">paulons@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<div><div></div><div class="h5">

Saudações a todos!<br><br>Preciso aprender como tratar HTML no R para identificar alguns padrões na estrutura do código, extrair e guardar determinadas informações.<br>Alguém costuma fazer algo do tipo e poderia informar os pacotes mais indicados para esse trabalho?<br>




<br>Terei de acessar cerca de 300 páginas semanalmente, e extrais alguns parâmetros.<br>O HTML abaixo é um trecho do código que terei de lidar, e preciso extrair as informações destacadas.<br><br>Alguém pode me sugerir o início do caminho das pedras, como algum pacote e/ou funções específicas?<br>




<br><div id="individual-completo"> <br>  <div class="title-box"><br>      <img src="<a href="http://address.jpg" target="_blank">http://address.jpg</a>" gestor="foto" class="foto" /><br>




      <div><br>        <div class="colright"><br>          <span><span style="background-color: rgb(255, 255, 0);">Participações: 22</span></span><br>          <a href="<a href="http://players" target="_blank">http://players</a>" class="visite">Saiba Mais</a><br>




        </div><br>        <h2><span style="background-color: rgb(255, 255, 0);">NomeElemento</span></h2><br>        <p class="tflag"><img src="<a href="http://team" target="_blank">http://team</a>" /> <a href="/refteam"><span style="background-color: rgb(255, 255, 0);">NomeGrupo</span></a></p><br>




        <p><span style="background-color: rgb(255, 255, 0);">NomeFunção</span></p><br>       </div><br>   </div><br>   <div class="content-box"><br>      <h2>Desempenho completo</h2><br>




      <table cellspacing="0" cellpadding="0"><br>      <tbody><br><br>        <tr><br>        <th><span style="background-color: rgb(255, 255, 0);">Parâmetro1</span></th><br>




        <td><span gestor="param1"><span style="background-color: rgb(255, 255, 0);">2</span></span></td><br>        </tr><br>        <tr class="divisor"><br>        <td colspan="2">&nbsp;</td><br>




        </tr><br> <br>        <tr><br>        <th><span style="background-color: rgb(255, 255, 0);">Parâmetro2</span></th><br>        <td><span gestor="param2"><span style="background-color: rgb(255, 255, 0);">63</span></span></td><br>




        </tr><br><br>        <tr class="odd"><br>        <th><span style="background-color: rgb(255, 255, 0);">Parâmetro3</span></th><br>        <td><span gestor="param3"><span style="background-color: rgb(255, 255, 0);">87</span></span></td><br>




        </tr><br>        <tr class="divisor"><br>        <td colspan="2">&nbsp;</td><br>        </tr><br>        <tr class="destaque"><br><br>      </tbody><br>




      </table><br>    </div><br></div><br><br>Obrigado<br>
<br></div></div>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><font color="#888888"><br><br clear="all">
<div><br></div>-- <br>

Henrique Dallazuanna<br>Curitiba-Paraná-Brasil<br>25° 25' 40" S 49° 16' 22" O<br>
</font></div>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br>