
Benilton e Henrique, estou conseguindo progredir. Muito obrigado. abs Paulo Em 28 de novembro de 2011 21:47, Henrique Dallazuanna <wwwhsd@gmail.com>escreveu:
Paulo,
Você pode fazer uso do XPATH do pacote XML:
Lines <- '<div id="individual-completo"> <div class="title-box"> <img src="http://address.jpg" gestor="foto" class="foto" /> <div> <div class="colright"> <span>Participações: 22</span> <a href="http://players" class="visite">Saiba Mais</a> </div> <h2>NomeElemento</h2> <p class="tflag"><img src="http://team" /> <a href="/refteam">NomeGrupo</a></p> <p>NomeFunção</p> </div> </div> <div class="content-box"> <h2>Desempenho completo</h2> <table cellspacing="0" cellpadding="0"> <tbody>
<tr> <th>Parâmetro1</th> <td><span gestor="param1">2</span></td> </tr> <tr class="divisor"> <td colspan="2"> </td> </tr>
<tr> <th>Parâmetro2</th> <td><span gestor="param2">63</span></td> </tr>
<tr class="odd"> <th>Parâmetro3</th> <td><span gestor="param3">87</span></td> </tr> <tr class="divisor"> <td colspan="2"> </td> </tr> <tr class="destaque">
</tbody> </table> </div> </div>'
h <- htmlTreeParse(Lines, useInternalNodes = TRUE) matrix(xpathApply(h, "//th|//td//span", xmlValue), ncol = 2, byrow = TRUE)
2011/11/27 Paulo Nogueira <paulons@gmail.com>
Saudações a todos!
Preciso aprender como tratar HTML no R para identificar alguns padrões na estrutura do código, extrair e guardar determinadas informações. Alguém costuma fazer algo do tipo e poderia informar os pacotes mais indicados para esse trabalho?
Terei de acessar cerca de 300 páginas semanalmente, e extrais alguns parâmetros. O HTML abaixo é um trecho do código que terei de lidar, e preciso extrair as informações destacadas.
Alguém pode me sugerir o início do caminho das pedras, como algum pacote e/ou funções específicas?
<div id="individual-completo"> <div class="title-box"> <img src="http://address.jpg" gestor="foto" class="foto" /> <div> <div class="colright"> <span>Participações: 22</span> <a href="http://players" class="visite">Saiba Mais</a> </div> <h2>NomeElemento</h2> <p class="tflag"><img src="http://team" /> <a href="/refteam"> NomeGrupo</a></p> <p>NomeFunção</p> </div> </div> <div class="content-box"> <h2>Desempenho completo</h2> <table cellspacing="0" cellpadding="0"> <tbody>
<tr> <th>Parâmetro1</th> <td><span gestor="param1">2</span></td> </tr> <tr class="divisor"> <td colspan="2"> </td> </tr>
<tr> <th>Parâmetro2</th> <td><span gestor="param2">63</span></td> </tr>
<tr class="odd"> <th>Parâmetro3</th> <td><span gestor="param3">87</span></td> </tr> <tr class="divisor"> <td colspan="2"> </td> </tr> <tr class="destaque">
</tbody> </table> </div> </div>
Obrigado
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.