[R-br] Tratar código HTML no R
Paulo Nogueira
paulons em gmail.com
Domingo Novembro 27 11:51:20 BRST 2011
Saudações a todos!
Preciso aprender como tratar HTML no R para identificar alguns padrões na
estrutura do código, extrair e guardar determinadas informações.
Alguém costuma fazer algo do tipo e poderia informar os pacotes mais
indicados para esse trabalho?
Terei de acessar cerca de 300 páginas semanalmente, e extrais alguns
parâmetros.
O HTML abaixo é um trecho do código que terei de lidar, e preciso extrair
as informações destacadas.
Alguém pode me sugerir o início do caminho das pedras, como algum pacote
e/ou funções específicas?
<div id="individual-completo">
<div class="title-box">
<img src="http://address.jpg" gestor="foto" class="foto" />
<div>
<div class="colright">
<span>Participações: 22</span>
<a href="http://players" class="visite">Saiba Mais</a>
</div>
<h2>NomeElemento</h2>
<p class="tflag"><img src="http://team" /> <a href="/refteam">
NomeGrupo</a></p>
<p>NomeFunção</p>
</div>
</div>
<div class="content-box">
<h2>Desempenho completo</h2>
<table cellspacing="0" cellpadding="0">
<tbody>
<tr>
<th>Parâmetro1</th>
<td><span gestor="param1">2</span></td>
</tr>
<tr class="divisor">
<td colspan="2"> </td>
</tr>
<tr>
<th>Parâmetro2</th>
<td><span gestor="param2">63</span></td>
</tr>
<tr class="odd">
<th>Parâmetro3</th>
<td><span gestor="param3">87</span></td>
</tr>
<tr class="divisor">
<td colspan="2"> </td>
</tr>
<tr class="destaque">
</tbody>
</table>
</div>
</div>
Obrigado
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20111127/67a42bd3/attachment.html>
Mais detalhes sobre a lista de discussão R-br