[R-br] Tratar código HTML no R

Paulo Nogueira paulons em gmail.com
Domingo Novembro 27 11:51:20 BRST 2011


Saudações a todos!

Preciso aprender como tratar HTML no R para identificar alguns padrões na
estrutura do código, extrair e guardar determinadas informações.
Alguém costuma fazer algo do tipo e poderia informar os pacotes mais
indicados para esse trabalho?

Terei de acessar cerca de 300 páginas semanalmente, e extrais alguns
parâmetros.
O HTML abaixo é um trecho do código que terei de lidar, e preciso extrair
as informações destacadas.

Alguém pode me sugerir o início do caminho das pedras, como algum pacote
e/ou funções específicas?

<div id="individual-completo">
  <div class="title-box">
      <img src="http://address.jpg" gestor="foto" class="foto" />
      <div>
        <div class="colright">
          <span>Participações: 22</span>
          <a href="http://players" class="visite">Saiba Mais</a>
        </div>
        <h2>NomeElemento</h2>
        <p class="tflag"><img src="http://team" /> <a href="/refteam">
NomeGrupo</a></p>
        <p>NomeFunção</p>
       </div>
   </div>
   <div class="content-box">
      <h2>Desempenho completo</h2>
      <table cellspacing="0" cellpadding="0">
      <tbody>

        <tr>
        <th>Parâmetro1</th>
        <td><span gestor="param1">2</span></td>
        </tr>
        <tr class="divisor">
        <td colspan="2"> </td>
        </tr>

        <tr>
        <th>Parâmetro2</th>
        <td><span gestor="param2">63</span></td>
        </tr>

        <tr class="odd">
        <th>Parâmetro3</th>
        <td><span gestor="param3">87</span></td>
        </tr>
        <tr class="divisor">
        <td colspan="2"> </td>
        </tr>
        <tr class="destaque">

      </tbody>
      </table>
    </div>
</div>

Obrigado
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20111127/67a42bd3/attachment.html>


Mais detalhes sobre a lista de discussão R-br