
Saudações a todos! Preciso aprender como tratar HTML no R para identificar alguns padrões na estrutura do código, extrair e guardar determinadas informações. Alguém costuma fazer algo do tipo e poderia informar os pacotes mais indicados para esse trabalho? Terei de acessar cerca de 300 páginas semanalmente, e extrais alguns parâmetros. O HTML abaixo é um trecho do código que terei de lidar, e preciso extrair as informações destacadas. Alguém pode me sugerir o início do caminho das pedras, como algum pacote e/ou funções específicas? <div id="individual-completo"> <div class="title-box"> <img src="http://address.jpg" gestor="foto" class="foto" /> <div> <div class="colright"> <span>Participações: 22</span> <a href="http://players" class="visite">Saiba Mais</a> </div> <h2>NomeElemento</h2> <p class="tflag"><img src="http://team" /> <a href="/refteam"> NomeGrupo</a></p> <p>NomeFunção</p> </div> </div> <div class="content-box"> <h2>Desempenho completo</h2> <table cellspacing="0" cellpadding="0"> <tbody> <tr> <th>Parâmetro1</th> <td><span gestor="param1">2</span></td> </tr> <tr class="divisor"> <td colspan="2"> </td> </tr> <tr> <th>Parâmetro2</th> <td><span gestor="param2">63</span></td> </tr> <tr class="odd"> <th>Parâmetro3</th> <td><span gestor="param3">87</span></td> </tr> <tr class="divisor"> <td colspan="2"> </td> </tr> <tr class="destaque"> </tbody> </table> </div> </div> Obrigado