[R-br] Tratar código HTML no R

Paulo Nogueira paulons em gmail.com
Terça Novembro 29 09:08:19 BRST 2011


Benilton e Henrique, estou conseguindo progredir.
Muito obrigado.

abs
Paulo

Em 28 de novembro de 2011 21:47, Henrique Dallazuanna
<wwwhsd em gmail.com>escreveu:

> Paulo,
>
> Você pode fazer uso do XPATH do pacote XML:
>
> Lines <- '<div id="individual-completo">
>   <div class="title-box">
>       <img src="http://address.jpg" gestor="foto" class="foto" />
>       <div>
>         <div class="colright">
>           <span>Participações: 22</span>
>           <a href="http://players" class="visite">Saiba Mais</a>
>         </div>
>         <h2>NomeElemento</h2>
>         <p class="tflag"><img src="http://team" /> <a
> href="/refteam">NomeGrupo</a></p>
>         <p>NomeFunção</p>
>        </div>
>    </div>
>    <div class="content-box">
>       <h2>Desempenho completo</h2>
>       <table cellspacing="0" cellpadding="0">
>       <tbody>
>
>         <tr>
>         <th>Parâmetro1</th>
>         <td><span gestor="param1">2</span></td>
>         </tr>
>         <tr class="divisor">
>         <td colspan="2"> </td>
>         </tr>
>
>         <tr>
>         <th>Parâmetro2</th>
>         <td><span gestor="param2">63</span></td>
>         </tr>
>
>         <tr class="odd">
>         <th>Parâmetro3</th>
>         <td><span gestor="param3">87</span></td>
>         </tr>
>         <tr class="divisor">
>         <td colspan="2"> </td>
>         </tr>
>         <tr class="destaque">
>
>       </tbody>
>       </table>
>     </div>
> </div>'
>
> h <- htmlTreeParse(Lines, useInternalNodes = TRUE)
> matrix(xpathApply(h, "//th|//td//span", xmlValue), ncol = 2, byrow = TRUE)
>
> 2011/11/27 Paulo Nogueira <paulons em gmail.com>
>
>> Saudações a todos!
>>
>> Preciso aprender como tratar HTML no R para identificar alguns padrões na
>> estrutura do código, extrair e guardar determinadas informações.
>> Alguém costuma fazer algo do tipo e poderia informar os pacotes mais
>> indicados para esse trabalho?
>>
>> Terei de acessar cerca de 300 páginas semanalmente, e extrais alguns
>> parâmetros.
>> O HTML abaixo é um trecho do código que terei de lidar, e preciso extrair
>> as informações destacadas.
>>
>> Alguém pode me sugerir o início do caminho das pedras, como algum pacote
>> e/ou funções específicas?
>>
>> <div id="individual-completo">
>>   <div class="title-box">
>>       <img src="http://address.jpg" gestor="foto" class="foto" />
>>       <div>
>>         <div class="colright">
>>           <span>Participações: 22</span>
>>           <a href="http://players" class="visite">Saiba Mais</a>
>>         </div>
>>         <h2>NomeElemento</h2>
>>         <p class="tflag"><img src="http://team" /> <a href="/refteam">
>> NomeGrupo</a></p>
>>         <p>NomeFunção</p>
>>        </div>
>>    </div>
>>    <div class="content-box">
>>       <h2>Desempenho completo</h2>
>>       <table cellspacing="0" cellpadding="0">
>>       <tbody>
>>
>>         <tr>
>>         <th>Parâmetro1</th>
>>         <td><span gestor="param1">2</span></td>
>>         </tr>
>>         <tr class="divisor">
>>         <td colspan="2"> </td>
>>         </tr>
>>
>>         <tr>
>>         <th>Parâmetro2</th>
>>         <td><span gestor="param2">63</span></td>
>>         </tr>
>>
>>         <tr class="odd">
>>         <th>Parâmetro3</th>
>>         <td><span gestor="param3">87</span></td>
>>         </tr>
>>         <tr class="divisor">
>>         <td colspan="2"> </td>
>>         </tr>
>>         <tr class="destaque">
>>
>>       </tbody>
>>       </table>
>>     </div>
>> </div>
>>
>> Obrigado
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
>
>
>
> --
> Henrique Dallazuanna
> Curitiba-Paraná-Brasil
> 25° 25' 40" S 49° 16' 22" O
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20111129/e63c5a26/attachment.html>


Mais detalhes sobre a lista de discussão R-br