<div dir="ltr">obrigado.<div><br></div><div>vou dar uma olhada.</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">Em 19 de agosto de 2013 08:23, Raphael Saldanha <span dir="ltr"><<a href="mailto:rfsaldanha@outlook.com" target="_blank">rfsaldanha@outlook.com</a>></span> escreveu:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


<div><div dir="ltr">Olá Vinícios,<br><br>A um tempo atrás usei este código:<br><font face="Courier New"><br></font><font face="Courier New">require(XML)</font><font face="Courier New"><br></font><font face="Courier New">require(tm)</font><font face="Courier New"><br>

</font><font face="Courier New">library(RCurl)</font><font face="Courier New"><br></font><font face="Courier New">library(RTidyHTML)</font><font face="Courier New"><br></font><font face="Courier New"><br></font><font face="Courier New">u = "<a href="http://observatoriodaimprensa.com.br/news/view/_ed716_as_pesquisas_e_a_volatilidade_das_nuvens" target="_blank">http://observatoriodaimprensa.com.br/news/view/_ed716_as_pesquisas_e_a_volatilidade_das_nuvens</a>"</font><font face="Courier New"><br>

</font><font face="Courier New"><br></font><font face="Courier New">doc.raw <- getURL(u)</font><font face="Courier New"><br></font><font face="Courier New">html <- htmlTreeParse(doc.raw, useInternal = TRUE, encoding = character())</font><font face="Courier New"><br>

</font><font face="Courier New">txt <- xpathApply(html, "//body//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)]", xmlValue)</font><br><br>---<div><br></div><div>Atenciosamente,</div>

<div>Raphael Saldanha</div><div><br></div><div><a href="mailto:rfsaldanha@outlook.com" target="_blank">rfsaldanha@outlook.com</a></div><br><br><div><hr>From: <a href="mailto:viniciusbritor@gmail.com" target="_blank">viniciusbritor@gmail.com</a><br>

Date: Sun, 18 Aug 2013 21:11:04 -0300<br>To: <a href="mailto:r-br@listas.c3sl.ufpr.br" target="_blank">r-br@listas.c3sl.ufpr.br</a><br>Subject: [R-br] Text Mining<div><div class="h5"><br><br><div dir="ltr">Pessoal,<div><br>

</div><div>sabe me dizer se no pacote tm ou no RCurl, existe alguma função para extrair o conteúdo  de uma pagina baixada via getURL? Ou seja, apenas o texto do corpo principal da página.</div>

<div><br></div><div>Abs</div><div><br></div><div><br clear="all"><div><br></div>-- <br><div dir="ltr"><i>Vinicius Brito Rocha.</i><br><i style="font-weight:bold">Estatístico e Atuário </i><i style="font-weight:bold"><br>


M.Sc. Engenharia de Produção/PO</i><br>
<br><br></div>
</div></div>
<br></div></div>_______________________________________________
R-br mailing list
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forne�a c�digo m�nimo reproduz�vel.</div>                                       </div></div>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>

<div dir="ltr"><i>Vinicius Brito Rocha.</i><br><i style="font-weight:bold">Estatístico e Atuário </i><i style="font-weight:bold"><br>M.Sc. Engenharia de Produção/PO</i><br><br><br></div>
</div>