<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 12pt;
font-family:Calibri
}
--></style></head>
<body class='hmmessage'><div dir='ltr'>Olá Vinícios,<br><br>A um tempo atrás usei este código:<br><font style="" face="Courier New"><br></font><font style="" face="Courier New">require(XML)</font><font style="" face="Courier New"><br></font><font style="" face="Courier New">require(tm)</font><font style="" face="Courier New"><br></font><font style="" face="Courier New">library(RCurl)</font><font style="" face="Courier New"><br></font><font style="" face="Courier New">library(RTidyHTML)</font><font style="" face="Courier New"><br></font><font style="" face="Courier New"><br></font><font style="" face="Courier New">u = "http://observatoriodaimprensa.com.br/news/view/_ed716_as_pesquisas_e_a_volatilidade_das_nuvens"</font><font style="" face="Courier New"><br></font><font style="" face="Courier New"><br></font><font style="" face="Courier New">doc.raw <- getURL(u)</font><font style="" face="Courier New"><br></font><font style="" face="Courier New">html <- htmlTreeParse(doc.raw, useInternal = TRUE, encoding = character())</font><font style="" face="Courier New"><br></font><font style="" face="Courier New">txt <- xpathApply(html, "//body//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)]", xmlValue)</font><br><br>---<div><br></div><div>Atenciosamente,</div><div>Raphael Saldanha</div><div><br></div><div>rfsaldanha@outlook.com</div><br><br><div><hr id="stopSpelling">From: viniciusbritor@gmail.com<br>Date: Sun, 18 Aug 2013 21:11:04 -0300<br>To: r-br@listas.c3sl.ufpr.br<br>Subject: [R-br] Text Mining<br><br><div dir="ltr">Pessoal,<div><br></div><div>sabe me dizer se no pacote tm ou no RCurl, existe alguma função para extrair o conteúdo  de uma pagina baixada via getURL? Ou seja, apenas o texto do corpo principal da página.</div>

<div><br></div><div>Abs</div><div><br></div><div><br clear="all"><div><br></div>-- <br><div dir="ltr"><i>Vinicius Brito Rocha.</i><br><i style="font-weight:bold;">Estatístico e Atuário </i><i style="font-weight:bold;"><br>
M.Sc. Engenharia de Produção/PO</i><br>
<br><br></div>
</div></div>
<br>_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.</div>                                      </div></body>
</html>