[R-br] Text Mining
Raphael Saldanha
rfsaldanha em outlook.com
Segunda Agosto 19 08:23:31 BRT 2013
Olá Vinícios,
A um tempo atrás usei este código:
require(XML)
require(tm)
library(RCurl)
library(RTidyHTML)
u = "http://observatoriodaimprensa.com.br/news/view/_ed716_as_pesquisas_e_a_volatilidade_das_nuvens"
doc.raw <- getURL(u)
html <- htmlTreeParse(doc.raw, useInternal = TRUE, encoding = character())
txt <- xpathApply(html, "//body//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)]", xmlValue)
---
Atenciosamente,Raphael Saldanha
rfsaldanha em outlook.com
From: viniciusbritor em gmail.com
Date: Sun, 18 Aug 2013 21:11:04 -0300
To: r-br em listas.c3sl.ufpr.br
Subject: [R-br] Text Mining
Pessoal,
sabe me dizer se no pacote tm ou no RCurl, existe alguma função para extrair o conteúdo de uma pagina baixada via getURL? Ou seja, apenas o texto do corpo principal da página.
Abs
--
Vinicius Brito Rocha.
Estatístico e Atuário
M.Sc. Engenharia de Produção/PO
_______________________________________________
R-br mailing list
R-br em listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20130819/90566445/attachment.html>
Mais detalhes sobre a lista de discussão R-br