[R-br] Text Mining
Vinicius Brito Rocha
viniciusbritor em gmail.com
Segunda Agosto 19 12:12:57 BRT 2013
obrigado.
vou dar uma olhada.
Em 19 de agosto de 2013 08:23, Raphael Saldanha
<rfsaldanha em outlook.com>escreveu:
> Olá Vinícios,
>
> A um tempo atrás usei este código:
>
> require(XML)
> require(tm)
> library(RCurl)
> library(RTidyHTML)
>
> u = "
> http://observatoriodaimprensa.com.br/news/view/_ed716_as_pesquisas_e_a_volatilidade_das_nuvens
> "
>
> doc.raw <- getURL(u)
> html <- htmlTreeParse(doc.raw, useInternal = TRUE, encoding = character())
> txt <- xpathApply(html,
> "//body//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)]",
> xmlValue)
>
> ---
>
> Atenciosamente,
> Raphael Saldanha
>
> rfsaldanha em outlook.com
>
>
> ------------------------------
> From: viniciusbritor em gmail.com
> Date: Sun, 18 Aug 2013 21:11:04 -0300
> To: r-br em listas.c3sl.ufpr.br
> Subject: [R-br] Text Mining
>
>
> Pessoal,
>
> sabe me dizer se no pacote tm ou no RCurl, existe alguma função para
> extrair o conteúdo de uma pagina baixada via getURL? Ou seja, apenas o
> texto do corpo principal da página.
>
> Abs
>
>
>
> --
> *Vinicius Brito Rocha.*
> *Estatístico e Atuário **
> M.Sc. Engenharia de Produção/PO*
>
>
>
> _______________________________________________ R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de
> postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo
> reproduz�vel.
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
--
*Vinicius Brito Rocha.*
*Estatístico e Atuário **
M.Sc. Engenharia de Produção/PO*
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20130819/1ec3f867/attachment.html>
Mais detalhes sobre a lista de discussão R-br