Text Mining - R-br - DINF UFPR

mais recente
Modelo Random Forest em ambiente...

Text Mining

mais antigo
'If' dentro do 'Else'

Vinicius Brito Rocha

18 Ago 2013 18 Ago '13

21:11

Pessoal, sabe me dizer se no pacote tm ou no RCurl, existe alguma função para extrair o conteúdo de uma pagina baixada via getURL? Ou seja, apenas o texto do corpo principal da página. Abs -- *Vinicius Brito Rocha.* *Estatístico e Atuário ** M.Sc. Engenharia de Produção/PO*

Anexos:

attachment.htm (text/html — 516 bytes)

Resposta

Faça login para responder on-line Usar software de e-mail

Mostrar respostas por data

Raphael Saldanha

19 Ago 19 Ago

08:23

Olá Vinícios, A um tempo atrás usei este código: require(XML) require(tm) library(RCurl) library(RTidyHTML) u = "http://observatoriodaimprensa.com.br/news/view/_ed716_as_pesquisas_e_a_volat..." doc.raw <- getURL(u) html <- htmlTreeParse(doc.raw, useInternal = TRUE, encoding = character()) txt <- xpathApply(html, "//body//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)]", xmlValue) --- Atenciosamente,Raphael Saldanha rfsaldanha@outlook.com From: viniciusbritor@gmail.com Date: Sun, 18 Aug 2013 21:11:04 -0300 To: r-br@listas.c3sl.ufpr.br Subject: [R-br] Text Mining Pessoal, sabe me dizer se no pacote tm ou no RCurl, existe alguma função para extrair o conteúdo de uma pagina baixada via getURL? Ou seja, apenas o texto do corpo principal da página. Abs -- Vinicius Brito Rocha. Estatístico e Atuário M.Sc. Engenharia de Produção/PO _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.

Resposta

Faça login para responder on-line Usar software de e-mail

Vinicius Brito Rocha

12:12

obrigado. vou dar uma olhada. Em 19 de agosto de 2013 08:23, Raphael Saldanha <rfsaldanha@outlook.com>escreveu:

Olá Vinícios,

A um tempo atrás usei este código:

require(XML) require(tm) library(RCurl) library(RTidyHTML)

u = " http://observatoriodaimprensa.com.br/news/view/_ed716_as_pesquisas_e_a_volat... "

doc.raw <- getURL(u) html <- htmlTreeParse(doc.raw, useInternal = TRUE, encoding = character()) txt <- xpathApply(html, "//body//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)]", xmlValue)

---

Atenciosamente, Raphael Saldanha

rfsaldanha@outlook.com

------------------------------ From: viniciusbritor@gmail.com Date: Sun, 18 Aug 2013 21:11:04 -0300 To: r-br@listas.c3sl.ufpr.br Subject: [R-br] Text Mining

Pessoal,

sabe me dizer se no pacote tm ou no RCurl, existe alguma função para extrair o conteúdo de uma pagina baixada via getURL? Ou seja, apenas o texto do corpo principal da página.

Abs

-- *Vinicius Brito Rocha.* *Estatístico e Atuário ** M.Sc. Engenharia de Produção/PO*

_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.

_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

-- *Vinicius Brito Rocha.* *Estatístico e Atuário ** M.Sc. Engenharia de Produção/PO*

Resposta

Faça login para responder on-line Usar software de e-mail

4610

Idade (dias atrás)

4610

Última atividade (dias atrás)

Visão geral da lista

Baixar

2 comentários

2 participantes

etiquetas

participantes (2)

Raphael Saldanha
Vinicius Brito Rocha