<html>

<head>

<style><!--

.hmmessage P

{

margin:0px;

padding:0px

}

body.hmmessage

{

font-size: 10pt;

font-family:Tahoma

}

--></style>

</head>

<body class='hmmessage'><div dir='ltr'>

Pessoal, como faço pra "limpar" as strings que eu não quero que surgem quando executo o comando abaixo?<BR>

 <BR>

#################<BR>

url <- "<A href="http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380">http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380</A>"<BR>

dados=readLines(paste(url))<BR>textos = sapply(strsplit(dados[c(34,35,145)],"\t"),FUN =function(x) <BR>paste(x,collapse=""))<BR>

textos<BR>

#################<BR>

 <BR>

a saída do comando acima é esta:<BR><SPAN class=Apple-style-span style="WORD-SPACING: 0px; FONT: medium Arial; TEXT-TRANSFORM: none; COLOR: rgb(0,0,0); TEXT-INDENT: 0px; WHITE-SPACE: normal; LETTER-SPACING: normal; BORDER-COLLAPSE: separate; -webkit-text-size-adjust: auto; orphans: 2; widows: 2; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-stroke-width: 0px"><SPAN class=Apple-style-span style="FONT-SIZE: 13px; LINE-HEIGHT: 17px; FONT-FAMILY: 'Lucida Console'"><PRE class=GD40030CLR style="FONT-SIZE: 10pt! important; MARGIN: 0px; BORDER-TOP-STYLE: none; LINE-HEIGHT: 1.3; FONT-FAMILY: 'Lucida Console'; BORDER-RIGHT-STYLE: none; BORDER-LEFT-STYLE: none; BORDER-BOTTOM-STYLE: none; outline-style: none; outline-width: initial; outline-color: initial" tabIndex=0>[1] "<meta property=\"og:title\" content=\"Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal\" />"                                             

[2] "<meta property=\"og:description\" content=\"Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação\" />"

[3] "                    <p class=\"left\">04.08.2011 | 09:00"    </PRE></SPAN></SPAN>

 <BR>

e eu soh quero:<BR>

da 1° linha: Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal<BR>

da 2° linha: Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação<BR>

da 3° linha: 04.08.2011<BR>

 <BR>

então, para facilitar, os excessos são:<BR>

"<meta property=\<BR>

"og:title\<BR>

" content=\<BR>

"og:description\"<BR>

<p class=\"left\"><BR>

 | 09:00"  (esse aqui varia quando mudo a URL)<BR>

 <BR>

outra URL para testar, caso precisem: <A href="http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12201212">http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12201212</A><BR>

 <BR>

estava lendo no arquivo de e-mails da lista, sobre strsplit mas n to conseguindo usar.... até o Luiz, hoje mesmo usou essa função mas ele só "pegou" o que queria, e eu quero remover os "excessos" <BR>

 <BR>

Tenho que fazer isso para vários outros sites, então quero só jogar a URL e que ele me retorne o título, subtítulo e data da notícia e o link.<BR>

 <BR>

Um abraço e meu agradecimento desde já!!<BR>

 <BR>

 <BR>

<DIV>

> From: wwwhsd@gmail.com<BR>> Date: Thu, 20 Oct 2011 21:07:01 -0200<BR>> To: r-br@listas.c3sl.ufpr.br<BR>> Subject: Re: [R-br] Coletar informações (texto) de sites<BR>> <BR>> Tente assim:<BR>> <BR>> library(XML)<BR>> u <- "http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=%s"<BR>> <BR>> # Quais munícipios vc precisa<BR>> ids <- c(100141003, 100141095)<BR>> <BR>> # Usando XPATH query<BR>> fGetNome <- function(x, ...) {<BR>> Lines <- readLines(x)<BR>> h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE)<BR>> gsub("\n|\t", "", xpathApply(h, "//table//td[@width='80%']", xmlValue))<BR>> }<BR>> <BR>> lapply(sprintf(u, ids), fGetNome)<BR>> <BR>> <BR>> <BR>> 2011/10/20 Daniel Dantas <daniel.dantas@hotmail.com>:<BR>> > Boa tarde pessoal,<BR>> ><BR>> > Existe alguma maneira de "pedir" para o R entrar neste site<BR>> > http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e me<BR>> > retornar o nome do prefeito de 2008 e de 2004?<BR>> ><BR>> > O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 para ver<BR>> > quem foi reeleito, se está no 1° ou 2° mandato.<BR>> ><BR>> > Para cada município, o link muda apenas o final, então tem como programar<BR>> > para que ele abra os links de todos os municípios do estado do PARANÁ, mas<BR>> > não sei como fazer ele me retornar o nome do prefeito.<BR>> ><BR>> > Algo interessante que descobri agora, não sei é por causa do Internet<BR>> > Explorer ou é do site, mas se apertarmos com o botão direito no campo onde<BR>> > está escrito o nome do prefeito, surge-se a opção de exportar para Excel as<BR>> > informações daquele ano. Eu poderia fazer isso 399 (qtde de municípios<BR>> > do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir para o<BR>> > R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho salvar 798<BR>> > planilhas.<BR>> ><BR>> > Alguém sabe um procedimento mais simples? Espero que eu tenha consigo me<BR>> > fazer entender.<BR>> ><BR>> > Obrigado,<BR>> > Daniel<BR>> ><BR>> > _______________________________________________<BR>> > R-br mailing list<BR>> > R-br@listas.c3sl.ufpr.br<BR>> > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br<BR>> > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código<BR>> > mínimo reproduzível.<BR>> ><BR>> <BR>> <BR>> <BR>> -- <BR>> Henrique Dallazuanna<BR>> Curitiba-Paraná-Brasil<BR>> 25° 25' 40" S 49° 16' 22" O<BR>> _______________________________________________<BR>> R-br mailing list<BR>> R-br@listas.c3sl.ufpr.br<BR>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br<BR>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.<BR></DIV>                                        </div></body>

</html>