Oi Lucas, vou me intrometer na discussão.<br>Eu também tinha dificuldade com expressões regulares até que aqui na lista me indicaram esse material do Prof. Walmes.<br><br>Veja as aulas 20 e 21. Muito bom.<br><a href="http://www.leg.ufpr.br/~walmes/ensino/ce223-2011-01/">http://www.leg.ufpr.br/~walmes/ensino/ce223-2011-01/</a><br>
<br>Abraços<br>Paulo Nogueira Starzynski<br><br><div class="gmail_quote">Em 22 de outubro de 2011 20:28, Lucas Barbosa <span dir="ltr"><<a href="mailto:lucasbcr@gmail.com">lucasbcr@gmail.com</a>></span> escreveu:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;"><div>Eu costumo usar a <b>strsplit</b>, mas só pq ainda não criei coragem de aprender a usar isso aí que o Henrique mostrou.</div>
<div><div><br><br><div class="gmail_quote">Em 22 de outubro de 2011 14:30, Henrique Dallazuanna <span dir="ltr"><<a href="mailto:wwwhsd@gmail.com" target="_blank">wwwhsd@gmail.com</a>></span> escreveu:<div><div></div>
<div class="h5"><br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">Tente assim<br>
<br>
library(XML)<br>
<br>
url <- "<a href="http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380" target="_blank">http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380</a>"<br>
<br>
Lines <- readLines(url)<br>
<div>h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE)<br>
<br>
</div> xpathApply(h, "//h1|//p[@class='sub_tit']|//div[@class='clr']//p[@class='left']",<br>
xmlValue)<br>
<br>
2011/10/21 Daniel Dantas <<a href="mailto:daniel.dantas@hotmail.com" target="_blank">daniel.dantas@hotmail.com</a>>:<br>
<div><div></div><div>> Pessoal, como faço pra "limpar" as strings que eu não quero que<br>
> surgem quando executo o comando abaixo?<br>
><br>
> #################<br>
> url <-<br>
> "<a href="http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380" target="_blank">http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380</a>"<br>
> dados=readLines(paste(url))<br>
> textos = sapply(strsplit(dados[c(34,35,145)],"\t"),FUN =function(x)<br>
> paste(x,collapse=""))<br>
> textos<br>
> #################<br>
><br>
> a saída do comando acima é esta:<br>
><br>
> [1] "<meta property=\"og:title\" content=\"Em Curitiba, seminário mostra<br>
> como Lei Geral contribui para o desenvolvimento municipal\" />"<br>
> [2] "<meta property=\"og:description\" content=\"Sebrae/PR reúne lideranças<br>
> da região centro-sul para apresentar casos de sucesso e mostrar formas de<br>
> implantação da legislação\" />"<br>
> [3] "                    <p class=\"left\">04.08.2011 | 09:00"<br>
><br>
><br>
> e eu soh quero:<br>
> da 1° linha: Em Curitiba, seminário mostra como Lei Geral contribui para o<br>
> desenvolvimento municipal<br>
> da 2° linha: Sebrae/PR reúne lideranças da região centro-sul para apresentar<br>
> casos de sucesso e mostrar formas de implantação da legislação<br>
> da 3° linha: 04.08.2011<br>
><br>
> então, para facilitar, os excessos são:<br>
> "<meta property=\<br>
> "og:title\<br>
> " content=\<br>
> "og:description\"<br>
> <p class=\"left\"><br>
>  | 09:00"  (esse aqui varia quando mudo a URL)<br>
><br>
> outra URL para testar, caso<br>
> precisem: <a href="http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12201212" target="_blank">http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12201212</a><br>
><br>
> estava lendo no arquivo de e-mails da lista, sobre strsplit mas n to<br>
> conseguindo usar.... até o Luiz, hoje mesmo usou essa função mas ele só<br>
> "pegou" o que queria, e eu quero remover os "excessos"<br>
><br>
> Tenho que fazer isso para vários outros sites, então quero só jogar a URL e<br>
> que ele me retorne o título, subtítulo e data da notícia e o link.<br>
><br>
> Um abraço e meu agradecimento desde já!!<br>
><br>
><br>
>> From: <a href="mailto:wwwhsd@gmail.com" target="_blank">wwwhsd@gmail.com</a><br>
>> Date: Thu, 20 Oct 2011 21:07:01 -0200<br>
>> To: <a href="mailto:r-br@listas.c3sl.ufpr.br" target="_blank">r-br@listas.c3sl.ufpr.br</a><br>
>> Subject: Re: [R-br] Coletar informações (texto) de sites<br>
>><br>
>> Tente assim:<br>
>><br>
>> library(XML)<br>
>> u <- "<a href="http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=%s" target="_blank">http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=%s</a>"<br>
>><br>
>> # Quais munícipios vc precisa<br>
>> ids <- c(100141003, 100141095)<br>
>><br>
>> # Usando XPATH query<br>
>> fGetNome <- function(x, ...) {<br>
>> Lines <- readLines(x)<br>
>> h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE)<br>
>> gsub("\n|\t", "", xpathApply(h, "//table//td[@width='80%']", xmlValue))<br>
>> }<br>
>><br>
>> lapply(sprintf(u, ids), fGetNome)<br>
>><br>
>><br>
>><br>
>> 2011/10/20 Daniel Dantas <<a href="mailto:daniel.dantas@hotmail.com" target="_blank">daniel.dantas@hotmail.com</a>>:<br>
>> > Boa tarde pessoal,<br>
>> ><br>
>> > Existe alguma maneira de "pedir" para o R entrar neste site<br>
>> > <a href="http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003" target="_blank">http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003</a> e me<br>
>> > retornar o nome do prefeito de 2008 e de 2004?<br>
>> ><br>
>> > O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 para<br>
>> > ver<br>
>> > quem foi reeleito, se está no 1° ou 2° mandato.<br>
>> ><br>
>> > Para cada município, o link muda apenas o final, então tem como<br>
>> > programar<br>
>> > para que ele abra os links de todos os municípios do estado do PARANÁ,<br>
>> > mas<br>
>> > não sei como fazer ele me retornar o nome do prefeito.<br>
>> ><br>
>> > Algo interessante que descobri agora, não sei é por causa do Internet<br>
>> > Explorer ou é do site, mas se apertarmos com o botão direito no campo<br>
>> > onde<br>
>> > está escrito o nome do prefeito, surge-se a opção de exportar para Excel<br>
>> > as<br>
>> > informações daquele ano. Eu poderia fazer isso 399 (qtde de municípios<br>
>> > do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir para o<br>
>> > R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho salvar<br>
>> > 798<br>
>> > planilhas.<br>
>> ><br>
>> > Alguém sabe um procedimento mais simples? Espero que eu tenha consigo me<br>
>> > fazer entender.<br>
>> ><br>
>> > Obrigado,<br>
>> > Daniel<br>
>> ><br>
>> > _______________________________________________<br>
>> > R-br mailing list<br>
>> > <a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
>> > <a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
>> > Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça<br>
>> > código<br>
>> > mínimo reproduzível.<br>
>> ><br>
>><br>
>><br>
>><br>
>> --<br>
>> Henrique Dallazuanna<br>
>> Curitiba-Paraná-Brasil<br>
>> 25° 25' 40" S 49° 16' 22" O<br>
>> _______________________________________________<br>
>> R-br mailing list<br>
>> <a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
>> <a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
>> Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça<br>
>> código mínimo reproduzível.<br>
><br>
> _______________________________________________<br>
> R-br mailing list<br>
> <a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
> <a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
> Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código<br>
> mínimo reproduzível.<br>
><br>
<br>
<br>
<br>
--<br>
Henrique Dallazuanna<br>
Curitiba-Paraná-Brasil<br>
25° 25' 40" S 49° 16' 22" O<br>
_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br>
</div></div></blockquote></div></div></div><br></div></div>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br>