<div dir="ltr"><div><div><div>Olá Leonardo,<br></div>montei um rápido exemplo que, acredito, possa te inspirar.<br><br>library("rvest")<br>lattes.extract <- function(id){<br><br>  # Extração do código fonte<br>  url.fonte <- html(paste("<a href="http://lattes.cnpq.br/">http://lattes.cnpq.br/</a>", id, sep=""))<br>  <br>  # Nome<br>  nome <- html_text(html_nodes(url.fonte, xpath="/html/body/div[1]/div[3]/div/div/div/div[3]/div/div[2]/div"), encoding="UTF8")<br><br>  # Resumo<br>  resumo <- html_text(html_nodes(url.fonte, xpath="/html/body/div[1]/div[3]/div/div/div/div[2]/p"), encoding="UTF8")<br>  <br>  # Endereço Profissional<br>  endereco <- html_text(html_nodes(url.fonte, xpath="/html/body/div[1]/div[3]/div/div/div/div[4]/div/div[2]/div"), encoding="UTF8")<br><br>  # Extraindo apena primeira formação (é possível todas, incluindo os anos)<br>  formacao <- html_text(html_nodes(url.fonte, xpath="/html/body/div[1]/div[3]/div/div/div/div[5]/div/div[2]/div"), encoding="UTF8")<br><br>  return (cbind(nome, resumo, endereco, formacao))<br>}<br><br>lista.ids <- c(7141811368487014, 5235908630509803, 8039053295273558)<br>tabela.saida <- do.call(rbind.data.frame, lapply(lista.ids, lattes.extract))<br><br>View(tabela.saida)<br><br><br></div>Abraços,<br></div>Paulo<br></div><div class="gmail_extra"><br><div class="gmail_quote">Em 24 de março de 2015 02:34, L N <span dir="ltr"><<a href="mailto:leofn3@gmail.com" target="_blank">leofn3@gmail.com</a>></span> escreveu:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Caros,<div><br></div><div>Antes de tudo peço mil desculpas pela imensa ignorância que me assola: sou de ciências sociais e não de programação.</div><div>Segui a sugestão desta lista e utilizei o rvest como indicaram.</div><div><br></div><div><div>install.packages("rvest")</div><div>library("rvest")</div><div>Leolattes <- html("<a href="http://lattes.cnpq.br/7141811368487014" target="_blank">http://lattes.cnpq.br/7141811368487014</a>")</div><div>Leolattes</div><div><br></div><div>Leolattes %>%</div><div>  html_nodes(".nome") %>%</div><div>  html_text()</div></div><div>[1] "Leonardo Fernandes Nascimento"<br></div><div><br></div><div>Deste modo, consigo extrair os dados individualizados: nome, resumo, produção, etc. do Lattes.<br></div><div>Mas tenho alguns problemas:</div><div><br></div><div>1 - Como unificar as informações em uma tabela: Nome, Resumo, Endereço, etc. Não acertei usar o html_table().</div><div><br></div><div>2 - Vou extrair mais de 300 CV Lattes, já tenho uma lista com todas as ID Lattes. <br></div><div>Há como fazer um "for" utilizando o rvest e jogar tudo para uma tabela? </div><div>Caso alguém responda posso colocá-lo como um dos autores do artigo.</div><div>Abs</div><div>Leonardo</div><div><br></div><div><br></div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote"><span class="">Em 22 de março de 2015 12:03, L N <span dir="ltr"><<a href="mailto:leofn3@gmail.com" target="_blank">leofn3@gmail.com</a>></span> escreveu:<br></span><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Olá Pessoal,<div><div class="h5"><div><br></div><div>Alguém que saiba extrair os CV Lattes (XML) via R?</div><div>Tenho listagem de todos os endereços e quero montar um </div><div>banco de dado com isso.</div><div>Há o ScriptLattes para Python mas eu já tentei e não consegui.</div><div>Abs,</div><div><br></div><div><div class="MsoNormal" style="color:rgb(0,0,0);font-family:HelveticaNeue-Light,'Helvetica Neue Light','Helvetica Neue',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px;margin-bottom:0.0001pt"><b><span style="font-size:8pt;font-family:Arial,sans-serif;color:rgb(0,127,64)">Leonardo F. Nascimento</span></b><span style="font-size:6pt;font-family:Arial,sans-serif;color:rgb(0,127,64)"> </span></div><div class="MsoNormal" style="color:rgb(0,0,0);font-family:HelveticaNeue-Light,'Helvetica Neue Light','Helvetica Neue',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px;margin-bottom:0.0001pt"><br></div></div></div></div></div>
</blockquote></div><br></div>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br></div>