Web Scraping Lattes com R

Olá Pessoal, Alguém que saiba extrair os CV Lattes (XML) via R? Tenho listagem de todos os endereços e quero montar um banco de dado com isso. Há o ScriptLattes para Python mas eu já tentei e não consegui. Abs, *Leonardo F. Nascimento*

Leonardo, Você já tentou dar uma olhada nos pacotes RCurl, XML e rvest? Não haverá nada específico para extração do Lattes, mas não deve ser complicado de implementar. Abraços, Paulo Nogueira Starzynski Em 22 de março de 2015 12:03, L N <leofn3@gmail.com> escreveu:
Olá Pessoal,
Alguém que saiba extrair os CV Lattes (XML) via R? Tenho listagem de todos os endereços e quero montar um banco de dado com isso. Há o ScriptLattes para Python mas eu já tentei e não consegui. Abs,
*Leonardo F. Nascimento*
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Caros, Antes de tudo peço mil desculpas pela imensa ignorância que me assola: sou de ciências sociais e não de programação. Segui a sugestão desta lista e utilizei o rvest como indicaram. install.packages("rvest") library("rvest") Leolattes <- html("http://lattes.cnpq.br/7141811368487014") Leolattes Leolattes %>% html_nodes(".nome") %>% html_text() [1] "Leonardo Fernandes Nascimento" Deste modo, consigo extrair os dados individualizados: nome, resumo, produção, etc. do Lattes. Mas tenho alguns problemas: 1 - Como unificar as informações em uma tabela: Nome, Resumo, Endereço, etc. Não acertei usar o html_table(). 2 - Vou extrair mais de 300 CV Lattes, já tenho uma lista com todas as ID Lattes. Há como fazer um "for" utilizando o rvest e jogar tudo para uma tabela? Caso alguém responda posso colocá-lo como um dos autores do artigo. Abs Leonardo Em 22 de março de 2015 12:03, L N <leofn3@gmail.com> escreveu:
Olá Pessoal,
Alguém que saiba extrair os CV Lattes (XML) via R? Tenho listagem de todos os endereços e quero montar um banco de dado com isso. Há o ScriptLattes para Python mas eu já tentei e não consegui. Abs,
*Leonardo F. Nascimento*

Olá Leonardo, montei um rápido exemplo que, acredito, possa te inspirar. library("rvest") lattes.extract <- function(id){ # Extração do código fonte url.fonte <- html(paste("http://lattes.cnpq.br/", id, sep="")) # Nome nome <- html_text(html_nodes(url.fonte, xpath="/html/body/div[1]/div[3]/div/div/div/div[3]/div/div[2]/div"), encoding="UTF8") # Resumo resumo <- html_text(html_nodes(url.fonte, xpath="/html/body/div[1]/div[3]/div/div/div/div[2]/p"), encoding="UTF8") # Endereço Profissional endereco <- html_text(html_nodes(url.fonte, xpath="/html/body/div[1]/div[3]/div/div/div/div[4]/div/div[2]/div"), encoding="UTF8") # Extraindo apena primeira formação (é possível todas, incluindo os anos) formacao <- html_text(html_nodes(url.fonte, xpath="/html/body/div[1]/div[3]/div/div/div/div[5]/div/div[2]/div"), encoding="UTF8") return (cbind(nome, resumo, endereco, formacao)) } lista.ids <- c(7141811368487014, 5235908630509803, 8039053295273558) tabela.saida <- do.call(rbind.data.frame, lapply(lista.ids, lattes.extract)) View(tabela.saida) Abraços, Paulo Em 24 de março de 2015 02:34, L N <leofn3@gmail.com> escreveu:
Caros,
Antes de tudo peço mil desculpas pela imensa ignorância que me assola: sou de ciências sociais e não de programação. Segui a sugestão desta lista e utilizei o rvest como indicaram.
install.packages("rvest") library("rvest") Leolattes <- html("http://lattes.cnpq.br/7141811368487014") Leolattes
Leolattes %>% html_nodes(".nome") %>% html_text() [1] "Leonardo Fernandes Nascimento"
Deste modo, consigo extrair os dados individualizados: nome, resumo, produção, etc. do Lattes. Mas tenho alguns problemas:
1 - Como unificar as informações em uma tabela: Nome, Resumo, Endereço, etc. Não acertei usar o html_table().
2 - Vou extrair mais de 300 CV Lattes, já tenho uma lista com todas as ID Lattes. Há como fazer um "for" utilizando o rvest e jogar tudo para uma tabela? Caso alguém responda posso colocá-lo como um dos autores do artigo. Abs Leonardo
Em 22 de março de 2015 12:03, L N <leofn3@gmail.com> escreveu:
Olá Pessoal,
Alguém que saiba extrair os CV Lattes (XML) via R? Tenho listagem de todos os endereços e quero montar um banco de dado com isso. Há o ScriptLattes para Python mas eu já tentei e não consegui. Abs,
*Leonardo F. Nascimento*
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Não estou acompanhando a discussão, mas gostaria de fazer uma observação que pode ser útil: no topo de cada página de currículo Lattes há um link para uma versão do currículo em xml. Talvez seja mais fácil escrever um algoritmo para leitura do xml do que do html. -- Jakson Alves de Aquino www.lepem.ufc.br/aquino.php
participantes (3)
-
Jakson Alves de Aquino
-
L N
-
Paulo Nogueira Starzynski