Web Scraping Lattes com R - R-br - DINF UFPR

mais recente
friedman - agricolae - between...

Web Scraping Lattes com R

mais antigo
O tamanho das bolas ajuda a...

L N

22 Mar 2015 22 Mar '15

12:03

Olá Pessoal, Alguém que saiba extrair os CV Lattes (XML) via R? Tenho listagem de todos os endereços e quero montar um banco de dado com isso. Há o ScriptLattes para Python mas eu já tentei e não consegui. Abs, *Leonardo F. Nascimento*

Anexos:

attachment.htm (text/html — 1,1 KB)

Resposta

Faça login para responder on-line Usar software de e-mail

Mostrar respostas por data

Paulo Nogueira Starzynski

22 Mar 22 Mar

12:43

Leonardo, Você já tentou dar uma olhada nos pacotes RCurl, XML e rvest? Não haverá nada específico para extração do Lattes, mas não deve ser complicado de implementar. Abraços, Paulo Nogueira Starzynski Em 22 de março de 2015 12:03, L N <leofn3@gmail.com> escreveu:

Olá Pessoal,

Alguém que saiba extrair os CV Lattes (XML) via R? Tenho listagem de todos os endereços e quero montar um banco de dado com isso. Há o ScriptLattes para Python mas eu já tentei e não consegui. Abs,

*Leonardo F. Nascimento*

_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Resposta

Faça login para responder on-line Usar software de e-mail

L N

24 Mar 24 Mar

02:34

Caros, Antes de tudo peço mil desculpas pela imensa ignorância que me assola: sou de ciências sociais e não de programação. Segui a sugestão desta lista e utilizei o rvest como indicaram. install.packages("rvest") library("rvest") Leolattes <- html("http://lattes.cnpq.br/7141811368487014") Leolattes Leolattes %>% html_nodes(".nome") %>% html_text() [1] "Leonardo Fernandes Nascimento" Deste modo, consigo extrair os dados individualizados: nome, resumo, produção, etc. do Lattes. Mas tenho alguns problemas: 1 - Como unificar as informações em uma tabela: Nome, Resumo, Endereço, etc. Não acertei usar o html_table(). 2 - Vou extrair mais de 300 CV Lattes, já tenho uma lista com todas as ID Lattes. Há como fazer um "for" utilizando o rvest e jogar tudo para uma tabela? Caso alguém responda posso colocá-lo como um dos autores do artigo. Abs Leonardo Em 22 de março de 2015 12:03, L N <leofn3@gmail.com> escreveu:

Olá Pessoal,

Alguém que saiba extrair os CV Lattes (XML) via R? Tenho listagem de todos os endereços e quero montar um banco de dado com isso. Há o ScriptLattes para Python mas eu já tentei e não consegui. Abs,

*Leonardo F. Nascimento*

Resposta

Faça login para responder on-line Usar software de e-mail

Paulo Nogueira Starzynski

11:03

Olá Leonardo, montei um rápido exemplo que, acredito, possa te inspirar. library("rvest") lattes.extract <- function(id){ # Extração do código fonte url.fonte <- html(paste("http://lattes.cnpq.br/", id, sep="")) # Nome nome <- html_text(html_nodes(url.fonte, xpath="/html/body/div[1]/div[3]/div/div/div/div[3]/div/div[2]/div"), encoding="UTF8") # Resumo resumo <- html_text(html_nodes(url.fonte, xpath="/html/body/div[1]/div[3]/div/div/div/div[2]/p"), encoding="UTF8") # Endereço Profissional endereco <- html_text(html_nodes(url.fonte, xpath="/html/body/div[1]/div[3]/div/div/div/div[4]/div/div[2]/div"), encoding="UTF8") # Extraindo apena primeira formação (é possível todas, incluindo os anos) formacao <- html_text(html_nodes(url.fonte, xpath="/html/body/div[1]/div[3]/div/div/div/div[5]/div/div[2]/div"), encoding="UTF8") return (cbind(nome, resumo, endereco, formacao)) } lista.ids <- c(7141811368487014, 5235908630509803, 8039053295273558) tabela.saida <- do.call(rbind.data.frame, lapply(lista.ids, lattes.extract)) View(tabela.saida) Abraços, Paulo Em 24 de março de 2015 02:34, L N <leofn3@gmail.com> escreveu:

Caros,

Antes de tudo peço mil desculpas pela imensa ignorância que me assola: sou de ciências sociais e não de programação. Segui a sugestão desta lista e utilizei o rvest como indicaram.

install.packages("rvest") library("rvest") Leolattes <- html("http://lattes.cnpq.br/7141811368487014") Leolattes

Leolattes %>% html_nodes(".nome") %>% html_text() [1] "Leonardo Fernandes Nascimento"

Deste modo, consigo extrair os dados individualizados: nome, resumo, produção, etc. do Lattes. Mas tenho alguns problemas:

1 - Como unificar as informações em uma tabela: Nome, Resumo, Endereço, etc. Não acertei usar o html_table().

2 - Vou extrair mais de 300 CV Lattes, já tenho uma lista com todas as ID Lattes. Há como fazer um "for" utilizando o rvest e jogar tudo para uma tabela? Caso alguém responda posso colocá-lo como um dos autores do artigo. Abs Leonardo

Em 22 de março de 2015 12:03, L N <leofn3@gmail.com> escreveu:

...
Olá Pessoal,

Alguém que saiba extrair os CV Lattes (XML) via R? Tenho listagem de todos os endereços e quero montar um banco de dado com isso. Há o ScriptLattes para Python mas eu já tentei e não consegui. Abs,

*Leonardo F. Nascimento*

_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Resposta

Faça login para responder on-line Usar software de e-mail

Jakson Alves de Aquino

12:51

Não estou acompanhando a discussão, mas gostaria de fazer uma observação que pode ser útil: no topo de cada página de currículo Lattes há um link para uma versão do currículo em xml. Talvez seja mais fácil escrever um algoritmo para leitura do xml do que do html. -- Jakson Alves de Aquino www.lepem.ufc.br/aquino.php

Resposta

Faça login para responder on-line Usar software de e-mail

4027

Idade (dias atrás)

4029

Última atividade (dias atrás)

Visão geral da lista

Baixar

4 comentários

3 participantes

etiquetas

participantes (3)

Jakson Alves de Aquino
L N
Paulo Nogueira Starzynski