[R-br] Web Scraping Lattes com R

L N leofn3 em gmail.com
Terça Março 24 02:34:17 BRT 2015


Caros,

Antes de tudo peço mil desculpas pela imensa ignorância que me assola: sou
de ciências sociais e não de programação.
Segui a sugestão desta lista e utilizei o rvest como indicaram.

install.packages("rvest")
library("rvest")
Leolattes <- html("http://lattes.cnpq.br/7141811368487014")
Leolattes

Leolattes %>%
  html_nodes(".nome") %>%
  html_text()
[1] "Leonardo Fernandes Nascimento"

Deste modo, consigo extrair os dados individualizados: nome, resumo,
produção, etc. do Lattes.
Mas tenho alguns problemas:

1 - Como unificar as informações em uma tabela: Nome, Resumo, Endereço,
etc. Não acertei usar o html_table().

2 - Vou extrair mais de 300 CV Lattes, já tenho uma lista com todas as ID
Lattes.
Há como fazer um "for" utilizando o rvest e jogar tudo para uma tabela?
Caso alguém responda posso colocá-lo como um dos autores do artigo.
Abs
Leonardo




Em 22 de março de 2015 12:03, L N <leofn3 em gmail.com> escreveu:

> Olá Pessoal,
>
> Alguém que saiba extrair os CV Lattes (XML) via R?
> Tenho listagem de todos os endereços e quero montar um
> banco de dado com isso.
> Há o ScriptLattes para Python mas eu já tentei e não consegui.
> Abs,
>
> *Leonardo F. Nascimento*
>
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20150324/09ef9fe0/attachment.html>


Mais detalhes sobre a lista de discussão R-br