[R-br] Ler dados de html

Rodrigo Coster rcoster em gmail.com
Quarta Maio 22 11:44:35 BRT 2013


Walmes,

faz tempo que nao mexo com HTML, mas acho que o problema está na lista de
aprovados não ser uma tabela, mas sim texto direto  (posso estar enganado).
Uma alternativa é usar readLines()


2013/5/22 walmes . <walmeszeviani em gmail.com>

> Saudações,
>
> Em sala de aula sempre destaco as funcionalidades que o R tem para
> facilitar a vida do usuário. Um exemplo que uso é a leitura de dados de
> páginas html. Encontrei pronto a leitura de uma tabela do google (matéria
> de blog http://bhoom.wordpress.com/2010/06/07/61/). Reproduzi isso em
> sala de aula mas quando mudei de site não obtive êxito. Esse é o CMR que
> reproduzi em sala
>
> > library(XML)
> > u <- "http://www.google.com/adplanner/static/top1000/"
> > tables <- readHTMLTable(u)
> > my.table <- tables[[2]] # The first element of the list is empty
> > str(my.table)
> 'data.frame':    999 obs. of  7 variables:
>  $ 1                : Factor w/ 999 levels "10","100","1000",..: 112 223
> 334 445 556 667 778 889 1 13 ...
>  $ facebook.com     : Factor w/ 999 levels "01net.com","10086.cn",..: 978
> 957 499 566 920 161 133 548 697 153 ...
>  $ Social Networks  : Factor w/ 231 levels "","Accounting & Auditing",..:
> 149 224 173 224 59 22 173 183 224 173 ...
>  $ 880,000,000      : Factor w/ 88 levels "10,000,000","11,000,000",..: 74
> 52 43 39 37 32 28 24 24 21 ...
>  $ 51.3%            : Factor w/ 55 levels "0.3%","0.4%",..: 41 34 31 28 26
> 22 20 15 16 13 ...
>  $ 1,000,000,000,000: Factor w/ 149 levels "1,000,000,000",..: 3 127 133
> 33 108 90 8 45 72 142 ...
>  $ Yes              : Factor w/ 2 levels "No","Yes": 2 2 2 2 1 2 2 2 2 2...
>
> Alguma minupalação eu tive que fazer após leitura para ficar pronto para
> trabalhar, como remover os % dos valores na 5ª coluna.
> O meu desejo é ler os dados disponíveis em
> http://vestibular.ufrgs.br/listao/letra_A.html. No caso eu iria ler os
> resultados para todas as letras (A-Z), juntar tudo em um data.frame só e
> fazer algumas análises. Ao partir do mesmo código resultou em
>
> > u <- "http://vestibular.ufrgs.br/listao/letra_A.html"
> > tables <- readHTMLTable(u)
> > str(tables)
>  Named list()
> > tables
> named list()
>
> Ou seja, não veio nada. Eu abri o código fonte da página e pelo visto a
> tabela está oculta ou coisa assim, ou o endereço dela não é esse link. Eu
> tenho quase nenhuma experiência com isso.
> Alguém teria alguma sugestão de como importar esses dados direto da web?
>
> Certo de vossa atenção, agradeço.
> Walmes.
>
> ==========================================================================
> Walmes Marques Zeviani
> LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W)
> Departamento de Estatística - Universidade Federal do Paraná
> fone: (+55) 41 3361 3573
> VoIP: (3361 3600) 1053 1173
> e-mail: walmes em ufpr.br
> skype: walmeszeviani
> twitter: @walmeszeviani
> homepage: http://www.leg.ufpr.br/~walmes
> linux user number: 531218
> ==========================================================================
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20130522/b1682c03/attachment.html>


Mais detalhes sobre a lista de discussão R-br