[R-br] Ler dados de html

Henrique Dallazuanna wwwhsd em gmail.com
Quarta Maio 22 12:21:13 BRT 2013


Walmes,

Você pode utilizar o conceito do XPATH [1]:

library(XML)
Lines <- readLines("http://vestibular.ufrgs.br/listao/letra_A.html")
h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE)
as.data.frame(sapply(sprintf("//div[@class='span%d']", 1:4), xpathApply,
doc = h, xmlValue))

[1] http://en.wikipedia.org/wiki/XPath

Att


2013/5/22 walmes . <walmeszeviani em gmail.com>

> Rodrigo,
>
> Você tem razão, todos os dados estão em uma linha enorme. Acho que já sei
> como retirar, usando readLines() mesmo. Valeu.
>
> Grato.
> Walmes.
>
> ==========================================================================
> Walmes Marques Zeviani
> LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W)
> Departamento de Estatística - Universidade Federal do Paraná
> fone: (+55) 41 3361 3573
> VoIP: (3361 3600) 1053 1173
> e-mail: walmes em ufpr.br
> skype: walmeszeviani
> twitter: @walmeszeviani
> homepage: http://www.leg.ufpr.br/~walmes
> linux user number: 531218
> ==========================================================================
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>



-- 
Henrique Dallazuanna
Curitiba-Paraná-Brasil
25° 25' 40" S 49° 16' 22" O
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20130522/4067a308/attachment.html>


Mais detalhes sobre a lista de discussão R-br