[R-br] Selecionar e copiar conteúdo de página usando apenas o terminal linux
Éder Comunello
comunello.eder em gmail.com
Quinta Maio 1 08:48:30 BRT 2014
Walmes e colegas, bom dia!
Fins uns testes, mas ainda não pude finalizar... De qualquer modo vou
postar porque acredito que possa ajudar...
A dificuldade que vejo é que os dados não estão no HTML propriamente, mas
sim no código JavaScript embutido.
### <code r>
sapply(c("RCurl", "XML", "RJSONIO"), require, character.only=T)
webpage <- getURL("http://www.whoscored.com/Teams/1232")
webpage <- readLines(tc <- textConnection(webpage)); close(tc)
# pagetree <- htmlTreeParse(webpage, error=function(...){},
useInternalNodes = TRUE)
sel <- grep("DataStore.prime\\(\\'stage-player-stat\\'", webpage) ###
localiza linha com var
data <- webpage[sel] ### seleciona linha
data <- gsub("^.*DataStore.*\\[|\\]);", "", data) ### limpeza para
deixar no formato JSON
data2 <- gsub(",\\{", "@@@\\{", data) ### inserir quebra
list <- unlist(strsplit(tmp, '@@@')) ### quebrar múltiplas linhas
fromJSON(list[1])
fromJSON(list[2])
fromJSON(list[20])
### </code>
Éder Comunello <c <comunello.eder em gmail.com>omunello.eder em gmail.com>
Dourados, MS - [22 16.5'S, 54 49'W]
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20140501/23fc0ccb/attachment.html>
Mais detalhes sobre a lista de discussão R-br