[R-br] Selecionar e copiar conteúdo de página usando apenas o terminal linux

Éder Comunello comunello.eder em gmail.com
Quinta Maio 1 08:48:30 BRT 2014


Walmes e colegas, bom dia!

Fins uns testes, mas ainda não pude finalizar... De qualquer modo vou
postar porque acredito que possa ajudar...

A dificuldade que vejo é que os dados não estão no HTML propriamente, mas
sim no código JavaScript embutido.

### <code r>
sapply(c("RCurl", "XML", "RJSONIO"), require, character.only=T)

webpage <- getURL("http://www.whoscored.com/Teams/1232")
webpage <- readLines(tc <- textConnection(webpage)); close(tc)
# pagetree <- htmlTreeParse(webpage, error=function(...){},
useInternalNodes = TRUE)

sel     <- grep("DataStore.prime\\(\\'stage-player-stat\\'", webpage) ###
localiza linha com var
data    <- webpage[sel] ### seleciona linha
data    <- gsub("^.*DataStore.*\\[|\\]);", "", data) ### limpeza para
deixar no formato JSON
data2   <- gsub(",\\{", "@@@\\{", data) ### inserir quebra
list    <- unlist(strsplit(tmp, '@@@')) ### quebrar múltiplas linhas

fromJSON(list[1])
fromJSON(list[2])
fromJSON(list[20])
### </code>

Éder Comunello <c <comunello.eder em gmail.com>omunello.eder em gmail.com>
Dourados, MS - [22 16.5'S, 54 49'W]
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20140501/23fc0ccb/attachment.html>


Mais detalhes sobre a lista de discussão R-br