
se vc tiver certeza de que, por pagina, vc tem apenas 1 tabela, entao vc pode: mega <- readHTMLTable(....)[[1]] se vc tiver mais de 1 table (com o mesmo numero de colunas) por pagina: mega <- do.call(rbind, readHTMLTable(....)) sobre o warning, nao eh nada muito relevante neste caso... vc deve ter tentado executar algumas vezes e sobrou pelo menos uma conexao aberta... b 2011/6/21 Leonard Assis <assis.leonard@gmail.com>:
Quase funcionou.
No meu caso eu não preciso descompactar, hehehe. Mas adaptei a lógica.
para esse exemplo, o perfeito seria executar a linha como sendo:
mega <- readHTMLTable(readLines(unz(tmp, "D_MEGA.HTM")))$'NULL'
pois, de alguma forma, ele lê em forma de lista e o data.frame fica neste local
No mais, o meu aqui leu perfeito, nem precisou saltar as linhas, o readHTMLTable se encarregou disso. Mais fácil que eu imaginava.
Ahhh, deu um warning besta de conexão não utilizada, mas acredito ser irrelevante.
Valeu Henrique.
Leonard
On 21/06/2011, at 10:08, Henrique Dallazuanna wrote:
Leonard,
Tente assim:
library(XML)
tmp <- tempfile() download.file("http://www1.caixa.gov.br/loterias/_arquivos/loterias/D_megase.zip", tmp) mega <- readHTMLTable(readLines(unz(tmp, "D_MEGA.HTM")))
2011/6/21 Leonard Assis <assis.leonard@gmail.com>:
Bom dia
Tenho que acessar uma tabela em uma página asp.
tenho duas perguntas simples:
1. consigo ler estes arquivos no R sem precisar converter para, por exemplo, CSV? 2. Em caso positivo, existe como saltar as 2 primeiras linhas, pois os dados começam na linha 3. Cabeçalho está na linha 2.
uma base de dados que pode ser usada como exemplo seriam as disponíveis pra download no site das loterias da Caixa (Diferença é que estes estão em .zip e com o htm incluido). Já lidei com esses dados, na época eu optei por importar no excel e salvar como CSV.
Portanto, aguardo sugestões de como ler uma tabela no formato html direto no R.
Segue o link da caixa como exemplo de base de dados similar.
http://www1.caixa.gov.br/loterias/_arquivos/loterias/D_megase.zip
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Successful people ask better questions, and as a result, they get better answers. (Tony Robbins)