[R-br] Lendo formato HTML

Benilton Carvalho beniltoncarvalho em gmail.com
Terça Junho 21 11:25:57 BRT 2011


se vc tiver certeza de que, por pagina, vc tem apenas 1 tabela, entao vc pode:

mega <- readHTMLTable(....)[[1]]

se vc tiver mais de 1 table (com o mesmo numero de colunas) por pagina:

mega <- do.call(rbind, readHTMLTable(....))

sobre o warning, nao eh nada muito relevante neste caso... vc deve ter
tentado executar algumas vezes e sobrou pelo menos uma conexao
aberta...

b

2011/6/21 Leonard Assis <assis.leonard em gmail.com>:
> Quase funcionou.
>
> No meu caso eu não preciso descompactar, hehehe. Mas adaptei a lógica.
>
> para esse exemplo, o perfeito seria executar a linha como sendo:
>
>> mega <- readHTMLTable(readLines(unz(tmp, "D_MEGA.HTM")))$'NULL'
>
> pois, de alguma forma, ele lê em forma de lista e o data.frame fica neste local
>
> No mais, o meu aqui leu perfeito, nem precisou saltar as linhas, o readHTMLTable se encarregou disso. Mais fácil que eu imaginava.
>
> Ahhh, deu um warning besta de conexão não utilizada, mas acredito ser irrelevante.
>
> Valeu Henrique.
>
> Leonard
>
> On 21/06/2011, at 10:08, Henrique Dallazuanna wrote:
>
>> Leonard,
>>
>> Tente assim:
>>
>> library(XML)
>>
>> tmp <- tempfile()
>> download.file("http://www1.caixa.gov.br/loterias/_arquivos/loterias/D_megase.zip",
>> tmp)
>> mega <- readHTMLTable(readLines(unz(tmp, "D_MEGA.HTM")))
>>
>> 2011/6/21 Leonard Assis <assis.leonard em gmail.com>:
>>> Bom dia
>>>
>>> Tenho que acessar uma tabela em uma página asp.
>>>
>>> tenho duas perguntas simples:
>>>
>>> 1. consigo ler estes arquivos no R sem precisar converter para, por exemplo, CSV?
>>> 2. Em caso positivo, existe como saltar as 2 primeiras linhas, pois os dados começam na linha 3. Cabeçalho está na linha 2.
>>>
>>> uma base de dados que pode ser usada como exemplo seriam as disponíveis pra download no site das loterias da Caixa (Diferença é que estes estão em .zip e com o htm incluido). Já lidei com esses dados, na época eu optei por importar no excel e salvar como CSV.
>>>
>>> Portanto, aguardo sugestões de como ler uma tabela no formato html direto no R.
>>>
>>> Segue o link da caixa como exemplo de base de dados similar.
>>>
>>> http://www1.caixa.gov.br/loterias/_arquivos/loterias/D_megase.zip
>>>
>>>
>>>
>>> _______________________________________________
>>> R-br mailing list
>>> R-br em listas.c3sl.ufpr.br
>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
>>>
>>
>>
>>
>> --
>> Henrique Dallazuanna
>> Curitiba-Paraná-Brasil
>> 25° 25' 40" S 49° 16' 22" O
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
>



-- 
Successful people ask better questions, and as a result, they get
better answers. (Tony Robbins)


Mais detalhes sobre a lista de discussão R-br