[R-br] Ler um HTM

Paulo Nogueira Starzynski paulons em gmail.com
Quinta Janeiro 7 09:39:09 BRST 2016


Leonardo,
talvez você já tenha alguma vez trilhado o caminho das pedras do
webscrapping, mas, se não, recomendo os pacotes XML, RCurl e rvest (eu uso
mais os dois primeiros).

Abraços,
Paulo

Em 6 de janeiro de 2016 23:45, Leonard de Assis <assis.leonard em gmail.com>
escreveu:

> Boa noite a todos
>
>
>
> Estou com um problema idiota em mãos. Preciso ler um arquivo .HTM dentro
> de um arquivo .zip.
>
> Até agora, o jeito que achei mais produtivo foi:
>
> 1.       baixar o zip (posso fazer isso com o R via download.file)
>
> 2.       extrair o .HTM do arquivo (posso fazer isso via unzip)
>
> 3.       ler a tabela contida no HTM utilizando readHTMLTable (lib XML)
>
>
>
> A questão que tenho é a seguinte:
>
>
>
> Existe um jeito mais rápido que este? Eu já consegui ler .csv direto de
> arquivo .zip utilizando o comando unz e read.table. Será que funciona assim
> também em HTML? Se sim, qual seria a func?
>
>
>
> Leonard
>
>
>
> OS: ainda tenho que pensar como fazer webscrap desse htm, kkk
>
>
>
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20160107/a03b7e67/attachment.html>
-------------- Próxima Parte ----------
Um anexo não-texto foi limpo...
Nome: image001.png
Tipo: image/png
Tamanho: 7861 bytes
Descrição: não disponível
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20160107/a03b7e67/attachment.png>


Mais detalhes sobre a lista de discussão R-br