[R-br] Assunto: Re: Trabalhar com planilha de dados muito grande

Leonard Assis assis.leonard em gmail.com
Segunda Junho 6 11:01:05 BRT 2016


Povo que usa Yahoo... favor rever configurações. Email de vocês está caindo
sempre na pasta de spam
Em 6 de jun de 2016 9:28 AM, "Edson Lira" <edinhoestat em yahoo.com.br>
escreveu:

> Experimente o pacote:
>
> ff
>
> Olha esse material abaixo.
> http://ff.r-forge.r-project.org/bit&ff2.1-2_WU_Vienna2010.pdf
> <http://ff.r-forge.r-project.org/bit&ff2.1-2_WU_Vienna2010.pdf>
> O nome é esse mesmo.
>
> Edson Lira
> Estatístico
> Manaus-Amazonas
>
>
> Em Sábado, 4 de Junho de 2016 18:24, Leonardo Ferreira Fontenelle <
> leonardof em leonardof.med.br> escreveu:
>
>
> Não tenho experiência com o banco de dados do Censo, apenas com o da PNAD.
> Em geral, dá para você converter os dados das instruções de leitura do SAS
> para parâmetros a serem fornecidos para a leitura do arquivo TXT, que está
> em formato de largura fixa (FWF).
>
> A partir daí você tem dois caminhos possíveis. Um é jogar os dados num
> banco de dados como já foi discutido. Isso lhe possibilita trabalhar com
> mais dados do que a abordagem seguinte, que é a que eu conheço melhor.
>
> Outro caminho, para o caso de você querer trabalhar com poucas variáveis,
> é você converter, com a função fwf2csv() do pacote descr, o arquivo TXT num
> arquivo CSV. Esse arquivo CSV, por sua vez, pode ser lido pela função
> fread() do pacote data.table. A função fread permite ler apenas as
> variáveis desejadas, de forma a fazer caber na memória RAM todas as
> observações desejadas. Se você ainda não conhece data.table, leia a
> introdução oficial
> <https://cran.r-project.org/web/packages/data.table/vignettes/datatable-intro.pdf>
> .
>
> Caso você opte pelo segundo caminho, pode adaptar este script para seus
> próprios fins:
>
> fwf2csv.SAScii <- function(fwffile, csvfile, input, verbose =
> getOption("verbose")) {
>   require("SAScii")
>   require("descr")
>   # Usuário precisa conferir antes se a codificação de caracteres está
> correta...
>   # https://github.com/ajdamico/SAScii/issues/5
>   dic <- within(parse.SAScii(input), {
>     end <- cumsum(width)
>     begin <- c(1, 1 + cumsum(width)[-length(width)])
>   })
>   fwf2csv(fwffile = fwffile, csvfile = csvfile, verbose = verbose,
>           names = dic$varname, begin = dic$begin, end = dic$end)
> }
>
> Onde "input" é o arquivo ".sas" com as instruções de leitura para o SAS.
>
> Saudações,
>
> Leonardo Ferreira Fontenelle <http://lattes.cnpq.br/9234772336296638>
>
>
> Em Sáb 4 jun. 2016, às 16:46, Edimeire Alexandra Pinto escreveu:
>
>
> Rodnei, no e-mail que mandei antes, so resumindo, os dados do censo estão
> em txt em meu computador e preciso selecionar algumas variáveis e exportar
> p o r, usando o pacote sqlite ou outro que souber
>
>
> Gente, se alguém mais souber eu agradeço a ajuda
>
>
>
> Enviado do Yahoo Mail no Android
> <https://overview.mail.yahoo.com/mobile/?.src=Android>
>
>
> Em 12:38 Sáb, 4 de jun de PM, Rodrigo Coster
> <rcoster em gmail.com> escreveu:
> André,
> Na documentação do ultimo censo escolar tem instruções de leitura em R,
> usando um pacote especial para grandes bancos de dados. Escrevi uma
> postagem sobre leitura desses bancos usando SQlite (
> http://rcoster.blogspot.com.br/2014/02/lendo-grandes-bancos-de-dados.html).
> Dependendo do ano que tu quiser, eu tenho os comandos
>
> []'s
>
> 2016-06-04 8:18 GMT-03:00 Andre Oliveira <andreolsouza em yahoo.com.br>:
>
>
> bom dia,
> estou precisando filtrar informação de  arquivos de microdados do INEP,
> tem arquivos csv e txt com até 6gb a título basicamente de estudos. Sou
> leigo neste tema e gostaria de saber  qual melhor forma de proceder. Me
> recomendaram usar um banco de dados neste caso (SQLite, MySQL,
> PostgreSQL ou Oracle),  mas não sei por onde começar. Alguém tem material
> que julgue importante e que possa compartilhar comigo?
>
> André Oliveira Souza. Graduação em Matemática, mestrado em estatística
> aplicada.Instituto Federal de Educação, Ciência e Tecnologia do Espirito
> Santo.  IFES
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne� c�igo
> m�imo reproduz�el.
>
> *_______________________________________________*
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne� c�igo
> m�imo reproduz�el.
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20160606/c746c349/attachment-0001.html>
-------------- Próxima Parte ----------
Um anexo não-texto foi limpo...
Nome: Screenshot_20160606-105945.png
Tipo: image/png
Tamanho: 175445 bytes
Descrição: não disponível
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20160606/c746c349/attachment-0001.png>


Mais detalhes sobre a lista de discussão R-br