[R-br] Bando de dado .txt
Marcos Silva
marcosfs2006 em gmail.com
Domingo Outubro 2 08:36:45 BRT 2016
André,
Este tipo de arquivo não tem um caractere delimitador, tal como virgula,
ponto e virgula, pipe ("|"), Você não vai conseguir importar com
read.table() e derivações (read.csv(), read.csv2()) ou mesmo com fread().
Mas para vc "ler" esse arquivo, vc precisa saber qual o comprimento de cada
variável (quantidade de caracteres que ocupa no arquivo), informação essa
que deveria estar no dicionário de variáveis.
Este tipo de arquivo vc importa com read.fwf() ou read_fwf() do pacote
readr. Mas como essa base é muito grande, recomendo utilizar algum pacote,
a exemplo do pacote LaF. Existem outras possibilidades talvez melhores.
Em 2 de outubro de 2016 03:13, Andre Oliveira <andreolsouza em yahoo.com.br>
escreveu:
> Oi Marcos,
> neste dicionário fala que é formato em formato ASCII. Não tem mais
> instruções pelo que percebi. Descreve os nomes da varáveis também!
>
> André Oliveira Souza. Graduação em Matemática, mestrado em estatística
> aplicada.Instituto Federal de Educação, Ciência e Tecnologia do Espirito
> Santo. IFES
>
>
> Em Domingo, 2 de Outubro de 2016 0:13, Marcos Silva <
> marcosfs2006 em gmail.com> escreveu:
>
>
> Acho que este e um arquivo de formato fixo. Vc vai precisar do dicionario
> de dados para importar. Normalmente este dicionario e disponibilizado com
> os dados pelo inep.
>
> Em 01/10/2016 22:31, "Andre Oliveira via R-br" <r-br em listas.c3sl.ufpr.br>
> escreveu:
>
> Boa noite,
> não estou conseguindo identificar o motivo de não abrir este arquivo .txt
> corretamente, ele tem em torno de 6.3 GB
> <http://portal.inep.gov.br/basica-levantamentos-microdados>
> Alguém teria uma dica para compartilhar? Acredito que não estou
> trabalhando corretamente!
>
> library(data.table)
> readLines("DADOS_ENEM_2011. TXT", n = 1)
>
>
> *[1] "3000000000012011 2803548708SAO BERNARDO DO
> CAMPO
>
> SP110000000000000000000011 . .
>
>
> ...3548708SAO BERNARDO DO CAMPO
>
> SP1111 577.10 576.00
> 575.50 737. 10CEBDCACBEAABBAABAEBDCABDCDEA AADCBBEBADDBEBECDDEECABABEBDDE
> BAEADCACABCBBECADDAADBADDAABAB CAEEAEAEDDDAAEEBDECADCEABDDBAE
> CAAABDAEBCCACBAECBAEBECCAAEBAB ECECCDDAACDADADBACCBAADCAECCCE
> DD1241201251290CECDDACBCAEBEBB ACEEDCAEBDAEDADBEBBDDADCBCBACD
> DEECEBABAADDEBAECDCACEDCBBEBCD CAADBADDDBAEACAEEDBDBDDCAEDDDA
> CDEBBECAACDABADBAECCEADDCEBCBA CBAEEBAEEECCEEEBCBECEBADCBDBEA
> DCDBDCCCBADCAECCCCDDP 140.00 140.00 140.00 140.00 60.00
> 620.000 . . .
> *
>
> require(bit64)
> enem2011<- fread("DADOS_ENEM_2011.TXT", nrow = 1, header = TRUE, sep=";")
> head(enem2011)
>
> 3000000000012011 2803548708SAO BERNARDO DO CAMPO
>
> SP110000000000000000000011
> . .
>
> ...3548708SAO BERNARDO DO
> CAMPO
>
> SP1111 577.10 576.00 575.50 737. 10CEBDCACBEAABBAABAEBDCABDCDEA
> AADCBBEBADDBEBECDDEECABABEBDDE BAEADCACABCBBECADDAADBADDAABAB
> CAEEAEAEDDDAAEEBDECADCEABDDBAE CAAABDAEBCCACBAECBAEBECCAAEBAB
> ECECCDDAACDADADBACCBAADCAECCCE DD1241201251290CECDDACBCAEBEBB
> ACEEDCAEBDAEDADBEBBDDADCBCBACD DEECEBABAADDEBAECDCACEDCBBEBCD
> CAADBADDDBAEACAEEDBDBDDCAEDDDA CDEBBECAACDABADBAECCEADDCEBCBA
> CBAEEBAEEECCEEEBCBECEBADCBDBEA DCDBDCCCBADCAECCCCDDP 140.00 140.00
> 140.00 140.00 60.00 620.000 . .
> .
>
> ...
> 1: 3000000000022011 2214125506SAO JOSE DOS PINHAIS
>
>
> PR110000000000000000000011 . .
>
>
> ...4125506SAO JOSE DOS PINHAIS
>
> PR0000 .
> . . .
>
>
> 1211171251290DCEACDBECBCAEBACB
> EAECEDEDAABDBEDBBDDDCABCBDCAED EBCEAEDBDAACACECDBBCACEDCDCBAE
> ADADBBDDEAABAEEDBDBDDCAEDDDACD EBBECAACDABADBAECCEADDCEBCBACB
> AEEBAEEECCEEEBCBECEBADCBDBEADC DBDCCCBADCAECCCCDDF 0.00 0.00
> 0.00 0.00 0.00 0.000 . .
> .
>
> obrigado.
>
>
> André Oliveira Souza. Graduação em Matemática, mestrado em estatística
> aplicada.Instituto Federal de Educação, Ciência e Tecnologia do Espirito
> Santo. IFES
>
> ______________________________ _________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/ cgi-bin/mailman/listinfo/r-br
> <https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br>
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br- guia
> <http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
>
>
>
>
--
Marcos F. Silva
http://sites.google.com/site/marcosfs2006
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20161002/2f1d0f23/attachment.html>
Mais detalhes sobre a lista de discussão R-br