[R-br] Bando de dado .txt
Marcos Silva
marcosfs2006 em gmail.com
Domingo Outubro 2 09:00:46 BRT 2016
Dá uma olhada nesse post:
http://rcoster.blogspot.com.br/2014/02/lendo-grandes-bancos-de-dados.html
Em 2 de outubro de 2016 08:36, Marcos Silva <marcosfs2006 em gmail.com>
escreveu:
> André,
>
> Este tipo de arquivo não tem um caractere delimitador, tal como virgula,
> ponto e virgula, pipe ("|"), Você não vai conseguir importar com
> read.table() e derivações (read.csv(), read.csv2()) ou mesmo com fread().
>
> Mas para vc "ler" esse arquivo, vc precisa saber qual o comprimento de
> cada variável (quantidade de caracteres que ocupa no arquivo), informação
> essa que deveria estar no dicionário de variáveis.
>
> Este tipo de arquivo vc importa com read.fwf() ou read_fwf() do pacote
> readr. Mas como essa base é muito grande, recomendo utilizar algum pacote,
> a exemplo do pacote LaF. Existem outras possibilidades talvez melhores.
>
>
>
>
>
>
> Em 2 de outubro de 2016 03:13, Andre Oliveira <andreolsouza em yahoo.com.br>
> escreveu:
>
>> Oi Marcos,
>> neste dicionário fala que é formato em formato ASCII. Não tem mais
>> instruções pelo que percebi. Descreve os nomes da varáveis também!
>>
>> André Oliveira Souza. Graduação em Matemática, mestrado em estatística
>> aplicada.Instituto Federal de Educação, Ciência e Tecnologia do Espirito
>> Santo. IFES
>>
>>
>> Em Domingo, 2 de Outubro de 2016 0:13, Marcos Silva <
>> marcosfs2006 em gmail.com> escreveu:
>>
>>
>> Acho que este e um arquivo de formato fixo. Vc vai precisar do dicionario
>> de dados para importar. Normalmente este dicionario e disponibilizado com
>> os dados pelo inep.
>>
>> Em 01/10/2016 22:31, "Andre Oliveira via R-br" <r-br em listas.c3sl.ufpr.br>
>> escreveu:
>>
>> Boa noite,
>> não estou conseguindo identificar o motivo de não abrir este arquivo .txt
>> corretamente, ele tem em torno de 6.3 GB
>> <http://portal.inep.gov.br/basica-levantamentos-microdados>
>> Alguém teria uma dica para compartilhar? Acredito que não estou
>> trabalhando corretamente!
>>
>> library(data.table)
>> readLines("DADOS_ENEM_2011. TXT", n = 1)
>>
>>
>> *[1] "3000000000012011 2803548708SAO BERNARDO DO
>> CAMPO
>>
>> SP110000000000000000000011 . .
>>
>>
>> ...3548708SAO BERNARDO DO CAMPO
>>
>> SP1111 577.10 576.00
>> 575.50 737. 10CEBDCACBEAABBAABAEBDCABDCDEA AADCBBEBADDBEBECDDEECABABEBDDE
>> BAEADCACABCBBECADDAADBADDAABAB CAEEAEAEDDDAAEEBDECADCEABDDBAE
>> CAAABDAEBCCACBAECBAEBECCAAEBAB ECECCDDAACDADADBACCBAADCAECCCE
>> DD1241201251290CECDDACBCAEBEBB ACEEDCAEBDAEDADBEBBDDADCBCBACD
>> DEECEBABAADDEBAECDCACEDCBBEBCD CAADBADDDBAEACAEEDBDBDDCAEDDDA
>> CDEBBECAACDABADBAECCEADDCEBCBA CBAEEBAEEECCEEEBCBECEBADCBDBEA
>> DCDBDCCCBADCAECCCCDDP 140.00 140.00 140.00 140.00 60.00
>> 620.000 . . .
>> *
>>
>> require(bit64)
>> enem2011<- fread("DADOS_ENEM_2011.TXT", nrow = 1, header = TRUE, sep=";")
>> head(enem2011)
>>
>> 3000000000012011 2803548708SAO BERNARDO DO CAMPO
>>
>> SP110000000000000000000011
>> . .
>>
>> ...3548708SAO BERNARDO DO
>> CAMPO
>>
>> SP1111 577.10 576.00 575.50 737. 10CEBDCACBEAABBAABAEBDCABDCDEA
>> AADCBBEBADDBEBECDDEECABABEBDDE BAEADCACABCBBECADDAADBADDAABAB
>> CAEEAEAEDDDAAEEBDECADCEABDDBAE CAAABDAEBCCACBAECBAEBECCAAEBAB
>> ECECCDDAACDADADBACCBAADCAECCCE DD1241201251290CECDDACBCAEBEBB
>> ACEEDCAEBDAEDADBEBBDDADCBCBACD DEECEBABAADDEBAECDCACEDCBBEBCD
>> CAADBADDDBAEACAEEDBDBDDCAEDDDA CDEBBECAACDABADBAECCEADDCEBCBA
>> CBAEEBAEEECCEEEBCBECEBADCBDBEA DCDBDCCCBADCAECCCCDDP 140.00 140.00
>> 140.00 140.00 60.00 620.000 . .
>> .
>>
>> ...
>> 1: 3000000000022011 2214125506SAO JOSE DOS PINHAIS
>>
>>
>> PR110000000000000000000011 . .
>>
>>
>> ...4125506SAO JOSE DOS PINHAIS
>>
>> PR0000 .
>> . . .
>>
>>
>> 1211171251290DCEACDBECBCAEBACB
>> EAECEDEDAABDBEDBBDDDCABCBDCAED EBCEAEDBDAACACECDBBCACEDCDCBAE
>> ADADBBDDEAABAEEDBDBDDCAEDDDACD EBBECAACDABADBAECCEADDCEBCBACB
>> AEEBAEEECCEEEBCBECEBADCBDBEADC DBDCCCBADCAECCCCDDF 0.00 0.00
>> 0.00 0.00 0.00 0.000 . .
>> .
>>
>> obrigado.
>>
>>
>> André Oliveira Souza. Graduação em Matemática, mestrado em estatística
>> aplicada.Instituto Federal de Educação, Ciência e Tecnologia do Espirito
>> Santo. IFES
>>
>> ______________________________ _________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/ cgi-bin/mailman/listinfo/r-br
>> <https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br>
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br- guia
>> <http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
>>
>>
>>
>>
>
>
> --
> Marcos F. Silva
> http://sites.google.com/site/marcosfs2006
>
--
Marcos F. Silva
http://sites.google.com/site/marcosfs2006
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20161002/9846ea25/attachment-0001.html>
Mais detalhes sobre a lista de discussão R-br