[R-br] Bando de dado .txt

Marcos Silva marcosfs2006 em gmail.com
Domingo Outubro 2 09:00:46 BRT 2016


Dá uma olhada nesse post:

http://rcoster.blogspot.com.br/2014/02/lendo-grandes-bancos-de-dados.html

Em 2 de outubro de 2016 08:36, Marcos Silva <marcosfs2006 em gmail.com>
escreveu:

> André,
>
> Este tipo de arquivo não tem um caractere delimitador, tal como virgula,
> ponto e virgula, pipe ("|"), Você não vai conseguir importar com
> read.table() e derivações (read.csv(), read.csv2()) ou mesmo com fread().
>
> Mas para vc "ler" esse arquivo, vc precisa saber qual o comprimento de
> cada variável (quantidade de caracteres que ocupa no arquivo), informação
> essa que deveria estar no dicionário de variáveis.
>
> Este tipo de arquivo vc importa com read.fwf() ou read_fwf() do pacote
> readr. Mas como essa base é muito grande, recomendo utilizar algum pacote,
> a exemplo do pacote LaF. Existem outras possibilidades talvez melhores.
>
>
>
>
>
>
> Em 2 de outubro de 2016 03:13, Andre Oliveira <andreolsouza em yahoo.com.br>
> escreveu:
>
>> Oi Marcos,
>> neste dicionário fala que é  formato em formato ASCII. Não tem mais
>> instruções pelo que percebi. Descreve os nomes da varáveis também!
>>
>> André Oliveira Souza. Graduação em Matemática, mestrado em estatística
>> aplicada.Instituto Federal de Educação, Ciência e Tecnologia do Espirito
>> Santo.  IFES
>>
>>
>> Em Domingo, 2 de Outubro de 2016 0:13, Marcos Silva <
>> marcosfs2006 em gmail.com> escreveu:
>>
>>
>> Acho que este e um arquivo de formato fixo. Vc vai precisar do dicionario
>> de dados para importar. Normalmente este dicionario e disponibilizado com
>> os dados pelo inep.
>>
>> Em 01/10/2016 22:31, "Andre Oliveira via R-br" <r-br em listas.c3sl.ufpr.br>
>> escreveu:
>>
>> Boa noite,
>> não estou conseguindo identificar o motivo de não abrir este arquivo .txt
>> corretamente, ele tem em torno de 6.3 GB
>> <http://portal.inep.gov.br/basica-levantamentos-microdados>
>> Alguém teria uma dica para compartilhar? Acredito que não estou
>> trabalhando corretamente!
>>
>> library(data.table)
>> readLines("DADOS_ENEM_2011. TXT", n = 1)
>>
>>
>> *[1] "3000000000012011 2803548708SAO BERNARDO DO
>> CAMPO
>>
>> SP110000000000000000000011        .      .
>>
>>
>> ...3548708SAO BERNARDO DO CAMPO
>>
>>                                              SP1111   577.10   576.00
>> 575.50   737. 10CEBDCACBEAABBAABAEBDCABDCDEA AADCBBEBADDBEBECDDEECABABEBDDE
>> BAEADCACABCBBECADDAADBADDAABAB CAEEAEAEDDDAAEEBDECADCEABDDBAE
>> CAAABDAEBCCACBAECBAEBECCAAEBAB ECECCDDAACDADADBACCBAADCAECCCE
>> DD1241201251290CECDDACBCAEBEBB ACEEDCAEBDAEDADBEBBDDADCBCBACD
>> DEECEBABAADDEBAECDCACEDCBBEBCD CAADBADDDBAEACAEEDBDBDDCAEDDDA
>> CDEBBECAACDABADBAECCEADDCEBCBA CBAEEBAEEECCEEEBCBECEBADCBDBEA
>> DCDBDCCCBADCAECCCCDDP   140.00   140.00   140.00   140.00    60.00
>> 620.000 .       .      .
>>                                                             *
>>
>> require(bit64)
>> enem2011<- fread("DADOS_ENEM_2011.TXT", nrow = 1, header = TRUE, sep=";")
>> head(enem2011)
>>
>> 3000000000012011 2803548708SAO BERNARDO DO CAMPO
>>
>>                                              SP110000000000000000000011
>>    .      .
>>
>>                                   ...3548708SAO BERNARDO DO
>> CAMPO
>>
>> SP1111   577.10   576.00   575.50   737. 10CEBDCACBEAABBAABAEBDCABDCDEA
>> AADCBBEBADDBEBECDDEECABABEBDDE BAEADCACABCBBECADDAADBADDAABAB
>> CAEEAEAEDDDAAEEBDECADCEABDDBAE CAAABDAEBCCACBAECBAEBECCAAEBAB
>> ECECCDDAACDADADBACCBAADCAECCCE DD1241201251290CECDDACBCAEBEBB
>> ACEEDCAEBDAEDADBEBBDDADCBCBACD DEECEBABAADDEBAECDCACEDCBBEBCD
>> CAADBADDDBAEACAEEDBDBDDCAEDDDA CDEBBECAACDABADBAECCEADDCEBCBA
>> CBAEEBAEEECCEEEBCBECEBADCBDBEA DCDBDCCCBADCAECCCCDDP   140.00   140.00
>> 140.00   140.00    60.00   620.000 .       .
>> .
>>
>>                                   ...
>> 1: 3000000000022011 2214125506SAO JOSE DOS PINHAIS
>>
>>
>> PR110000000000000000000011        .      .
>>
>>
>> ...4125506SAO JOSE DOS PINHAIS
>>
>>                                                 PR0000      .
>> .        .        .
>>
>>
>>                                   1211171251290DCEACDBECBCAEBACB
>> EAECEDEDAABDBEDBBDDDCABCBDCAED EBCEAEDBDAACACECDBBCACEDCDCBAE
>> ADADBBDDEAABAEEDBDBDDCAEDDDACD EBBECAACDABADBAECCEADDCEBCBACB
>> AEEBAEEECCEEEBCBECEBADCBDBEADC DBDCCCBADCAECCCCDDF     0.00     0.00
>> 0.00     0.00     0.00     0.000 .       .
>> .
>>
>> obrigado.
>>
>>
>> André Oliveira Souza. Graduação em Matemática, mestrado em estatística
>> aplicada.Instituto Federal de Educação, Ciência e Tecnologia do Espirito
>> Santo.  IFES
>>
>> ______________________________ _________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/ cgi-bin/mailman/listinfo/r-br
>> <https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br>
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br- guia
>> <http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
>>
>>
>>
>>
>
>
> --
> Marcos F. Silva
> http://sites.google.com/site/marcosfs2006
>



-- 
Marcos F. Silva
http://sites.google.com/site/marcosfs2006
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20161002/9846ea25/attachment-0001.html>


Mais detalhes sobre a lista de discussão R-br