[R-br] Assunto: Re: Trabalhar com planilha de dados muito grande

Leonardo Ferreira Fontenelle leonardof em leonardof.med.br
Sábado Junho 4 19:24:20 BRT 2016


Não tenho experiência com o banco de dados do Censo, apenas com o da
PNAD. Em geral, dá para você converter os dados das instruções de
leitura do SAS para parâmetros a serem fornecidos para a leitura do
arquivo TXT, que está em formato de largura fixa (FWF).
 
A partir daí você tem dois caminhos possíveis. Um é jogar os dados num
banco de dados como já foi discutido. Isso lhe possibilita trabalhar com
mais dados do que a abordagem seguinte, que é a que eu conheço melhor.
 
Outro caminho, para o caso de você querer trabalhar com poucas
variáveis, é você converter, com a função fwf2csv() do pacote descr, o
arquivo TXT num arquivo CSV. Esse arquivo CSV, por sua vez, pode ser
lido pela função fread() do pacote data.table. A função fread permite
ler apenas as variáveis desejadas, de forma a fazer caber na memória RAM
todas as observações desejadas. Se você ainda não conhece data.table,
leia a introdução oficial[1].
 
Caso você opte pelo segundo caminho, pode adaptar este script para seus
próprios fins:
 
fwf2csv.SAScii <- function(fwffile, csvfile, input, verbose =
getOption("verbose")) {
require("SAScii")
require("descr")
# Usuário precisa conferir antes se a codificação de caracteres está
correta...
# https://github.com/ajdamico/SAScii/issues/5
dic <- within(parse.SAScii(input), {
end <- cumsum(width)
begin <- c(1, 1 + cumsum(width)[-length(width)])
})
fwf2csv(fwffile = fwffile, csvfile = csvfile, verbose = verbose,
names = dic$varname, begin = dic$begin, end = dic$end)
}
 
Onde "input" é o arquivo ".sas" com as instruções de leitura para o SAS.
 
Saudações,
 
Leonardo Ferreira Fontenelle[2]
 
 
Em Sáb 4 jun. 2016, às 16:46, Edimeire Alexandra Pinto escreveu:
>
> Rodnei, no e-mail que mandei antes, so resumindo, os dados do censo
> estão em txt em meu computador e preciso selecionar algumas variáveis
> e exportar p o r, usando o pacote sqlite ou outro que souber
>
>
> Gente, se alguém mais souber eu agradeço a ajuda
>
>
>
> Enviado do Yahoo Mail no Android[3]
>
>> Em 12:38 Sáb, 4 de jun de PM, Rodrigo Coster
>> <rcoster em gmail.com> escreveu:
>> André,
>> Na documentação do ultimo censo escolar tem instruções de leitura em
>> R, usando um pacote especial para grandes bancos de dados. Escrevi
>> uma postagem sobre leitura desses bancos usando SQlite
>> (http://rcoster.blogspot.com.br/2014/02/lendo-grandes-bancos-de-dados.html)
>> . Dependendo do ano que tu quiser, eu tenho os comandos
>>
>> []'s
>>
>> 2016-06-04 8:18 GMT-03:00 Andre Oliveira <andreolsouza em yahoo.com.br>:
>>>
>>> bom dia,
>>> estou precisando filtrar informação de  arquivos de microdados do
>>> INEP,  tem arquivos csv e txt com até 6gb a título basicamente de
>>> estudos. Sou leigo neste tema e gostaria de saber  qual melhor forma
>>> de proceder. Me recomendaram usar um banco de dados neste caso
>>> (SQLite, MySQL,  PostgreSQL ou Oracle),  mas não sei por onde
>>> começar. Alguém tem material que julgue importante e que possa
>>> compartilhar comigo?
>>>
>>> André Oliveira Souza. Graduação em Matemática, mestrado em
>>> estatística aplicada.Instituto Federal de Educação, Ciência e
>>> Tecnologia do Espirito Santo.  IFES
>>>
>>> _______________________________________________
>>>  R-br mailing list
>>> R-br em listas.c3sl.ufpr.br
>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>>  Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e
>>>  forneça código mínimo reproduzível.
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�
>> c�igo m�imo reproduz�el.
> _________________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
 

Links:

  1. https://cran.r-project.org/web/packages/data.table/vignettes/datatable-intro.pdf
  2. http://lattes.cnpq.br/9234772336296638
  3. https://overview.mail.yahoo.com/mobile/?.src=Android
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20160604/3ab0d693/attachment.html>


Mais detalhes sobre a lista de discussão R-br