[R-br] Bases Grandes
Jakson Alves de Aquino
jalvesaq em gmail.com
Sexta Fevereiro 7 12:45:21 BRST 2014
Em 07-02-2014 11:14, Gerson R. Primo Jr escreveu:
> Estou migrando meus processos do SPSS, para o R e tenho encontrado
> dificuldade na input de bases muito grandes. Tipo: 1,5Gb, com ~3 milhões
> de registros.
> Alguém sabe de algum pacote para trabalhar com bases grandes?
Sugestão de procedimento:
1) Exporte a base de dados para algum formato texto (valores
separados por vírgula, ponto e vírgula ou por tabulação). Se
o arquivo for realmente muito grande, escolha a opção de
salvar as variáveis categóricas como números e não como
rótulos e, neste caso, crie também um arquivo com os rótulos.
Você pode usar o SPSS ou o PSPP para exportar a base de
dados.
2) Se tiver exportado somente os valores numéricos (e não os
rótulos) das variáveis categóricas, edite o arquivo com os
rótulos das variáveis categóricas para que ele fique no
formato de input da função labels2R() do pacote descr. Essa
função facilita a criação de código para converter variáveis
numéricas em factor.
3a) Se a base de dados for menor do que a RAM (memória do chip
do computador), use a função fread() do pacote data.table
para ler a base de dados em formato texto porque a função
read.table() do pacote base precisa de uma memória várias
vezes maior do que o banco de dados.
3b) Se o arquivo da base de dados em formato texto for maior do
que a RAM, use as funções do pacote sqldf para trabalhar com
apenas parte da base de dados.
4) Use a função labels2R() e o arquivo criado no passo 2 para
codificar as variáveis categóricas.
--
Jakson Alves de Aquino
Universidade Federal do Ceará
Departamento de Ciências Sociais
www.lepem.ufc.br/aquino.php
Mais detalhes sobre a lista de discussão R-br