[R-br] Bases Grandes

Jakson Alves de Aquino jalvesaq em gmail.com
Sexta Fevereiro 7 12:45:21 BRST 2014


Em 07-02-2014 11:14, Gerson R. Primo Jr escreveu:
> Estou migrando meus processos do SPSS, para o R e tenho encontrado
> dificuldade na input de bases muito grandes. Tipo: 1,5Gb, com ~3 milhões
> de registros.
> Alguém sabe de algum pacote para trabalhar com bases grandes?

Sugestão de procedimento:

  1) Exporte a base de dados para algum formato texto (valores
     separados por vírgula, ponto e vírgula ou por tabulação). Se
     o arquivo for realmente muito grande, escolha a opção de
     salvar as variáveis categóricas como números e não como
     rótulos e, neste caso, crie também um arquivo com os rótulos.
     Você pode usar o SPSS ou o PSPP para exportar a base de
     dados.

  2) Se tiver exportado somente os valores numéricos (e não os
     rótulos) das variáveis categóricas, edite o arquivo com os
     rótulos das variáveis categóricas para que ele fique no
     formato de input da função labels2R() do pacote descr. Essa
     função facilita a criação de código para converter variáveis
     numéricas em factor.

  3a) Se a base de dados for menor do que a RAM (memória do chip
     do computador), use a função fread() do pacote data.table
     para ler a base de dados em formato texto porque a função
     read.table() do pacote base precisa de uma memória várias
     vezes maior do que o banco de dados.

  3b) Se o arquivo da base de dados em formato texto for maior do
     que a RAM, use as funções do pacote sqldf para trabalhar com
     apenas parte da base de dados.

  4) Use a função labels2R() e o arquivo criado no passo 2 para
     codificar as variáveis categóricas.

-- 
Jakson Alves de Aquino
Universidade Federal do Ceará
Departamento de Ciências Sociais
www.lepem.ufc.br/aquino.php


Mais detalhes sobre a lista de discussão R-br