[R-br] Fwd: Fwd: [Dúvida] Ler dados direto no HD

Pedro Rafael pedro.rafael.marinho em gmail.com
Segunda Março 28 08:54:58 BRT 2011


É Tura, vou voltar ao Free BSD ou mesmo o Linux devido estes gerenciar de
uma melhor forma a memória. Vou investir alguns reais em uma CPU. Meu
problema eu já resolvi filtrando as variáveis de interesse o que reduziu  e
muito em MB a o tamanho da base de dados. Estou agora tentando entender e me
pondo em uma situação que tenho uma base de dados enorme e como tratar esse
problema no R. Estou percebendo que caso o que eu precise trabalha em uma
base de dados que seja realmente grande, ou seja, se mesmo depois de filtrar
meus interesses no banco o a base continua com vários GB tenho que ter uma
memória RAM elevada. Vou olhar com mais carinho o pacote bigmemory e o SOAR.

Pedro

---------- Mensagem encaminhada ----------
De: Bernardo Rangel Tura [via R-br] <
ml-node+3411136-758674982-223914 em n4.nabble.com>
Data: 28 de março de 2011 06:21
Assunto: Re: [R-br] Fwd: [Dúvida] Ler dados direto no HD
Para: Pedro Rafael Diniz Marinho <pedro.rafael.marinho em gmail.com>


On Sun, 2011-03-27 at 15:20 -0300, Pedro Rafael wrote:

> Tura,
>
> mas mesmo assim isso é um grande problema. Você leu uma base de 12 gb.
> Se tivesse lido uma de 1 tera. O R iria tentar colocar tudo na RAM?
> Era pra existir algum gerenciamente automático de memória. Se agrava
> ainda mais quando estou no Windows. Eu trabalho na secretaria de saúde
> com dados do SIM, SINAN e SINASC e na verdade não tenho grandes
> problemas mas tava pensando como seria trabalhar com uma base de dados
> 50 vezes maior como seria usando o R....? Acho que vou montar um bom
> computador com memória RAM lá em cima e comprar uma placa de vídeo da
> nvidia e programar em Cuda para fazer as contas diretamente na placa
> de video que é mais rápido kkkkkkkkkkkkkkkkkkkkkkkk
> Sim Tura ajudou as dicas, como você falou para as base de dados os
> comandos que você me passou em que não trasformam em fatores algumas
> variaveis melhorou um pouco o problema.
>
> --
> Saudações,
> Pedro Rafael Diniz Marinho - Estatístico SES-PB

Rafael,

Acho que você não entende o problema ...

Se você precisa realmente manipular X Gb de dados você tem que ter mais
de X Gg de RAM. Volto a repetir nenhum programa do mundo pode trabalhar
com dados fora da RAM. Se você usar o dado ele tem que estar na RAM.

Acho que você está confundindo o tamanho da base de dados com quanto de
RAm você precisa para trabalhar. Recentemente para uma demanda precisei
avaliar todas as internações no Brasil em 2008. Ao todo são 324 arquivos
totalizando 4,8 Gb logo a maior parte das pessoa dirão preciso de 6 Gb
ou mais para mexer nesta base. Porém o conjunto de dados que preciso
para a análise totalizava 141 Mb.

Desta form fiz um script que li cada base de dados em um diretório
selecionava o conjunto de dados (subset) num arquivo temporário e
escrevia em csv no disco. Após isto lia todos os arquivos csv de uma vez
só e os unificava com rbind em um único arquivo que utilizando save se
transformou em 1 arquivo .RData de 141 mb.

Este script pode se rodado num computador com 2 Gb de RAM! Afinal o
maior arquivo tem menos de 100 Mb.

Vou te dar um conselho de alguém que mexe com bases DATASUS faz tempo.
larga o windows, os paciente com demência gerenciam suas memorias melhor
que ele em 2006 larguei o windows justamente por isso.

Se quiser comprar um computador escolha um com vários núcleos (Phenom X6
por exemplo)  e compre RAM. Na minha experiência usar CUDA não vale a
pena para isto. CUDA é bom para situações onde vc tem uma quantidade
enorme de cálculos e não manipulação de dados



-- 
[]s
Tura

_______________________________________________
R-br mailing list
[hidden email]<http://user/SendEmail.jtp?type=node&node=3411136&i=0&by-user=t>
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br


------------------------------
 If you reply to this email, your message will be added to the discussion
below:
http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p3411136.html
 To unsubscribe from R-br, click
here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.




-- 
Saudações,
Pedro Rafael Diniz Marinho - Estatístico SES-PB
Currículo Lattes:
http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20110328/8697aab1/attachment-0001.html>


Mais detalhes sobre a lista de discussão R-br