<HTML>
<HEAD>
<META content="text/html; charset=iso-8859-1" http-equiv=Content-Type>
<META content="OPENWEBMAIL" name=GENERATOR>
</HEAD>
<BODY bgColor=#ffffff>
<font size="2">Pedro,
<br />
<br />Eu tenho trabalhado com uma outra base de 80 Gb, mais que os meus atuais 16 Gb de RAM, a solução foi o MYSQL .
<br />Eu planejo a minha analise e faco query SQL de dentro do R direto ao servidor de dados.
<br />
<br />[]s
<br />Tura
<br />
<br /><b>---------- Original Message
-----------</b>
<br />
From: Pedro Rafael <pedro.rafael.marinho@gmail.com>
<br />
To: r-br@listas.c3sl.ufpr.br
<br />
Sent: Mon, 28 Mar 2011 08:54:58 -0300
<br />
Subject: [R-br] Fwd: Fwd: [Dúvida] Ler dados direto no HD
<br />
<br />> É Tura, vou voltar ao Free BSD ou mesmo o Linux devido estes gerenciar
de uma melhor forma a memória. Vou investir alguns reais em uma CPU. Meu
problema eu já resolvi filtrando as variáveis de interesse o que reduziu e
muito em MB a o tamanho da base de dados. Estou agora tentando entender e me
pondo em uma situação que tenho uma base de dados enorme e como tratar esse
problema no R. Estou percebendo que caso o que eu precise trabalha em uma base
de dados que seja realmente grande, ou seja, se mesmo depois de filtrar meus
interesses no banco o a base continua com vários GB tenho que ter uma memória
RAM elevada. Vou olhar com mais carinho o pacote bigmemory e o SOAR.
<br />>
<br />> Pedro
<br />>
<br />> ---------- Mensagem encaminhada
----------
<br />> De: <b class="gmail_sendername">Bernardo Rangel Tura [via
R-br]</b> <span dir="ltr"><<a href="mailto:ml-node%2B3411136-758674982-223914@n4.nabble.com">ml-node+3411136-758674982-223914@n4.nabble.com</a>></span>
<br />>
Data: 28 de março de 2011 06:21
<br />> Assunto: Re: [R-br] Fwd: [Dúvida] Ler
dados direto no HD
<br />> Para: Pedro Rafael Diniz Marinho <<a href="mailto:pedro.rafael.marinho@gmail.com">pedro.rafael.marinho@gmail.com</a>>
<br />>
<br />>
On Sun, 2011-03-27 at 15:20 -0300, Pedro Rafael
wrote:
<br />>
<br />> >
Tura,
<br />> >
<br />> > mas mesmo assim isso é um grande problema. Você leu uma base de 12
gb.
<br />> > Se tivesse lido uma de 1 tera. O R iria tentar colocar tudo na
RAM?
<br />> > Era pra existir algum gerenciamente automático de memória. Se
agrava
<br />> > ainda mais quando estou no Windows. Eu trabalho na secretaria de
saúde
<br />> > com dados do SIM, SINAN e SINASC e na verdade não tenho
grandes
<br />> > problemas mas tava pensando como seria trabalhar com uma base de
dados
<br />> > 50 vezes maior como seria usando o R....? Acho que vou montar um
bom
<br />> > computador com memória RAM lá em cima e comprar uma placa de vídeo
da
<br />> > nvidia e programar em Cuda para fazer as contas diretamente na
placa
<br />> > de video que é mais rápido
kkkkkkkkkkkkkkkkkkkkkkkk
<br />> > Sim Tura ajudou as dicas, como você falou para as base de dados
os
<br />> > comandos que você me passou em que não trasformam em fatores
algumas
<br />> > variaveis melhorou um pouco o
problema.
<br />> >
<br />> > --
<br />> >
Saudações,
<br />> > Pedro Rafael Diniz Marinho - Estatístico
SES-PB
<br />>
Rafael,
<br />>
<br />> Acho que você não entende o problema
...
<br />>
<br />> Se você precisa realmente manipular X Gb de dados você tem que
ter
mais
<br />> de X Gg de RAM. Volto a repetir nenhum programa do mundo pode
trabalhar
<br />> com dados fora da RAM. Se você usar o dado ele tem que estar na
RAM.
<br />>
<br />> Acho que você está confundindo o tamanho da base de dados com
quanto
de
<br />> RAm você precisa para trabalhar. Recentemente para uma demanda
precisei
<br />> avaliar todas as internações no Brasil em 2008. Ao todo são 324
arquivos
<br />> totalizando 4,8 Gb logo a maior parte das pessoa dirão preciso de 6
Gb
<br />> ou mais para mexer nesta base. Porém o conjunto de dados que
preciso
<br />> para a análise totalizava 141 Mb.
<br />>
<br />> Desta form fiz um script que li cada base de dados em um
diretório
<br />> selecionava o conjunto de dados (subset) num arquivo temporário
e
<br />> escrevia em csv no disco. Após isto lia todos os arquivos csv de uma
vez
<br />> só e os unificava com rbind em um único arquivo que utilizando save
se
<br />> transformou em 1 arquivo .RData de 141
mb.
<br />>
<br />> Este script pode se rodado num computador com 2 Gb de RAM!
Afinal
o
<br />> maior arquivo tem menos de 100
Mb.
<br />>
<br />> Vou te dar um conselho de alguém que mexe com bases DATASUS
faz
tempo.
<br />> larga o windows, os paciente com demência gerenciam suas memorias
melhor
<br />> que ele em 2006 larguei o windows justamente por
isso.
<br />>
<br />> Se quiser comprar um computador escolha um com vários núcleos
(Phenom
X6
<br />> por exemplo) e compre RAM. Na minha experiência usar CUDA não vale
a
<br />> pena para isto. CUDA é bom para situações onde vc tem uma
quantidade
<br />> enorme de cálculos e não manipulação de
dados
<br />>
<br />> --
<br />>
[]s
<br />>
Tura
<br />>
<br />>
_______________________________________________
<br />> R-br mailing
list
<br />> <a target="_blank" link="external" rel="nofollow" href="http://user/SendEmail.jtp?type=node&node=3411136&i=0&by-user=t">[hidden
email]</a>
<br />> <a target="_blank" link="external" rel="nofollow" href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a>
<br />>
<br />>
<hr color="#cccccc" size="1" noshade="" />
<br />>
<br />> If you reply to this email, your message will be added to the
discussion
below:
<a target="_blank" href="http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p3411136.html">http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p3411136.html</a>
<br />>
<br />>
To unsubscribe from R-br, <a target="_blank" href="http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw">click
here</a>.
<br />>
<br clear="all" />
<br />> --
<br />> Saudações,
<br />> Pedro Rafael
Diniz Marinho - Estatístico SES-PB
<br />> Currículo Lattes: <a target="_blank" href="http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6">http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6</a>
<br /><b>------- End of Original Message
-------</b>
<br />
</font>
</BODY>
</HTML>