[R-br] Fwd: Fwd: [Dúvida] Ler dados direto no HD

Luis Iván Ortiz Valencia liov2067 em gmail.com
Segunda Março 28 11:53:51 BRT 2011


obrigado pelas dicas...desculpe Benilton.

Em 28 de março de 2011 11:51, Bernardo Rangel Tura
<tura em centroin.com.br>escreveu:

>  Luiz,
>
> se você for trabalhar com mais de 4Gb de RAM use tudo 64-bits (processador
> e sistema) senão use tudo 32-bits
>
> []s
> Tura
>
> *---------- Original Message -----------*
> From: Luis Iván Ortiz Valencia <liov2067 em gmail.com>
> To: r-br em listas.c3sl.ufpr.br
> Sent: Mon, 28 Mar 2011 09:25:42 -0300
> Subject: Re: [R-br] Fwd: Fwd: [Dúvida] Ler dados direto no HD
>
> > Pegando a linha, desculpem o OFF TOPIC, recomendam o UBUNTU 32 ou o
> UBUNTU 64 bits?
> >
> > Luis Ivan.
> >
> > Em 28 de março de 2011 08:54, Pedro Rafael <
> pedro.rafael.marinho em gmail.com> escreveu:
> >
>>
>> É Tura, vou voltar ao Free BSD ou mesmo o Linux devido estes gerenciar de
>> uma melhor forma a memória. Vou investir alguns reais em uma CPU. Meu
>> problema eu já resolvi filtrando as variáveis de interesse o que reduziu  e
>> muito em MB a o tamanho da base de dados. Estou agora tentando entender e me
>> pondo em uma situação que tenho uma base de dados enorme e como tratar esse
>> problema no R. Estou percebendo que caso o que eu precise trabalha em uma
>> base de dados que seja realmente grande, ou seja, se mesmo depois de filtrar
>> meus interesses no banco o a base continua com vários GB tenho que ter uma
>> memória RAM elevada. Vou olhar com mais carinho o pacote bigmemory e o SOAR.
>>
>> >
>> > Pedro
>> >
>> > ---------- Mensagem encaminhada ----------
>> > De: Bernardo Rangel Tura [via R-br] <
>> ml-node+3411136-758674982-223914 em n4.nabble.com>
>> > Data: 28 de março de 2011 06:21
>> > Assunto: Re: [R-br] Fwd: [Dúvida] Ler dados direto no HD
>> >
>> > Para: Pedro Rafael Diniz Marinho <pedro.rafael.marinho em gmail.com>
>> >
>> > On Sun, 2011-03-27 at 15:20 -0300, Pedro Rafael wrote:
>> >
>> > > Tura,
>> > >
>> > > mas mesmo assim isso é um grande problema. Você leu uma base de 12 gb.
>>
>> > > Se tivesse lido uma de 1 tera. O R iria tentar colocar tudo na RAM?
>> > > Era pra existir algum gerenciamente automático de memória. Se agrava
>> > > ainda mais quando estou no Windows. Eu trabalho na secretaria de saúde
>>
>> > > com dados do SIM, SINAN e SINASC e na verdade não tenho grandes
>> > > problemas mas tava pensando como seria trabalhar com uma base de dados
>>
>> > > 50 vezes maior como seria usando o R....? Acho que vou montar um bom
>> > > computador com memória RAM lá em cima e comprar uma placa de vídeo da
>> > > nvidia e programar em Cuda para fazer as contas diretamente na placa
>> > > de video que é mais rápido kkkkkkkkkkkkkkkkkkkkkkkk
>> > > Sim Tura ajudou as dicas, como você falou para as base de dados os
>> > > comandos que você me passou em que não trasformam em fatores algumas
>> > > variaveis melhorou um pouco o problema.
>> > >
>> > > --
>> > > Saudações,
>> > > Pedro Rafael Diniz Marinho - Estatístico SES-PB
>> > Rafael,
>> >
>> > Acho que você não entende o problema ...
>> >
>> > Se você precisa realmente manipular X Gb de dados você tem que ter mais
>> > de X Gg de RAM. Volto a repetir nenhum programa do mundo pode trabalhar
>> > com dados fora da RAM. Se você usar o dado ele tem que estar na RAM.
>> >
>> > Acho que você está confundindo o tamanho da base de dados com quanto de
>> > RAm você precisa para trabalhar. Recentemente para uma demanda precisei
>> > avaliar todas as internações no Brasil em 2008. Ao todo são 324 arquivos
>>
>> > totalizando 4,8 Gb logo a maior parte das pessoa dirão preciso de 6 Gb
>> > ou mais para mexer nesta base. Porém o conjunto de dados que preciso
>> > para a análise totalizava 141 Mb.
>> >
>> > Desta form fiz um script que li cada base de dados em um diretório
>> > selecionava o conjunto de dados (subset) num arquivo temporário e
>> > escrevia em csv no disco. Após isto lia todos os arquivos csv de uma vez
>>
>> > só e os unificava com rbind em um único arquivo que utilizando save se
>> > transformou em 1 arquivo .RData de 141 mb.
>> >
>> > Este script pode se rodado num computador com 2 Gb de RAM! Afinal o
>> > maior arquivo tem menos de 100 Mb.
>> >
>> > Vou te dar um conselho de alguém que mexe com bases DATASUS faz tempo.
>> > larga o windows, os paciente com demência gerenciam suas memorias melhor
>>
>> > que ele em 2006 larguei o windows justamente por isso.
>> >
>> > Se quiser comprar um computador escolha um com vários núcleos (Phenom X6
>>
>> > por exemplo)  e compre RAM. Na minha experiência usar CUDA não vale a
>> > pena para isto. CUDA é bom para situações onde vc tem uma quantidade
>> > enorme de cálculos e não manipulação de dados
>> >
>> > --
>> > []s
>> > Tura
>> >
>> > _______________________________________________
>> > R-br mailing list
>> > [hidden email]<http://user/SendEmail.jtp?type=node&node=3411136&i=0&by-user=t>
>> >
>> > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> >
>> >
>> ------------------------------
>>
>> >
>> > If you reply to this email, your message will be added to the discussion
>> below:
>> http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p3411136.html
>> >
>> > To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
>>
>> >
>>
>> > --
>> >
>> > Saudações,
>> > Pedro Rafael Diniz Marinho - Estatístico SES-PB
>> >
>> > Currículo Lattes:
>> http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6
>> >
>> > _______________________________________________
>> > R-br mailing list
>> > R-br em listas.c3sl.ufpr.br
>> > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> >
>> >
>
>
> >
>
> > --
> > Luis Iván Ortiz Valencia
> > Doutorando Saúde Pública - Epidemiologia, IESC, UFRJ
> > Estatístico Msc.
> > Spatial Analyst Msc.
> > ...............................................
> > Curriculum Lattes
> >
> > http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4778724J3
> > ...............................................
> > Aquarela Cusco Hostel Perú
> >
> > http://www.aquarelacuscohostel.com/
> > ...............................................
> *------- End of Original Message -------*
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>
>


-- 
Luis Iván Ortiz Valencia
Doutorando Saúde Pública - Epidemiologia, IESC, UFRJ
Estatístico Msc.
Spatial Analyst Msc.
...............................................
Curriculum Lattes

http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4778724J3
...............................................
Aquarela Cusco Hostel Perú

http://www.aquarelacuscohostel.com/
...............................................
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20110328/4d45d65f/attachment.html>


Mais detalhes sobre a lista de discussão R-br