[Dúvida] Ler dados direto no HD

Pessoal como faço para ler uma banco de dados com extensão .dbf ou qualquer outra base de dados sem que o R a jogue na RAM? Tenho um banco de dados com aproximadamente 700 MB e quando leio o arquivo com a função read.bdf()percebo que o R joga a base na memória RAM o que prejudica o desempenho do sistema. Softwares simples como o Tabwin por exemplo não demora à carregar essa base nem trava o computador. Será que o R não tem como carregar essa base sem tantos problemas? Saudações à todos, Pedro Rafael Diniz Marinho -- View this message in context: http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p34... Sent from the R-br mailing list archive at Nabble.com.

Se a manipulacao posterior puder ser feita apenas com fracoes de dados, converta o DBF para algum formato que seja melhor manipulado (txt, MySQL, SQLite). Se converter para txt, use leitura por conexao: conn = file('arquivo.txt', 'r') dadosparciais = read.table(conn, nr=10) ## le as primeiras 10 linhas dadosparciais = read.table(conn, nr=30) ## le as proximas 30 linhas close(conn) As repeticoes de read.table (ou read.delim e variantes) sao geralmente postas num laco (for ou while). Se vc converter para algum banco de dados "mais recente", voce pode usar fetch(). Por exemplo, se fosse SQLite: conn = dbConnect(dbDriver("SQLite"), "arquivo.db") res = dbSendQuery(conn, "SELECT * FROM tabela") parcial = fetch(res, 10) ## as 10 primeiras parcial = fetch(res, 30) ## as proximas 30 b 2011/3/23 ivanalaman <ivanalaman@yahoo.com.br>:
Pessoal como faço para ler uma banco de dados com extensão .dbf ou qualquer outra base de dados sem que o R a jogue na RAM? Tenho um banco de dados com aproximadamente 700 MB e quando leio o arquivo com a função read.bdf()percebo que o R joga a base na memória RAM o que prejudica o desempenho do sistema. Softwares simples como o Tabwin por exemplo não demora à carregar essa base nem trava o computador. Será que o R não tem como carregar essa base sem tantos problemas?
Saudações à todos, Pedro Rafael Diniz Marinho
-- View this message in context: http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p34... Sent from the R-br mailing list archive at Nabble.com. _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br

On Wed, 2011-03-23 at 15:01 -0700, ivanalaman wrote:
Pessoal como faço para ler uma banco de dados com extensão .dbf ou qualquer outra base de dados sem que o R a jogue na RAM? Tenho um banco de dados com aproximadamente 700 MB e quando leio o arquivo com a função read.bdf()percebo que o R joga a base na memória RAM o que prejudica o desempenho do sistema. Softwares simples como o Tabwin por exemplo não demora à carregar essa base nem trava o computador. Será que o R não tem como carregar essa base sem tantos problemas?
Saudações à todos, Pedro Rafael Diniz Marinho
Pedro, Primeiro de tudo nenhum programa do mundo le dados sem os colocar na RAM pois isto é estruturalmente impossível, pois tudo que um computador faz ele o faz pela RAM. Segundo acho estranho o sistema deteriorar com tão pouco uso, já trabalhei com bancos DBF na faixa de 3 gb sem problemas, quanto você tem de RAM ? Qual o sistema operacional que você utiliza? De todo o jeito vão alguns conselhos 1- leia o banco processe e salve em Rdata, fica lento um única vez depois tudo fica mais fácil 2- Pelo menos nos bancos do datasus usar a opção as.is=TRUE no read.dbf é melhor 3- digite ls() e veja se não há algo de inútil no R que você possa retirar 4- se nada mais resolve experimente o pacote SOAR -- []s Tura

*Tura, sou usuário assíduo do SOAR, mas em alguns casos não recomendo. Supondo que o Pedro esteja com o R sem nenhum outro objeto salvo na memoria e o sistema não está suportando, o SOAR nada mais vai fazer do que retirar os objetos da RAM e colocar no HD, mas todas as vezes que você precisar utilizá-lo ele colocará de novo o objeto na RAM. Portanto, não vejo justificativa para o uso do SOAR em alguns casos. Por favor, me corrija se estiver errado um abraço, Leandro *Atenciosamente, Leandro Marino http://www.leandromarino.com.br (Fotógrafo) http://est.leandromarino.com.br/Blog (Estatístico) Cel.: + 55 21 9845-7707 Cel.: + 55 21 8777-7907 Em 24 de março de 2011 06:56, Bernardo Rangel Tura <tura@centroin.com.br>escreveu:
On Wed, 2011-03-23 at 15:01 -0700, ivanalaman wrote:
Pessoal como faço para ler uma banco de dados com extensão .dbf ou qualquer outra base de dados sem que o R a jogue na RAM? Tenho um banco de dados com aproximadamente 700 MB e quando leio o arquivo com a função read.bdf()percebo que o R joga a base na memória RAM o que prejudica o desempenho do sistema. Softwares simples como o Tabwin por exemplo não demora à carregar essa base nem trava o computador. Será que o R não tem como carregar essa base sem tantos problemas?
Saudações à todos, Pedro Rafael Diniz Marinho
Pedro,
Primeiro de tudo nenhum programa do mundo le dados sem os colocar na RAM pois isto é estruturalmente impossível, pois tudo que um computador faz ele o faz pela RAM.
Segundo acho estranho o sistema deteriorar com tão pouco uso, já trabalhei com bancos DBF na faixa de 3 gb sem problemas, quanto você tem de RAM ? Qual o sistema operacional que você utiliza?
De todo o jeito vão alguns conselhos
1- leia o banco processe e salve em Rdata, fica lento um única vez depois tudo fica mais fácil
2- Pelo menos nos bancos do datasus usar a opção as.is=TRUE no read.dbf é melhor
3- digite ls() e veja se não há algo de inútil no R que você possa retirar
4- se nada mais resolve experimente o pacote SOAR -- []s Tura
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br

On Thu, 2011-03-24 at 09:16 -0300, Leandro Marino wrote:
Tura,
sou usuário assíduo do SOAR, mas em alguns casos não recomendo. Supondo que o Pedro esteja com o R sem nenhum outro objeto salvo na memoria e o sistema não está suportando, o SOAR nada mais vai fazer do que retirar os objetos da RAM e colocar no HD, mas todas as vezes que você precisar utilizá-lo ele colocará de novo o objeto na RAM. Portanto, não vejo justificativa para o uso do SOAR em alguns casos.
Por favor, me corrija se estiver errado
um abraço, Leandro
Atenciosamente, Leandro Marino
Leandro, Usei o SOAR uma ou duas vezes. Na imensa maioria das vezes não tenho problema com memoria no R. Tive muitos problemas até outubro de 2006 quando abandonei o Windows e mudei para o Linux (uso Ubuntu); depois disso quase não ocorreram... Atualmente uso um R compilado para 64 bits otimizado para o meu Phenom (processador de 64 bits) com 16 Gb de RAM e esta semana utilizei um banco de 12 Gb sem problema. A princípio sua observação é verdade mas com não temos outros detalhes dei algumas sugestões genéricas -- []s Tura

Tura, mas mesmo assim isso é um grande problema. Você leu uma base de 12 gb. Se tivesse lido uma de 1 tera. O R iria tentar colocar tudo na RAM? Era pra existir algum gerenciamente automático de memória. Se agrava ainda mais quando estou no Windows. Eu trabalho na secretaria de saúde com dados do SIM, SINAN e SINASC e na verdade não tenho grandes problemas mas tava pensando como seria trabalhar com uma base de dados 50 vezes maior como seria usando o R....? Acho que vou montar um bom computador com memória RAM lá em cima e comprar uma placa de vídeo da nvidia e programar em Cuda para fazer as contas diretamente na placa de video que é mais rápido kkkkkkkkkkkkkkkkkkkkkkkk Sim Tura ajudou as dicas, como você falou para as base de dados os comandos que você me passou em que não trasformam em fatores algumas variaveis melhorou um pouco o problema. -- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB Currículo Lattes: http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6 ---------- Mensagem encaminhada ---------- De: Bernardo Rangel Tura [via R-br] < ml-node+3404314-1098973867-223914@n4.nabble.com> Data: 24 de março de 2011 23:45 Assunto: Re: [R-br] [Dúvida] Ler dados direto no HD Para: Pedro Rafael Diniz Marinho <pedro.rafael.marinho@gmail.com> On Thu, 2011-03-24 at 09:16 -0300, Leandro Marino wrote:
Tura,
sou usuário assíduo do SOAR, mas em alguns casos não recomendo. Supondo que o Pedro esteja com o R sem nenhum outro objeto salvo na memoria e o sistema não está suportando, o SOAR nada mais vai fazer do que retirar os objetos da RAM e colocar no HD, mas todas as vezes que você precisar utilizá-lo ele colocará de novo o objeto na RAM. Portanto, não vejo justificativa para o uso do SOAR em alguns casos.
Por favor, me corrija se estiver errado
um abraço, Leandro
Atenciosamente, Leandro Marino
Leandro, Usei o SOAR uma ou duas vezes. Na imensa maioria das vezes não tenho problema com memoria no R. Tive muitos problemas até outubro de 2006 quando abandonei o Windows e mudei para o Linux (uso Ubuntu); depois disso quase não ocorreram... Atualmente uso um R compilado para 64 bits otimizado para o meu Phenom (processador de 64 bits) com 16 Gb de RAM e esta semana utilizei um banco de 12 Gb sem problema. A princípio sua observação é verdade mas com não temos outros detalhes dei algumas sugestões genéricas -- []s Tura _______________________________________________ R-br mailing list [hidden email]<http://user/SendEmail.jtp?type=node&node=3404314&i=0&by-user=t> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br ------------------------------ If you reply to this email, your message will be added to the discussion below: http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p34... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>. -- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB Currículo Lattes: http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6

O R existe na forma que conhecemos hoje gracas a contribuicoes de muitos desenvolvedores que, na maior parte das partes, "funcionam apenas pelo entusiasmo" (nao sao pagos para isso). Por isso, existem itens que acabam sendo tratados de forma secundaria quando comparados a outras aplicacoes. Isso ainda fica mais grave quando voce observa a numero de aplicacoes em que podemos usar o R (por exemplo, se ele fosse apenas para lidar com DBF, tenho certeza que mais opcoes estariam disponiveis). Projetos como ff, bigmemory, ncdf tentam prover uma solucao para o problema que voce descreve, mas ainda com limitacoes. A R Foundation entende que a manipulacao de bases de dados grandes e' um problema relevante (o ff e o bigmemory foram premiados por suas solucoes), mas as restricoes nesses produtos ainda sao significativas o suficiente para evitar que elas sejam embutidas no R-base para funcionamento transparente. Tenho certeza que uma vez que elas produzam os resultados esperados, as mesmas serao trazidas para o R-base e todos poderao beneficiar-se usando modelos de programacao mais naturais. Outras propostas tambem podem ser feitas e e' comum apresenta-las em projetos como o Google Summer of Code. Sobre o uso de CUDA, se voce estiver mesmo disposto a tentar algo como, veja os pacotes 'rgpu' e 'gputools'. E tambem lembre-se da existencia de restricoes na distribuicao do codigo (dependendo das ferramentas que vc usar, vide as opcoes de licenca do CULA). Por enquanto, nao sao todos os hardwares da NVIDIA que permitem calculos em precisao dupla... Em contrapartida, uma opcao que "permite cobranca" eh o uso de ferramentas como a implementacao do R provida pela Revolution Analytics... b 2011/3/27 Pedro Rafael <pedro.rafael.marinho@gmail.com>:
Tura,
mas mesmo assim isso é um grande problema. Você leu uma base de 12 gb. Se tivesse lido uma de 1 tera. O R iria tentar colocar tudo na RAM? Era pra existir algum gerenciamente automático de memória. Se agrava ainda mais quando estou no Windows. Eu trabalho na secretaria de saúde com dados do SIM, SINAN e SINASC e na verdade não tenho grandes problemas mas tava pensando como seria trabalhar com uma base de dados 50 vezes maior como seria usando o R....? Acho que vou montar um bom computador com memória RAM lá em cima e comprar uma placa de vídeo da nvidia e programar em Cuda para fazer as contas diretamente na placa de video que é mais rápido kkkkkkkkkkkkkkkkkkkkkkkk Sim Tura ajudou as dicas, como você falou para as base de dados os comandos que você me passou em que não trasformam em fatores algumas variaveis melhorou um pouco o problema.
-- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB Currículo Lattes: http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6 ---------- Mensagem encaminhada ---------- De: Bernardo Rangel Tura [via R-br] <ml-node+3404314-1098973867-223914@n4.nabble.com> Data: 24 de março de 2011 23:45 Assunto: Re: [R-br] [Dúvida] Ler dados direto no HD Para: Pedro Rafael Diniz Marinho <pedro.rafael.marinho@gmail.com>
On Thu, 2011-03-24 at 09:16 -0300, Leandro Marino wrote:
Tura,
sou usuário assíduo do SOAR, mas em alguns casos não recomendo. Supondo que o Pedro esteja com o R sem nenhum outro objeto salvo na memoria e o sistema não está suportando, o SOAR nada mais vai fazer do que retirar os objetos da RAM e colocar no HD, mas todas as vezes que você precisar utilizá-lo ele colocará de novo o objeto na RAM. Portanto, não vejo justificativa para o uso do SOAR em alguns casos.
Por favor, me corrija se estiver errado
um abraço, Leandro
Atenciosamente, Leandro Marino Leandro,
Usei o SOAR uma ou duas vezes.
Na imensa maioria das vezes não tenho problema com memoria no R.
Tive muitos problemas até outubro de 2006 quando abandonei o Windows e mudei para o Linux (uso Ubuntu); depois disso quase não ocorreram...
Atualmente uso um R compilado para 64 bits otimizado para o meu Phenom (processador de 64 bits) com 16 Gb de RAM e esta semana utilizei um banco de 12 Gb sem problema.
A princípio sua observação é verdade mas com não temos outros detalhes dei algumas sugestões genéricas -- []s Tura
_______________________________________________ R-br mailing list [hidden email] https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
________________________________ If you reply to this email, your message will be added to the discussion below: http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p34... To unsubscribe from R-br, click here.
-- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB Currículo Lattes: http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br

On Sun, 2011-03-27 at 15:20 -0300, Pedro Rafael wrote:
Tura,
mas mesmo assim isso é um grande problema. Você leu uma base de 12 gb. Se tivesse lido uma de 1 tera. O R iria tentar colocar tudo na RAM? Era pra existir algum gerenciamente automático de memória. Se agrava ainda mais quando estou no Windows. Eu trabalho na secretaria de saúde com dados do SIM, SINAN e SINASC e na verdade não tenho grandes problemas mas tava pensando como seria trabalhar com uma base de dados 50 vezes maior como seria usando o R....? Acho que vou montar um bom computador com memória RAM lá em cima e comprar uma placa de vídeo da nvidia e programar em Cuda para fazer as contas diretamente na placa de video que é mais rápido kkkkkkkkkkkkkkkkkkkkkkkk Sim Tura ajudou as dicas, como você falou para as base de dados os comandos que você me passou em que não trasformam em fatores algumas variaveis melhorou um pouco o problema.
-- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB
Rafael, Acho que você não entende o problema ... Se você precisa realmente manipular X Gb de dados você tem que ter mais de X Gg de RAM. Volto a repetir nenhum programa do mundo pode trabalhar com dados fora da RAM. Se você usar o dado ele tem que estar na RAM. Acho que você está confundindo o tamanho da base de dados com quanto de RAm você precisa para trabalhar. Recentemente para uma demanda precisei avaliar todas as internações no Brasil em 2008. Ao todo são 324 arquivos totalizando 4,8 Gb logo a maior parte das pessoa dirão preciso de 6 Gb ou mais para mexer nesta base. Porém o conjunto de dados que preciso para a análise totalizava 141 Mb. Desta form fiz um script que li cada base de dados em um diretório selecionava o conjunto de dados (subset) num arquivo temporário e escrevia em csv no disco. Após isto lia todos os arquivos csv de uma vez só e os unificava com rbind em um único arquivo que utilizando save se transformou em 1 arquivo .RData de 141 mb. Este script pode se rodado num computador com 2 Gb de RAM! Afinal o maior arquivo tem menos de 100 Mb. Vou te dar um conselho de alguém que mexe com bases DATASUS faz tempo. larga o windows, os paciente com demência gerenciam suas memorias melhor que ele em 2006 larguei o windows justamente por isso. Se quiser comprar um computador escolha um com vários núcleos (Phenom X6 por exemplo) e compre RAM. Na minha experiência usar CUDA não vale a pena para isto. CUDA é bom para situações onde vc tem uma quantidade enorme de cálculos e não manipulação de dados -- []s Tura

É Tura, vou voltar ao Free BSD ou mesmo o Linux devido estes gerenciar de uma melhor forma a memória. Vou investir alguns reais em uma CPU. Meu problema eu já resolvi filtrando as variáveis de interesse o que reduziu e muito em MB a o tamanho da base de dados. Estou agora tentando entender e me pondo em uma situação que tenho uma base de dados enorme e como tratar esse problema no R. Estou percebendo que caso o que eu precise trabalha em uma base de dados que seja realmente grande, ou seja, se mesmo depois de filtrar meus interesses no banco o a base continua com vários GB tenho que ter uma memória RAM elevada. Vou olhar com mais carinho o pacote bigmemory e o SOAR. Pedro ---------- Mensagem encaminhada ---------- De: Bernardo Rangel Tura [via R-br] < ml-node+3411136-758674982-223914@n4.nabble.com> Data: 28 de março de 2011 06:21 Assunto: Re: [R-br] Fwd: [Dúvida] Ler dados direto no HD Para: Pedro Rafael Diniz Marinho <pedro.rafael.marinho@gmail.com> On Sun, 2011-03-27 at 15:20 -0300, Pedro Rafael wrote:
Tura,
mas mesmo assim isso é um grande problema. Você leu uma base de 12 gb. Se tivesse lido uma de 1 tera. O R iria tentar colocar tudo na RAM? Era pra existir algum gerenciamente automático de memória. Se agrava ainda mais quando estou no Windows. Eu trabalho na secretaria de saúde com dados do SIM, SINAN e SINASC e na verdade não tenho grandes problemas mas tava pensando como seria trabalhar com uma base de dados 50 vezes maior como seria usando o R....? Acho que vou montar um bom computador com memória RAM lá em cima e comprar uma placa de vídeo da nvidia e programar em Cuda para fazer as contas diretamente na placa de video que é mais rápido kkkkkkkkkkkkkkkkkkkkkkkk Sim Tura ajudou as dicas, como você falou para as base de dados os comandos que você me passou em que não trasformam em fatores algumas variaveis melhorou um pouco o problema.
-- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB
Rafael, Acho que você não entende o problema ... Se você precisa realmente manipular X Gb de dados você tem que ter mais de X Gg de RAM. Volto a repetir nenhum programa do mundo pode trabalhar com dados fora da RAM. Se você usar o dado ele tem que estar na RAM. Acho que você está confundindo o tamanho da base de dados com quanto de RAm você precisa para trabalhar. Recentemente para uma demanda precisei avaliar todas as internações no Brasil em 2008. Ao todo são 324 arquivos totalizando 4,8 Gb logo a maior parte das pessoa dirão preciso de 6 Gb ou mais para mexer nesta base. Porém o conjunto de dados que preciso para a análise totalizava 141 Mb. Desta form fiz um script que li cada base de dados em um diretório selecionava o conjunto de dados (subset) num arquivo temporário e escrevia em csv no disco. Após isto lia todos os arquivos csv de uma vez só e os unificava com rbind em um único arquivo que utilizando save se transformou em 1 arquivo .RData de 141 mb. Este script pode se rodado num computador com 2 Gb de RAM! Afinal o maior arquivo tem menos de 100 Mb. Vou te dar um conselho de alguém que mexe com bases DATASUS faz tempo. larga o windows, os paciente com demência gerenciam suas memorias melhor que ele em 2006 larguei o windows justamente por isso. Se quiser comprar um computador escolha um com vários núcleos (Phenom X6 por exemplo) e compre RAM. Na minha experiência usar CUDA não vale a pena para isto. CUDA é bom para situações onde vc tem uma quantidade enorme de cálculos e não manipulação de dados -- []s Tura _______________________________________________ R-br mailing list [hidden email]<http://user/SendEmail.jtp?type=node&node=3411136&i=0&by-user=t> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br ------------------------------ If you reply to this email, your message will be added to the discussion below: http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p34... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>. -- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB Currículo Lattes: http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6

Pegando a linha, desculpem o OFF TOPIC, recomendam o UBUNTU 32 ou o UBUNTU 64 bits? Luis Ivan. Em 28 de março de 2011 08:54, Pedro Rafael <pedro.rafael.marinho@gmail.com>escreveu:
É Tura, vou voltar ao Free BSD ou mesmo o Linux devido estes gerenciar de uma melhor forma a memória. Vou investir alguns reais em uma CPU. Meu problema eu já resolvi filtrando as variáveis de interesse o que reduziu e muito em MB a o tamanho da base de dados. Estou agora tentando entender e me pondo em uma situação que tenho uma base de dados enorme e como tratar esse problema no R. Estou percebendo que caso o que eu precise trabalha em uma base de dados que seja realmente grande, ou seja, se mesmo depois de filtrar meus interesses no banco o a base continua com vários GB tenho que ter uma memória RAM elevada. Vou olhar com mais carinho o pacote bigmemory e o SOAR.
Pedro
---------- Mensagem encaminhada ---------- De: Bernardo Rangel Tura [via R-br] < ml-node+3411136-758674982-223914@n4.nabble.com> Data: 28 de março de 2011 06:21 Assunto: Re: [R-br] Fwd: [Dúvida] Ler dados direto no HD
Para: Pedro Rafael Diniz Marinho <pedro.rafael.marinho@gmail.com>
On Sun, 2011-03-27 at 15:20 -0300, Pedro Rafael wrote:
Tura,
mas mesmo assim isso é um grande problema. Você leu uma base de 12 gb. Se tivesse lido uma de 1 tera. O R iria tentar colocar tudo na RAM? Era pra existir algum gerenciamente automático de memória. Se agrava ainda mais quando estou no Windows. Eu trabalho na secretaria de saúde com dados do SIM, SINAN e SINASC e na verdade não tenho grandes problemas mas tava pensando como seria trabalhar com uma base de dados 50 vezes maior como seria usando o R....? Acho que vou montar um bom computador com memória RAM lá em cima e comprar uma placa de vídeo da nvidia e programar em Cuda para fazer as contas diretamente na placa de video que é mais rápido kkkkkkkkkkkkkkkkkkkkkkkk Sim Tura ajudou as dicas, como você falou para as base de dados os comandos que você me passou em que não trasformam em fatores algumas variaveis melhorou um pouco o problema.
-- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB
Rafael,
Acho que você não entende o problema ...
Se você precisa realmente manipular X Gb de dados você tem que ter mais de X Gg de RAM. Volto a repetir nenhum programa do mundo pode trabalhar com dados fora da RAM. Se você usar o dado ele tem que estar na RAM.
Acho que você está confundindo o tamanho da base de dados com quanto de RAm você precisa para trabalhar. Recentemente para uma demanda precisei avaliar todas as internações no Brasil em 2008. Ao todo são 324 arquivos totalizando 4,8 Gb logo a maior parte das pessoa dirão preciso de 6 Gb ou mais para mexer nesta base. Porém o conjunto de dados que preciso para a análise totalizava 141 Mb.
Desta form fiz um script que li cada base de dados em um diretório selecionava o conjunto de dados (subset) num arquivo temporário e escrevia em csv no disco. Após isto lia todos os arquivos csv de uma vez só e os unificava com rbind em um único arquivo que utilizando save se transformou em 1 arquivo .RData de 141 mb.
Este script pode se rodado num computador com 2 Gb de RAM! Afinal o maior arquivo tem menos de 100 Mb.
Vou te dar um conselho de alguém que mexe com bases DATASUS faz tempo. larga o windows, os paciente com demência gerenciam suas memorias melhor que ele em 2006 larguei o windows justamente por isso.
Se quiser comprar um computador escolha um com vários núcleos (Phenom X6 por exemplo) e compre RAM. Na minha experiência usar CUDA não vale a pena para isto. CUDA é bom para situações onde vc tem uma quantidade enorme de cálculos e não manipulação de dados
-- []s Tura
_______________________________________________ R-br mailing list [hidden email]<http://user/SendEmail.jtp?type=node&node=3411136&i=0&by-user=t> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
------------------------------ If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p34... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
-- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB Currículo Lattes: http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-- Luis Iván Ortiz Valencia Doutorando Saúde Pública - Epidemiologia, IESC, UFRJ Estatístico Msc. Spatial Analyst Msc. ............................................... Curriculum Lattes http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4778724J3 ............................................... Aquarela Cusco Hostel Perú http://www.aquarelacuscohostel.com/ ...............................................

Por gentileza, evite usar um thread para discutir/iniciar um assunto nao associado. Crie um novo post. A escolha entre 32/64 bits depende apenas da dimensao de dados que vc precisara analisar. Para a maioria dos usuarios, 32 bits eh suficiente. benilton 2011/3/28 Luis Iván Ortiz Valencia <liov2067@gmail.com>:
Pegando a linha, desculpem o OFF TOPIC, recomendam o UBUNTU 32 ou o UBUNTU 64 bits?
Luis Ivan.

64 bits, desde que seu processador suporte 64 bits On 28/03/2011, at 09:25, Luis Iván Ortiz Valencia wrote:
Pegando a linha, desculpem o OFF TOPIC, recomendam o UBUNTU 32 ou o UBUNTU 64 bits?
Luis Ivan.
Em 28 de março de 2011 08:54, Pedro Rafael <pedro.rafael.marinho@gmail.com>escreveu:
É Tura, vou voltar ao Free BSD ou mesmo o Linux devido estes gerenciar de uma melhor forma a memória. Vou investir alguns reais em uma CPU. Meu problema eu já resolvi filtrando as variáveis de interesse o que reduziu e muito em MB a o tamanho da base de dados. Estou agora tentando entender e me pondo em uma situação que tenho uma base de dados enorme e como tratar esse problema no R. Estou percebendo que caso o que eu precise trabalha em uma base de dados que seja realmente grande, ou seja, se mesmo depois de filtrar meus interesses no banco o a base continua com vários GB tenho que ter uma memória RAM elevada. Vou olhar com mais carinho o pacote bigmemory e o SOAR.
Pedro
---------- Mensagem encaminhada ---------- De: Bernardo Rangel Tura [via R-br] < ml-node+3411136-758674982-223914@n4.nabble.com> Data: 28 de março de 2011 06:21 Assunto: Re: [R-br] Fwd: [Dúvida] Ler dados direto no HD
Para: Pedro Rafael Diniz Marinho <pedro.rafael.marinho@gmail.com>
On Sun, 2011-03-27 at 15:20 -0300, Pedro Rafael wrote:
Tura,
mas mesmo assim isso é um grande problema. Você leu uma base de 12 gb. Se tivesse lido uma de 1 tera. O R iria tentar colocar tudo na RAM? Era pra existir algum gerenciamente automático de memória. Se agrava ainda mais quando estou no Windows. Eu trabalho na secretaria de saúde com dados do SIM, SINAN e SINASC e na verdade não tenho grandes problemas mas tava pensando como seria trabalhar com uma base de dados 50 vezes maior como seria usando o R....? Acho que vou montar um bom computador com memória RAM lá em cima e comprar uma placa de vídeo da nvidia e programar em Cuda para fazer as contas diretamente na placa de video que é mais rápido kkkkkkkkkkkkkkkkkkkkkkkk Sim Tura ajudou as dicas, como você falou para as base de dados os comandos que você me passou em que não trasformam em fatores algumas variaveis melhorou um pouco o problema.
-- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB
Rafael,
Acho que você não entende o problema ...
Se você precisa realmente manipular X Gb de dados você tem que ter mais de X Gg de RAM. Volto a repetir nenhum programa do mundo pode trabalhar com dados fora da RAM. Se você usar o dado ele tem que estar na RAM.
Acho que você está confundindo o tamanho da base de dados com quanto de RAm você precisa para trabalhar. Recentemente para uma demanda precisei avaliar todas as internações no Brasil em 2008. Ao todo são 324 arquivos totalizando 4,8 Gb logo a maior parte das pessoa dirão preciso de 6 Gb ou mais para mexer nesta base. Porém o conjunto de dados que preciso para a análise totalizava 141 Mb.
Desta form fiz um script que li cada base de dados em um diretório selecionava o conjunto de dados (subset) num arquivo temporário e escrevia em csv no disco. Após isto lia todos os arquivos csv de uma vez só e os unificava com rbind em um único arquivo que utilizando save se transformou em 1 arquivo .RData de 141 mb.
Este script pode se rodado num computador com 2 Gb de RAM! Afinal o maior arquivo tem menos de 100 Mb.
Vou te dar um conselho de alguém que mexe com bases DATASUS faz tempo. larga o windows, os paciente com demência gerenciam suas memorias melhor que ele em 2006 larguei o windows justamente por isso.
Se quiser comprar um computador escolha um com vários núcleos (Phenom X6 por exemplo) e compre RAM. Na minha experiência usar CUDA não vale a pena para isto. CUDA é bom para situações onde vc tem uma quantidade enorme de cálculos e não manipulação de dados
-- []s Tura
_______________________________________________ R-br mailing list [hidden email]<http://user/SendEmail.jtp?type=node&node=3411136&i=0&by-user=t> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
------------------------------ If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p34... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
-- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB Currículo Lattes: http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-- Luis Iván Ortiz Valencia Doutorando Saúde Pública - Epidemiologia, IESC, UFRJ Estatístico Msc. Spatial Analyst Msc. ............................................... Curriculum Lattes
http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4778724J3 ............................................... Aquarela Cusco Hostel Perú
http://www.aquarelacuscohostel.com/ ............................................... _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br

Se sua máquina é 64 bits você deve baixar o Ubuntu 64 para que o processador trabalha em toda sua capacidade. Pedro ---------- Mensagem encaminhada ---------- De: Leonard Assis [via R-br] < ml-node+3411684-1335277275-223914@n4.nabble.com> Data: 28 de março de 2011 10:17 Assunto: Re: [R-br] Fwd: Fwd: [Dúvida] Ler dados direto no HD Para: Pedro Rafael Diniz Marinho <pedro.rafael.marinho@gmail.com> 64 bits, desde que seu processador suporte 64 bits On 28/03/2011, at 09:25, Luis Iván Ortiz Valencia wrote:
Pegando a linha, desculpem o OFF TOPIC, recomendam o UBUNTU 32 ou o UBUNTU
64 bits?
Luis Ivan.
Em 28 de março de 2011 08:54, Pedro Rafael <[hidden email]<http://user/SendEmail.jtp?type=node&node=3411684&i=0&by-user=t>>escreveu:
É Tura, vou voltar ao Free BSD ou mesmo o Linux devido estes gerenciar de
uma melhor forma a memória. Vou investir alguns reais em uma CPU. Meu problema eu já resolvi filtrando as variáveis de interesse o que reduziu e muito em MB a o tamanho da base de dados. Estou agora tentando entender e me pondo em uma situação que tenho uma base de dados enorme e como tratar esse problema no R. Estou percebendo que caso o que eu precise trabalha em uma
base de dados que seja realmente grande, ou seja, se mesmo depois de filtrar meus interesses no banco o a base continua com vários GB tenho que ter uma memória RAM elevada. Vou olhar com mais carinho o pacote bigmemory e o SOAR.
Pedro
---------- Mensagem encaminhada ---------- De: Bernardo Rangel Tura [via R-br] < [hidden email]<http://user/SendEmail.jtp?type=node&node=3411684&i=1&by-user=t>>
Data: 28 de março de 2011 06:21 Assunto: Re: [R-br] Fwd: [Dúvida] Ler dados direto no HD
Para: Pedro Rafael Diniz Marinho <[hidden email]<http://user/SendEmail.jtp?type=node&node=3411684&i=2&by-user=t>>
On Sun, 2011-03-27 at 15:20 -0300, Pedro Rafael wrote:
Tura,
mas mesmo assim isso é um grande problema. Você leu uma base de 12 gb. Se tivesse lido uma de 1 tera. O R iria tentar colocar tudo na RAM? Era pra existir algum gerenciamente automático de memória. Se agrava ainda mais quando estou no Windows. Eu trabalho na secretaria de saúde com dados do SIM, SINAN e SINASC e na verdade não tenho grandes problemas mas tava pensando como seria trabalhar com uma base de dados 50 vezes maior como seria usando o R....? Acho que vou montar um bom computador com memória RAM lá em cima e comprar uma placa de vídeo da nvidia e programar em Cuda para fazer as contas diretamente na placa de video que é mais rápido kkkkkkkkkkkkkkkkkkkkkkkk Sim Tura ajudou as dicas, como você falou para as base de dados os comandos que você me passou em que não trasformam em fatores algumas variaveis melhorou um pouco o problema.
-- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB
Rafael,
Acho que você não entende o problema ...
Se você precisa realmente manipular X Gb de dados você tem que ter mais de X Gg de RAM. Volto a repetir nenhum programa do mundo pode trabalhar com dados fora da RAM. Se você usar o dado ele tem que estar na RAM.
Acho que você está confundindo o tamanho da base de dados com quanto de RAm você precisa para trabalhar. Recentemente para uma demanda precisei avaliar todas as internações no Brasil em 2008. Ao todo são 324 arquivos totalizando 4,8 Gb logo a maior parte das pessoa dirão preciso de 6 Gb ou mais para mexer nesta base. Porém o conjunto de dados que preciso para a análise totalizava 141 Mb.
Desta form fiz um script que li cada base de dados em um diretório selecionava o conjunto de dados (subset) num arquivo temporário e escrevia em csv no disco. Após isto lia todos os arquivos csv de uma vez só e os unificava com rbind em um único arquivo que utilizando save se transformou em 1 arquivo .RData de 141 mb.
Este script pode se rodado num computador com 2 Gb de RAM! Afinal o maior arquivo tem menos de 100 Mb.
Vou te dar um conselho de alguém que mexe com bases DATASUS faz tempo. larga o windows, os paciente com demência gerenciam suas memorias melhor que ele em 2006 larguei o windows justamente por isso.
Se quiser comprar um computador escolha um com vários núcleos (Phenom X6 por exemplo) e compre RAM. Na minha experiência usar CUDA não vale a pena para isto. CUDA é bom para situações onde vc tem uma quantidade enorme de cálculos e não manipulação de dados
-- []s Tura
_______________________________________________ R-br mailing list [hidden email]<
http://user/SendEmail.jtp?type=node&node=3411136&i=0&by-user=t>
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
------------------------------ If you reply to this email, your message will be added to the discussion below:
-- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB Currículo Lattes: http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6
_______________________________________________ R-br mailing list [hidden email]<http://user/SendEmail.jtp?type=node&node=3411684&i=3&by-user=t> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-- Luis Iván Ortiz Valencia Doutorando Saúde Pública - Epidemiologia, IESC, UFRJ Estatístico Msc. Spatial Analyst Msc. ............................................... Curriculum Lattes
http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4778724J3 ............................................... Aquarela Cusco Hostel Perú
http://www.aquarelacuscohostel.com/ ............................................... _______________________________________________ R-br mailing list [hidden email]<http://user/SendEmail.jtp?type=node&node=3411684&i=4&by-user=t> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
_______________________________________________ R-br mailing list [hidden email]<http://user/SendEmail.jtp?type=node&node=3411684&i=5&by-user=t> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br ------------------------------ If you reply to this email, your message will be added to the discussion below: http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p34... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>. -- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB Currículo Lattes: http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6

Ponteiros em 64-bits sao maiores, portanto os objectos em R64 serao maiores que os seus respectivos em R32. Logo, em media, o R64 bits e' mais lento que o R32. Alguns ganhos em velocidades observados entre R64 (qdo este eh mais rapido) vs R32 sao devidos a flags de compilacao especificas ao processador. Se a RAM utilizada for inferior a 4GB, basicamente nao ha' ganho algum em usar R64. A regra de decisao eh basicamente: velocidade (R32), volume de dados (R64). benilton 2011/3/28 Pedro Rafael <pedro.rafael.marinho@gmail.com>:
Se sua máquina é 64 bits você deve baixar o Ubuntu 64 para que o processador trabalha em toda sua capacidade. Pedro

Luiz, se você for trabalhar com mais de 4Gb de RAM use tudo 64-bits (processador e sistema) senão use tudo 32-bits []s Tura ---------- Original Message ----------- From: Luis Iván Ortiz Valencia <liov2067@gmail.com> To: r-br@listas.c3sl.ufpr.br Sent: Mon, 28 Mar 2011 09:25:42 -0300 Subject: Re: [R-br] Fwd: Fwd: [Dúvida] Ler dados direto no HD
Pegando a linha, desculpem o OFF TOPIC, recomendam o UBUNTU 32 ou o UBUNTU 64 bits?
Luis Ivan.
Em 28 de março de 2011 08:54, Pedro Rafael <pedro.rafael.marinho@gmail.com> escreveu: É Tura, vou voltar ao Free BSD ou mesmo o Linux devido estes gerenciar de uma melhor forma a memória. Vou investir alguns reais em uma CPU. Meu problema eu já resolvi filtrando as variáveis de interesse o que reduziu e muito em MB a o tamanho da base de dados. Estou agora tentando entender e me pondo em uma situação que tenho uma base de dados enorme e como tratar esse problema no R. Estou percebendo que caso o que eu precise trabalha em uma base de dados que seja realmente grande, ou seja, se mesmo depois de filtrar meus interesses no banco o a base continua com vários GB tenho que ter uma memória RAM elevada. Vou olhar com mais carinho o pacote bigmemory e o SOAR.
Pedro
---------- Mensagem encaminhada ---------- De: Bernardo Rangel Tura [via R-br] <ml-node+3411136-758674982-223914@n4.nabble.com> Data: 28 de março de 2011 06:21 Assunto: Re: [R-br] Fwd: [Dúvida] Ler dados direto no HD
Para: Pedro Rafael Diniz Marinho <pedro.rafael.marinho@gmail.com>
On Sun, 2011-03-27 at 15:20 -0300, Pedro Rafael wrote:
Tura, mas mesmo assim isso é um grande problema. Você leu uma base de 12 gb. Se tivesse lido uma de 1 tera. O R iria tentar colocar tudo na RAM? Era pra existir algum gerenciamente automático de memória. Se agrava ainda mais quando estou no Windows. Eu trabalho na secretaria de saúde com dados do SIM, SINAN e SINASC e na verdade não tenho grandes problemas mas tava pensando como seria trabalhar com uma base de dados 50 vezes maior como seria usando o R....? Acho que vou montar um bom computador com memória RAM lá em cima e comprar uma placa de vídeo da nvidia e programar em Cuda para fazer as contas diretamente na placa de video que é mais rápido kkkkkkkkkkkkkkkkkkkkkkkk Sim Tura ajudou as dicas, como você falou para as base de dados os comandos que você me passou em que não trasformam em fatores algumas variaveis melhorou um pouco o problema. -- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB Rafael,
Acho que você não entende o problema ...
Se você precisa realmente manipular X Gb de dados você tem que ter mais de X Gg de RAM. Volto a repetir nenhum programa do mundo pode trabalhar com dados fora da RAM. Se você usar o dado ele tem que estar na RAM.
Acho que você está confundindo o tamanho da base de dados com quanto de RAm você precisa para trabalhar. Recentemente para uma demanda precisei avaliar todas as internações no Brasil em 2008. Ao todo são 324 arquivos totalizando 4,8 Gb logo a maior parte das pessoa dirão preciso de 6 Gb ou mais para mexer nesta base. Porém o conjunto de dados que preciso para a análise totalizava 141 Mb.
Desta form fiz um script que li cada base de dados em um diretório selecionava o conjunto de dados (subset) num arquivo temporário e escrevia em csv no disco. Após isto lia todos os arquivos csv de uma vez só e os unificava com rbind em um único arquivo que utilizando save se transformou em 1 arquivo .RData de 141 mb.
Este script pode se rodado num computador com 2 Gb de RAM! Afinal o maior arquivo tem menos de 100 Mb.
Vou te dar um conselho de alguém que mexe com bases DATASUS faz tempo. larga o windows, os paciente com demência gerenciam suas memorias melhor que ele em 2006 larguei o windows justamente por isso.
Se quiser comprar um computador escolha um com vários núcleos (Phenom X6 por exemplo) e compre RAM. Na minha experiência usar CUDA não vale a pena para isto. CUDA é bom para situações onde vc tem uma quantidade enorme de cálculos e não manipulação de dados
-- []s Tura
_______________________________________________ R-br mailing list [hidden email]
-----------------------------------------------------------------------
If you reply to this email, your message will be added to the discussion below:http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p34...
To unsubscribe from R-br, click here.
--
Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB
Currículo Lattes: http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-- Luis Iván Ortiz Valencia Doutorando Saúde Pública - Epidemiologia, IESC, UFRJ Estatístico Msc. Spatial Analyst Msc. ............................................... Curriculum Lattes
http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4778724J3 ............................................... Aquarela Cusco Hostel Perú
http://www.aquarelacuscohostel.com/ ...............................................
------- End of Original Message -------

obrigado pelas dicas...desculpe Benilton. Em 28 de março de 2011 11:51, Bernardo Rangel Tura <tura@centroin.com.br>escreveu:
Luiz,
se você for trabalhar com mais de 4Gb de RAM use tudo 64-bits (processador e sistema) senão use tudo 32-bits
[]s Tura
*---------- Original Message -----------* From: Luis Iván Ortiz Valencia <liov2067@gmail.com> To: r-br@listas.c3sl.ufpr.br Sent: Mon, 28 Mar 2011 09:25:42 -0300 Subject: Re: [R-br] Fwd: Fwd: [Dúvida] Ler dados direto no HD
Pegando a linha, desculpem o OFF TOPIC, recomendam o UBUNTU 32 ou o UBUNTU 64 bits?
Luis Ivan.
Em 28 de março de 2011 08:54, Pedro Rafael < pedro.rafael.marinho@gmail.com> escreveu:
É Tura, vou voltar ao Free BSD ou mesmo o Linux devido estes gerenciar de uma melhor forma a memória. Vou investir alguns reais em uma CPU. Meu problema eu já resolvi filtrando as variáveis de interesse o que reduziu e muito em MB a o tamanho da base de dados. Estou agora tentando entender e me pondo em uma situação que tenho uma base de dados enorme e como tratar esse problema no R. Estou percebendo que caso o que eu precise trabalha em uma base de dados que seja realmente grande, ou seja, se mesmo depois de filtrar meus interesses no banco o a base continua com vários GB tenho que ter uma memória RAM elevada. Vou olhar com mais carinho o pacote bigmemory e o SOAR.
Pedro
---------- Mensagem encaminhada ---------- De: Bernardo Rangel Tura [via R-br] <
ml-node+3411136-758674982-223914@n4.nabble.com>
Data: 28 de março de 2011 06:21 Assunto: Re: [R-br] Fwd: [Dúvida] Ler dados direto no HD
Para: Pedro Rafael Diniz Marinho <pedro.rafael.marinho@gmail.com>
On Sun, 2011-03-27 at 15:20 -0300, Pedro Rafael wrote:
Tura,
mas mesmo assim isso é um grande problema. Você leu uma base de 12 gb.
Se tivesse lido uma de 1 tera. O R iria tentar colocar tudo na RAM? Era pra existir algum gerenciamente automático de memória. Se agrava ainda mais quando estou no Windows. Eu trabalho na secretaria de saúde
com dados do SIM, SINAN e SINASC e na verdade não tenho grandes problemas mas tava pensando como seria trabalhar com uma base de dados
50 vezes maior como seria usando o R....? Acho que vou montar um bom computador com memória RAM lá em cima e comprar uma placa de vídeo da nvidia e programar em Cuda para fazer as contas diretamente na placa de video que é mais rápido kkkkkkkkkkkkkkkkkkkkkkkk Sim Tura ajudou as dicas, como você falou para as base de dados os comandos que você me passou em que não trasformam em fatores algumas variaveis melhorou um pouco o problema.
-- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB Rafael,
Acho que você não entende o problema ...
Se você precisa realmente manipular X Gb de dados você tem que ter mais de X Gg de RAM. Volto a repetir nenhum programa do mundo pode trabalhar com dados fora da RAM. Se você usar o dado ele tem que estar na RAM.
Acho que você está confundindo o tamanho da base de dados com quanto de RAm você precisa para trabalhar. Recentemente para uma demanda precisei avaliar todas as internações no Brasil em 2008. Ao todo são 324 arquivos
totalizando 4,8 Gb logo a maior parte das pessoa dirão preciso de 6 Gb ou mais para mexer nesta base. Porém o conjunto de dados que preciso para a análise totalizava 141 Mb.
Desta form fiz um script que li cada base de dados em um diretório selecionava o conjunto de dados (subset) num arquivo temporário e escrevia em csv no disco. Após isto lia todos os arquivos csv de uma vez
só e os unificava com rbind em um único arquivo que utilizando save se transformou em 1 arquivo .RData de 141 mb.
Este script pode se rodado num computador com 2 Gb de RAM! Afinal o maior arquivo tem menos de 100 Mb.
Vou te dar um conselho de alguém que mexe com bases DATASUS faz tempo. larga o windows, os paciente com demência gerenciam suas memorias melhor
que ele em 2006 larguei o windows justamente por isso.
Se quiser comprar um computador escolha um com vários núcleos (Phenom X6
por exemplo) e compre RAM. Na minha experiência usar CUDA não vale a pena para isto. CUDA é bom para situações onde vc tem uma quantidade enorme de cálculos e não manipulação de dados
-- []s Tura
_______________________________________________ R-br mailing list [hidden email]<http://user/SendEmail.jtp?type=node&node=3411136&i=0&by-user=t>
------------------------------
If you reply to this email, your message will be added to the discussion
below: http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p34...
To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
--
Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB
Currículo Lattes: http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-- Luis Iván Ortiz Valencia Doutorando Saúde Pública - Epidemiologia, IESC, UFRJ Estatístico Msc. Spatial Analyst Msc. ............................................... Curriculum Lattes
http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4778724J3 ............................................... Aquarela Cusco Hostel Perú
http://www.aquarelacuscohostel.com/ ............................................... *------- End of Original Message -------*
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-- Luis Iván Ortiz Valencia Doutorando Saúde Pública - Epidemiologia, IESC, UFRJ Estatístico Msc. Spatial Analyst Msc. ............................................... Curriculum Lattes http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4778724J3 ............................................... Aquarela Cusco Hostel Perú http://www.aquarelacuscohostel.com/ ...............................................

Pedro, Eu tenho trabalhado com uma outra base de 80 Gb, mais que os meus atuais 16 Gb de RAM, a solução foi o MYSQL . Eu planejo a minha analise e faco query SQL de dentro do R direto ao servidor de dados. []s Tura ---------- Original Message ----------- From: Pedro Rafael <pedro.rafael.marinho@gmail.com> To: r-br@listas.c3sl.ufpr.br Sent: Mon, 28 Mar 2011 08:54:58 -0300 Subject: [R-br] Fwd: Fwd: [Dúvida] Ler dados direto no HD
É Tura, vou voltar ao Free BSD ou mesmo o Linux devido estes gerenciar de uma melhor forma a memória. Vou investir alguns reais em uma CPU. Meu problema eu já resolvi filtrando as variáveis de interesse o que reduziu e muito em MB a o tamanho da base de dados. Estou agora tentando entender e me pondo em uma situação que tenho uma base de dados enorme e como tratar esse problema no R. Estou percebendo que caso o que eu precise trabalha em uma base de dados que seja realmente grande, ou seja, se mesmo depois de filtrar meus interesses no banco o a base continua com vários GB tenho que ter uma memória RAM elevada. Vou olhar com mais carinho o pacote bigmemory e o SOAR.
Pedro
---------- Mensagem encaminhada ---------- De: Bernardo Rangel Tura [via R-br] <ml-node+3411136-758674982-223914@n4.nabble.com> Data: 28 de março de 2011 06:21 Assunto: Re: [R-br] Fwd: [Dúvida] Ler dados direto no HD Para: Pedro Rafael Diniz Marinho <pedro.rafael.marinho@gmail.com>
On Sun, 2011-03-27 at 15:20 -0300, Pedro Rafael wrote:
Tura, mas mesmo assim isso é um grande problema. Você leu uma base de 12 gb. Se tivesse lido uma de 1 tera. O R iria tentar colocar tudo na RAM? Era pra existir algum gerenciamente automático de memória. Se agrava ainda mais quando estou no Windows. Eu trabalho na secretaria de saúde com dados do SIM, SINAN e SINASC e na verdade não tenho grandes problemas mas tava pensando como seria trabalhar com uma base de dados 50 vezes maior como seria usando o R....? Acho que vou montar um bom computador com memória RAM lá em cima e comprar uma placa de vídeo da nvidia e programar em Cuda para fazer as contas diretamente na placa de video que é mais rápido kkkkkkkkkkkkkkkkkkkkkkkk Sim Tura ajudou as dicas, como você falou para as base de dados os comandos que você me passou em que não trasformam em fatores algumas variaveis melhorou um pouco o problema. -- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB Rafael,
Acho que você não entende o problema ...
Se você precisa realmente manipular X Gb de dados você tem que ter mais de X Gg de RAM. Volto a repetir nenhum programa do mundo pode trabalhar com dados fora da RAM. Se você usar o dado ele tem que estar na RAM.
Acho que você está confundindo o tamanho da base de dados com quanto de RAm você precisa para trabalhar. Recentemente para uma demanda precisei avaliar todas as internações no Brasil em 2008. Ao todo são 324 arquivos totalizando 4,8 Gb logo a maior parte das pessoa dirão preciso de 6 Gb ou mais para mexer nesta base. Porém o conjunto de dados que preciso para a análise totalizava 141 Mb.
Desta form fiz um script que li cada base de dados em um diretório selecionava o conjunto de dados (subset) num arquivo temporário e escrevia em csv no disco. Após isto lia todos os arquivos csv de uma vez só e os unificava com rbind em um único arquivo que utilizando save se transformou em 1 arquivo .RData de 141 mb.
Este script pode se rodado num computador com 2 Gb de RAM! Afinal o maior arquivo tem menos de 100 Mb.
Vou te dar um conselho de alguém que mexe com bases DATASUS faz tempo. larga o windows, os paciente com demência gerenciam suas memorias melhor que ele em 2006 larguei o windows justamente por isso.
Se quiser comprar um computador escolha um com vários núcleos (Phenom X6 por exemplo) e compre RAM. Na minha experiência usar CUDA não vale a pena para isto. CUDA é bom para situações onde vc tem uma quantidade enorme de cálculos e não manipulação de dados
-- []s Tura
_______________________________________________ R-br mailing list [hidden email] https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-----------------------------------------------------------------------
If you reply to this email, your message will be added to the discussion below:http://r-br.2285057.n4.nabble.com/Duvida-Ler-dados-direto-no-HD-tp3400886p34...
To unsubscribe from R-br, click here.
-- Saudações, Pedro Rafael Diniz Marinho - Estatístico SES-PB Currículo Lattes: http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4250792T6
------- End of Original Message -------
participantes (7)
-
Benilton Carvalho
-
Bernardo Rangel Tura
-
ivanalaman
-
Leandro Marino
-
Leonard Assis
-
Luis Iván Ortiz Valencia
-
Pedro Rafael