[R-br] Cluster para r

regis barros regisgbarros em yahoo.com.br
Domingo Novembro 18 19:50:20 BRST 2012


Boa noite Pessoal
Irei fazer uns testes com as idéias de vocês todavia tenho que fazer modelagens com os dados que disponho e como minha base de dados está próximo dos 20GB estou ficando preocupado com a questão do cluster. Outro ponto inicialmente irei usar duas máquinas depois extender para um total de 35 máquinas o cluster que estou construindo aqui.
Regis


________________________________
 De: Benilton Carvalho <beniltoncarvalho em gmail.com>
Para: r-br <r-br em listas.c3sl.ufpr.br> 
Enviadas: Domingo, 18 de Novembro de 2012 18:58
Assunto: Re: [R-br] Cluster para r
 

no 'R normal', vc deve usar HDF5 ou NetCDF combinado com Rmpi para trabalhar com volumes de dados maiores.



2012/11/18 Diogo Ferrari <diogoferrari em gmail.com>

Oi Benilton
>
>
>Valeu pela dica. Eu me referia ao proc paralelo com o R revolution mesmo, não com o pacote rmpi. Fiz isso por causa do tamanho do banco que precisava utilizar, que com o R normal (carregando na memoria) seria muito problematico e impossível em certas tarefas.
>
>
>abs
>
>
>
>2012/11/18 Benilton Carvalho <beniltoncarvalho em gmail.com>
>
>Diogo, sua afirmação é incorreta. Eu uso o R diariamente em cluster MPI sem problemas. Divido as tarefas sem problemas entre os nós.... Veja o pacote Rmpi... Depois disso, vc pode começar a ver os outros pacotes associados. b
>>On 18 Nov 2012 14:07, "Diogo Ferrari" <diogoferrari em gmail.com> wrote:
>>
>>Ola Regis,
>>>
>>>
>>>Já trabalhei, ou melhor, tentei trabalhar, com R operando em servidor linux. O principal problema é a divisão do processamento. Não é possível dividir o processamento entre os nós. é possível apenas dividir dentro do próprio núcleo do processador. Eu trabalhei com bases na casa de 20x10^9. A melhor solução que encontrei foi o RevolutionR, fazer proc. paralelo local e converter os arquivos para .xdf (usado pelo revolution). Se o seu problema é computar sobre os dados, e não fazer simulações por exemplo, vc tem que encontrar uma solução que permita isso. É mais um problema de geranciamento e acesso aos dados do que capaciadade de processamento. O R tradicional carrega tudo na memória e, portanto, limita o uso de big data. O .xdf e o RevolutionR solucionam isso permitindo trabalhar com os dados sem carregá-los, além de dividir e indexar o banco, como se faz em SQL, por exemplo. Mas isso vai depender do que vc precisa fazer com os
 dados. As funções disponível para o RevolutionR são as mais simples.estão no pacote RevoscaleR.
>>>
>>>
>>>abs
>>>
>>>
>>>
>>>2012/11/18 regis barros <regisgbarros em yahoo.com.br>
>>>
>>>Bom dia Pessoal
>>>>Gostaria de saber de pessoas que trabalham com cluster para linux e usam o r para executar os cálculos e modelos que venho trabalhando. Li nos e-mails anteriores que pessoas que estavam usando uma base de dados de 1*10^9, todavia gostaria de trabalhar com mais do que isto alguém trabalha?
>>>>Grato
>>>>Regis Godoy Barros
>>>>_______________________________________________
>>>>R-br mailing list
>>>>R-br em listas.c3sl.ufpr.br
>>>>https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>>>Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
>>>>
>>>
>>>
>>>
>>>-- 
>>>Diogo Ferrari
>>>University of San Paulo (USP)
>>>Faculty of Philosophy, Languages, Literature and Human Sciences (FFLCH)
>>>Department of Political Science (DCP)
>>>San Paulo/SP - Brazil
>>>E-mail: diogo.ferrari em usp.br
>>>
>>>Open Source! Use R! Use Linux!
>>>
>>>
>>>"A vida é a arte de tirar conclusões suficientes de dados insuficientes" 
>>>
>>>_______________________________________________
>>>R-br mailing list
>>>R-br em listas.c3sl.ufpr.br
>>>https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>>Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
>>>
>>_______________________________________________
>>R-br mailing list
>>R-br em listas.c3sl.ufpr.br
>>https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
>>
>
>
>
>-- 
>Diogo Ferrari
>University of San Paulo (USP)
>Faculty of Philosophy, Languages, Literature and Human Sciences (FFLCH)
>Department of Political Science (DCP)
>San Paulo/SP - Brazil
>E-mail: diogo.ferrari em usp.br
>
>Open Source! Use R! Use Linux!
>
>
>"A vida é a arte de tirar conclusões suficientes de dados insuficientes" 
>
>_______________________________________________
>R-br mailing list
>R-br em listas.c3sl.ufpr.br
>https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
>

_______________________________________________
R-br mailing list
R-br em listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20121118/dfb17ef5/attachment.html>


Mais detalhes sobre a lista de discussão R-br