[R-br] Modelo Random Forest em ambiente de produção.

Fabrício Barth fabricio.barth em gmail.com
Segunda Agosto 19 13:35:24 BRT 2013


Pessoal,

Usei o algoritmo randomForest do pacote
http://cran.r-project.org/web/packages/randomForest/randomForest.pdf para
criar um classificador com 80% de acurácia. Quero utilizar este modelo
(classificador) em ambiente de produção, integrado a uma aplicação escrita
em Ruby.

Para implementar a integração eu já fiz alguns testes com:

1) RApache: http://rapache.net/
2) Rserver: http://www.rforge.net/Rserve/doc.html
3) RinRuby: https://sites.google.com/a/ddahl.org/rinruby-users/
4) RScript:
http://stat.ethz.ch/R-manual/R-patched/library/utils/html/Rscript.html
5) R com a opção "-e EXPR" via bash do unix.
6) Exportar o modelo usando PMML (
http://journal.r-project.org/archive/2009-1/RJournal_2009-1_Guazzelli+et+al.pdf)
e importá-lo no ruby.

No entanto, nenhuma das opções é rápida e robusta o sufiente para processar
4e+09 requisições em no máximo 4 horas. Aliás, se eu fosse fazer um ranking
das opções, eu diria que em primeiro lugar está "R com a opção "-e EXPR"
via bash do unix", seguido por RScript, depois RinRuby e depois todas as
outras alternativas.

A parte em Ruby já foi desenvolvida para processar paralelamente em várias
máquinas. No entanto, o gargalo da aplicação está sendo a execução do
modelo em R.

Alguém conhece alguma forma para converter um modelo preditivo em R (no
caso, randomForest) para uma estrutura em C ou Ruby?

Valeu!
-- 
Fabrício J. Barth
http://fbarth.net.br
http://blog.fbarth.net.br
http://twitter.com/fbarth
http://www.flickr.com/fbarth
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20130819/b9e2ad79/attachment.html>


Mais detalhes sobre a lista de discussão R-br