Caros,
Estou rodando um modelo de regressão quantílica com o pacote 'quantreg', onde os dados estão salvos como objeto 'ffdf', com 7035146 linhas e aproximadamente 13 colunas. Para realizar um teste quanto a possibilidade computacional dessa regressão fiz o seguinte, rodei uma regressão com apenas 3 variáveis explicativas e todas as linhas, o modelo rodou, mas demorou 15 horas de processamento.
Questão: Como posso melhorar esse tempo de processameto?
Meu computador é um macbook pro i7, 10 gb ram com ssd.
> class(c2000)
[1] "ffdf"
> str(c2000[,])
'data.frame': 7035146 obs. of 13 variables:
$ V0102: int 12 12 12 12 12 12 12 12 12 12 ...
$ V0300: int 1339 1782 1782 2934 5534 5534 11305 11305 19520 19520 ...
$ V1001: int 1 1 1 1 1 1 1 1 1 1 ...
$ V1004: int NA NA NA NA NA NA NA NA NA NA ...
$ V0401: int 1 1 2 1 1 2 1 2 1 2 ...
$ V0402: int 1 1 3 1 1 2 1 2 1 3 ...
$ V4752: int 25 45 18 23 20 16 43 38 60 20 ...
$ V0408: int 4 1 1 4 4 1 4 1 1 4 ...
$ V0418: int NA NA NA NA NA NA NA NA NA NA ...
$ V4210: int NA NA NA NA NA NA NA NA NA NA ...
$ V4300: int 0 4 11 4 5 5 11 15 0 13 ...
$ V4513: int 182 182 136 182 182 36 733 865 316 380 ...
$ V0453: int 20 48 48 45 49 24 40 25 44 25 ...
> system.time( r <- rq(V4513 ~ V0453 + V4752 + V0401, tau=c(0.1,0.5,0.9), data=c2000) )
user system elapsed
56258.453 165.855 56123.961
Atenciosamente
Roney
_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.