[R-br] Teste para comparar distribuições

Quarta Julho 23 23:11:22 BRT 2014

Poderia me mandar este arquivo anexado, o datafilehost sempre me dá problema.

Caros amigos,

Fiz uma pesquisa no Google, mas não consegui uma solução satisfatória. Então peço ajuda.

Preciso de encontrar um teste que quantifique a semelhança entre dois vetores para checar se eles têm o mesmo tipo de distribuição, por meio de p.value.
O interesse principal é comparar os vetores x e ab.

Data set:

http://www.datafilehost.com/d/f3757310

library(Hmisc)
library(grDevices)
load('NNC D_d3kk2.RData')

# Avaliação qualitativa (gráfica):

dev.set(which=1)          
bpplot(d3)
boxplot(d3)

# Aparentemente os vetores x, abC e ab são muitos semelhantes
# A minha expectativa é encontrar um teste que quantifique esta semelhança por meio de p.value
# Então fiz os testes abaixo

# Avaliação quantitativa:

v2=d3$ab

# Comparando o vetor x com o vetor ab:

v1=d3$x
round(ks.test(v1, v2)$p.value,2)

# Out put: p.value=0. Então o vetor x é estatisticamente DIFERENTE do vetor ab.

# Comparando o vetor abC com o vetor ab:

v1=d3$abC
round(ks.test(v1, v2)$p.value,2)

# Out put: p.value=0.65. Então o vetor x é estatisticamente IGUAL do vetor abC.

# Comparando o vetor abC com o vetor x:

v2=d3$x

round(ks.test(v1, v2)$p.value,2)

# Out put: p.value=0. Então o vetor abC é estatisticamente DIFERENTE do vetor x.

### Testes alternativos, para comparar o vetor x com ab:

v2=d3$ab
v1=d3$x

t1=round(ks.test(v1, v2)$p.value,2);t1         # Out put: p.value=0
t2=round(ks.test(v1, v2, alternative = "l")$p.value,2);t2      # Out put: p.value=0

t3=round(ks.test(v1, v2, alternative = "g")$p.value,2);t3     # Out put: p.value=0.85

# Então, para este Data set (NNC D_d3kk2.RData), e para o t3=0.85. Então, por meio deste teste, o vetor x é estatisticamente IGUAL do vetor ab.

# No entanto, fazendo os testes com conjuntos de dados diferentes (10000 Data set) (mas, sempre com mesmo tamanho de vetor), quando comparo o vetor x com o vetor ab:

   ## em aproximadamente 60% das comparações (ou em 6000 Data set)   t1>0.05
   ## em aproximadamente 80% das comparações (ou em 8000 Data set)   t2>0.05
   ## em aproximadamente 80% das comparações (ou em 8000 Data set)   t3>0.05

   ## em aproximadamente 85% das comparações (ou em 8500 Data set)   t1 OU t2 >0.05  
   ## em aproximadamente 85% das comparações (ou em 8500 Data set)   t1 OU t3 >0.05 

   ## em 0% das comparações (ou em 0 Data set)             t2  E   t3 >0.05 
   ## em 100% das comparações (ou em 10000 Data set)  t2 OU  t3 >0.05  

Luiz Roberto Martins Pinto
Prof. Pleno/DCET/UESC
Laboratório de Estatística Computacional
Universidade Estadual de Santa Cruz
Ilhéus-Bahia

luizroberto.uesc em gmail.com
skype: lrmpinto
http://lattes.cnpq.br/2732314327604831 

--------------------------------------------------------------------------------
_______________________________________________
R-br mailing list
R-br em listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20140723/c3d46752/attachment.html>