[R-br] Teste para comparar distribuições
Luiz Roberto Martins Pinto
luizroberto.uesc em gmail.com
Quarta Julho 23 10:40:53 BRT 2014
Caros amigos,
Fiz uma pesquisa no Google, mas não consegui uma solução satisfatória.
Então peço ajuda.
Preciso de encontrar um teste que *quantifique* a semelhança entre dois
vetores para checar se eles têm o mesmo tipo de distribuição, por meio de
p.value.
O interesse principal é comparar os vetores x e ab.
Data set:
http://www.datafilehost.com/d/f3757310
library(Hmisc)
library(grDevices)
load('NNC D_d3kk2.RData')
# Avaliação qualitativa (gráfica):
dev.set(which=1)
bpplot(d3)
boxplot(d3)
# Aparentemente os vetores x, abC e ab são muitos semelhantes
# A minha expectativa é encontrar um teste que quantifique esta semelhança
por meio de p.value
# Então fiz os testes abaixo
# Avaliação quantitativa:
v2=d3$ab
# Comparando o vetor x com o vetor ab:
v1=d3$x
round(ks.test(v1, v2)$p.value,2)
# Out put: p.value=0. Então o vetor x é estatisticamente DIFERENTE do vetor
ab.
# Comparando o vetor abC com o vetor ab:
v1=d3$abC
round(ks.test(v1, v2)$p.value,2)
# Out put: p.value=0.65. Então o vetor x é estatisticamente IGUAL do vetor
abC.
# Comparando o vetor abC com o vetor x:
v2=d3$x
round(ks.test(v1, v2)$p.value,2)
# Out put: p.value=0. Então o vetor abC é estatisticamente DIFERENTE do
vetor x.
### *Testes alternativos*, para comparar o vetor x com ab:
v2=d3$ab
v1=d3$x
t1=round(ks.test(v1, v2)$p.value,2);t1 # Out put: p.value=0
t2=round(ks.test(v1, v2, alternative = "l")$p.value,2);t2 # Out put:
p.value=0
t3=round(ks.test(v1, v2, alternative = "g")$p.value,2);t3 # Out put:
p.value=0.85
# Então, para este Data set (NNC D_d3kk2.RData), e para o t3=0.85. Então,
por meio deste teste, o vetor x é estatisticamente IGUAL do vetor ab.
# *No entanto*, fazendo os testes com conjuntos de dados diferentes (10000
Data set) (mas, sempre com mesmo tamanho de vetor), quando comparo o vetor
x com o vetor ab:
## em aproximadamente 60% das comparações (ou em 6000 Data set) t1>0.05
## em aproximadamente 80% das comparações (ou em 8000 Data set) t2>0.05
## em aproximadamente 80% das comparações (ou em 8000 Data set) t3>0.05
## em aproximadamente 85% das comparações (ou em 8500 Data set) t1 *OU*
t2 >0.05
## em aproximadamente 85% das comparações (ou em 8500 Data set) t1 *OU* t3
>0.05
## em 0% das comparações (ou em 0 Data set) t2 *E* t3
>0.05
## em 100% das comparações (ou em 10000 Data set) t2 *OU *t3 >0.05
Luiz Roberto Martins Pinto
Prof. Pleno/DCET/UESC
Laboratório de Estatística Computacional
Universidade Estadual de Santa Cruz
Ilhéus-Bahia
luizroberto.uesc em gmail.com
skype: lrmpinto
http://lattes.cnpq.br/2732314327604831
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20140723/14a01f30/attachment.html>
Mais detalhes sobre a lista de discussão R-br