[R-br] Análise de amostra pequena

Cesar Rabak cesar.rabak em gmail.com
Quarta Julho 11 09:27:19 -03 2018


Elias,

Há vários possíveis comentários a fazer, embora, de antemão aviso-o, que
pelo fato de você ter dezessete casos apenas, não há muito a melhorar.


   1. Calcular os coeficientes de associação quando a hipótese de
   independência não pode ser descartada tende a ser um exercício equivalente
   a tentar ler folhas de chá numa xícara após a merenda;
   2. Ao você fazer múltiplas comparações *nos mesmos dados* você ainda
   teria que fazer uma correção para assegurar que seu Erro Tipo I não seria
   inflacionado;
   3. A alternativa de fazer um *omnibus test*, por exemplo via uma
   regressão logística com G como desfecho e as outras como VI, esbarra no
   fato de que se precisaria muito mais casos¹.

Então no seu caso a única coisa que a Estatística o autorizaria é dizer que
as hipóteses de independências não podem ser descartadas e que devido ao
tamanho da amostra mais nada pode ser dito (do ponto de vista de
inferência).

Com o conhecimento do domínio do problema e a Descritiva você pode
especular mais um pouco, mas irremediavelmente teria que propor um estudo
com maior potências estatística se quiser alguma constatação do fenômeno
que está estudando.


HTH
--
Cesar Rabak


[1] A discussão sobre assunto é vasta com concordância apenas que é "um
problema complexo", mas para colocar a bola em campo, Peduzzi et al. 1996,
costuma ser citado como melhor referência. A fórmula seria N = 10∙k / p; N
:: mínimo tamanho da amostra, k :: número de covariáveis; p :: mínimo da
proporção casos ou não casos.


Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) A
simulation study of the number of events per variable in logistic
regression analysis. Journal of Clinical Epidemiology 49:1373-1379.

On Tue, Jul 10, 2018 at 8:38 PM, Elias Carvalho via R-br <
r-br em listas.c3sl.ufpr.br> wrote:

> Prezados
>
> Tenho uma amostra pequena com apenas 17 registros, e 7 variáveis
> dicotômicas, cujo resumo é:
>
>  A      B      C      D      E      F      G
>  0: 7   0:10   0: 6   0:11   0: 2   0: 1   0:15
>  1:10   1: 7   1:11   1: 6   1:15   1:16   1: 2
>
>
> A variável G seria meu desfecho e o resto possíveis preditores
>
>
> Para veficiar a associação entre o desfecho e as outras variáveisexecutei o teste exato de fisher por ser uma amostra pequena, mas o resutados mostraram que o desfecho não depende de nenhuma variável:
>
>
> > fisher.test(data.to.work$G, data.to.work$A)
> 	Fisher's Exact Test for Count Data
>
> data:  data.to.work$G and data.to.work$A
> p-value = 0.4853
> alternative hypothesis: true odds ratio is not equal to 1
> 95 percent confidence interval:
>  0.1311443       Inf
> sample estimates:
> odds ratio
>        Inf
> > fisher.test(data.to.work$G, data.to.work$B)
> 	Fisher's Exact Test for Count Data
>
> data:  data.to.work$G and data.to.work$B
> p-value = 0.4853
> alternative hypothesis: true odds ratio is not equal to 1
> 95 percent confidence interval:
>  0.000000 7.625189
> sample estimates:
> odds ratio
>          0
> > fisher.test(data.to.work$G, data.to.work$C)
> 	Fisher's Exact Test for Count Data
>
> data:  data.to.work$G and data.to.work$C
> p-value = 0.5147
> alternative hypothesis: true odds ratio is not equal to 1
> 95 percent confidence interval:
>  0.1003871       Inf
> sample estimates:
> odds ratio
>        Inf
> > fisher.test(data.to.work$G, data.to.work$D)
> 	Fisher's Exact Test for Count Data
>
> data:  data.to.work$G and data.to.work$D
> p-value = 0.5147
> alternative hypothesis: true odds ratio is not equal to 1
> 95 percent confidence interval:
>  0.00000 9.96144
> sample estimates:
> odds ratio
>          0
> > fisher.test(data.to.work$G, data.to.work$E)
> 	Fisher's Exact Test for Count Data
>
> data:  data.to.work$G and data.to.work$E
> p-value = 1
> alternative hypothesis: true odds ratio is not equal to 1
> 95 percent confidence interval:
>  0.01971228        Inf
> sample estimates:
> odds ratio
>        Inf
> > fisher.test(data.to.work$G, data.to.work$F)
> 	Fisher's Exact Test for Count Data
>
> data:  data.to.work$G and data.to.work$F
> p-value = 1
> alternative hypothesis: true odds ratio is not equal to 1
> 95 percent confidence interval:
>  0.003434375         Inf
> sample estimates:
> odds ratio
>
>        Inf
>
>
> Em seguida calculei o V de Cramer, Coeficiente de Contingência e phi e todos mostram independência e associação fraca.
>
>
> summary(assocstats(tab_cont_G_A)) # Resultado: # X^2 df P(> X^2) #
> Likelihood Ratio 2.3071 1 0.12878 # P-Valor > 0.05 - independentes #
> Pearson 1.5867 1 0.20780 # P-Valor > 0.05 - independentes # #
> Phi-Coefficient : 0.306 # Coef de Phi - Associação fraca # Contingency
> Coeff.: 0.292 # Coef de Cont - Associação fraca # Cramer's V : 0.306 # V de
> Crammer - Associação fraca
>
>  Pelo que pesquisei este seriam os métodos mais adequados para este tipo de análise
>
>
> Há um método melhor para avaliar esse tipo de dado?
>
>
>
>
> --
>
>
> *In Jesu et Maria*
> *Obrigado*
> *Prof. Elias Carvalho*
>
> *"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)"Blessed is he
> who has been able to understand the cause of things"*
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20180711/fcb8630f/attachment.html>


Mais detalhes sobre a lista de discussão R-br