[R-br] Chi-quadrado demonstra associação, mas e daí?

Cesar Rabak cesar.rabak em gmail.com
Domingo Novembro 8 16:58:16 BRST 2015


André,

A gente fica feliz que possa ter sido de ajuda, embora o assunto levantado
por você extrapola o foco desta lista, que é precipuamente o uso do R.

Se você quer analisar *incidência* você precisa fazer um estudo
prospectivo, posto que a incidência define-se como "Taxa de eventos novos
que surgem numa população num período de tempo."

Sua tabela provavelmente mostra a *prevalência* que é definida como
"Proporção de casos existentes numa população".

Os dados de prevalência são geralmente obtidos de um estudo denominado
transversal, que é um nome usado em epidemiologia para denominar um
"instantâneo" da população sob estudo.

Uma observação no seu post original também acende a lâmpada amarela:
". . . apenas
4,5% das amostras continham os dois parasitas ao mesmo tempo."

A pergunta necessária: os casos que apenas um dos parasitas apareceram não
estão na tabela por que?

Se aparece um parasita "positivo" ele exclui a possibilidade do "negativo"?

E a mais importante para ver se a sua busca por associação teria validade:
as proporções dos parasitas (as marginais na sua tabela de contingência)
são as esperadas na Natureza?

Essas questões deverão ajudá-lo a verificar se você tem uma descoberta ou
apenas está a fazer um constatação trivial.

HTH
--
Cesar Rabak


2015-11-08 8:53 GMT-02:00 André Lucas de Oliveira Moreira <
andremoreirazoo em gmail.com>:

> Oi César, obrigado pela contribuição.
>
> Muito interessante seus comentários e suas sugestões de leitura, estou
> animado para aprender um pouco mais. Afinal, aprender mais é sempre
> motivador.
>
> Interessante também tudo que o pessoal falou sobre as alternativas que
> existem, pois na literatura da biologia não se aborda essas alternativas.
>
> ...Então, a ideia nesse teste é verificar se a incidência de
> Cryptosporidium positivo está associado à incidência de Giardia positiva...
>
>
> Mais uma vez obrigado a todos,
> Toda essa discussão foi muito proveitosa.
>
>
>
>
>
>
>
>
>
> Em 6 de novembro de 2015 16:30, Cesar Rabak <cesar.rabak em gmail.com>
> escreveu:
>
>> André,
>>
>> Sua questão sobre o quê o resultado do teste estatístico que você
>> realizou é muito importante.
>>
>> Antes de mais nada gostaria de colocar que as alternativas propostas são
>> todas tautológicas no sentido matemático/estatístico (puro) pois um fato da
>> vida é o de que todas as "medidas" obteníveis de uma tabela de contingência
>> estão todas inter-relacionadas. . .
>>
>> Uma abordagem mais lúcida a meu ver é entender o resultado do teste, "por
>> preguiça" eu abrevei os nomes dos seus microorganismos:
>>
>> > tabela <-
>> matrix(c(250,15,34,14),nrow=2,byrow=T,dimnames=list(c("CN","CP"),c("GN","GP")))
>>
>> Rodando o mosaicplot nesses dados:
>>
>> > mosaicplot(tabela, shade=T)
>> ou melhor ainda
>> > library(vcd)
>> > mosaic(tabela, shade=T)
>>
>> A gente vê que os resíduos de Pearson por célula da tabela que estão
>> gerando o valor do qui², e consequentemente do valor-p.
>>
>> Nessa figura fica claro que a expectativa não cumprida é que a
>> porcentagem do GP para CP (posto que a quantidade de CN versus CP é muito
>> maior). A pergunta a fazer então é a seguinte, o quê essa tabela está
>> testando?
>>
>> Em outras palavras, qual experimento foi realizado?
>> 313 amostras obtidas aleatoriamente foram classificadas para Cryptosporidium
>> e Giardia?
>>
>> As proporções de Cryptosporidium e Giardia são as que aparecem na
>> Natureza?
>>
>> Cada uma dessas questões levaria a uma análise diferente.
>>
>> Admitindo que a análise adequada conduzisse para uma melhor medida
>> explicativa, as medidas de associação em tabelas de contingência (de novo
>> veja que elas são apenas o resultado obtido em "outra roupagem", posto que
>> emanam de exatamente as mesmas métricas e variáveis. . .)
>>
>> https://en.wikipedia.org/wiki/Contingency_table#Measures_of_association (
>> *sorry* a pág. em português sobre este tema é pobrezinha), e
>> https://en.wikipedia.org/wiki/Phi_coefficient.
>>
>> No R:
>> > library(psych)
>> > phi(tabela)
>> [1] 0,29
>> >
>>
>> As medidas de associação têm mais respeito porque podem medir o assim
>> chamado "tamanho do efeito", e auxiliar a análise em relação à importância
>> prática do resultado.
>>
>> Um tratamento teórico dessas medidas pode ser encontrado aqui:
>> https://corplingstats.wordpress.com/2012/04/09/measures-of-association/
>>
>> Um outro aspecto a ser mencionado é que todos os testes baseados na
>> estatítica do qui² são sensíveis ao tamanho da amostra na tabela, daí a
>> ideia de se usar outra maneira de interpretar os dados.
>>
>> A propósito, o comentário do Leonardo sobre IC de Wald versus Wilson é
>> tratado neste interessante post:
>> https://corplingstats.wordpress.com/2012/03/31/z-squared/
>>
>> Por fim, gostaria de propor a leitura deste post para que você decida o
>> quê o seu resultado signfica:
>> http://www.theguardian.com/commentisfree/2011/sep/09/bad-science-research-error
>>
>> HTH
>>
>>
>> 2015-11-05 14:30 GMT-02:00 André Lucas de Oliveira Moreira <
>> andremoreirazoo em gmail.com>:
>>
>>> Pessoal, muito obrigado por tudo!
>>>
>>> Felipe, com os comentários ficou mais fácil de associar o que já sei com
>>> os exemplos que você utilizou. :D
>>>
>>>
>>> Abraços a todos,
>>> André
>>>
>>> Em 4 de novembro de 2015 17:33, Felipe <felipe.e.barletta em gmail.com>
>>> escreveu:
>>>
>>>> André,
>>>>
>>>> Como o Leonardo disse no e-mail anterior, há pacotes que já calculam
>>>> medidas como diferença de proporção OR, seus respectivos IC e outras
>>>> medidas que podem atender suas necessidades no seu estudo.
>>>> Além dos pacotes que ele já sugeriu, outro que pode consultar é o epiR:
>>>>
>>>> https://cran.r-project.org/web/packages/epiR/epiR.pdf
>>>>
>>>> Outra sugestão de leitura que gostaria de é o material da professora
>>>> Silvia Shimakura:
>>>>
>>>> http://leg.ufpr.br/~silvia/CE008/
>>>> http://leg.ufpr.br/~silvia/CE001/node68.html
>>>>
>>>> Veja qual forma se apresenta mais interessante para seu aprendizado,
>>>> mas quando escrevo as funções no R como calculadora, acredito que os
>>>> exemplos se tornam mais didáticos mesmo que já implementados em alguns
>>>> pacotes do R.
>>>>
>>>> E como solicitou segue alguns comentários acerca dos comandos que
>>>> enviei anteriormente:
>>>>
>>>>
>>>> ## Carregando os dados da tabela que enviou no e-mail
>>>> dados<-matrix(c(250,15,34,14),ncol=2,byrow=T)
>>>>
>>>> ## Verificando a existência de associação entre os parasitas através da
>>>> Estatística Qui-quadrado
>>>> ## Quando utilizamos o teste o argumento sim=500, há um alerta pois há
>>>> casela com frequência logo um pressuposto de validade do teste não foi
>>>> atendido.
>>>> ## Uma alternativa então é calcular o p-valor através de simulação ou o
>>>> teste exato de Fisher. Note que quando simulamos o p-valor não é necessário
>>>> usar a correção de continuidade de Yates.
>>>> Q<-chisq.test(dados,sim=500)
>>>> Q
>>>> Q$observed ### frequência observada
>>>> Q$expected ### frequência esperada
>>>> ##Há evidências de se rejeitar H0
>>>>
>>>> # Comandos para obtenção da diferença entre proporções e seu IC(95%)
>>>> ## Calculando as proporções entre Cryptosporidium negativo e
>>>> Cryptosporidium positivo
>>>> p11<-(dados[1,1]/(sum(dados[1,])))
>>>> p22<-(dados[1,1]/(sum(dados[1,])))
>>>>
>>>> d<-p11-p21 # diferença entre as proporções
>>>> vd<-((p11*(1-p11))/(sum(dados[1,])-1)) +
>>>> ((p21*(1-p21))/(sum(dados[2,])-1)) ## Estimativa para a variância
>>>> dvd<-sqrt(vd) ## raíz quadrada da variância
>>>> z<-qnorm(0.975) #percentil da Normal padrão
>>>> li<- d - (z*dvd) # Limite inferior
>>>> ls<- d + (z*dvd) # Limite superior
>>>> cbind(d,li,ls) # Intervalo de Confiança de 95%. Como o valor zero não
>>>> está contido no IC a diferença é significativa ao nível de 95% de confiança.
>>>>
>>>> ##Razão de Chances ou Odds Ratio (OR) e IC95%(OR)
>>>> OR<-(dados[1,1]*dados[2,2])/(dados[1,2]*dados[2,1]) ## Calculando a
>>>> *odds ratio (n11*n22/n12*n21) *## Quando OR=1 indica chances iguais.
>>>> Se for OR>1, o grupo 1 apresenta maior chance que o grupo 2.
>>>> ## Para o cálculo do IC para a OR, usamos o logaritmo da OR na base
>>>> *e.*
>>>> vf<-(1/dados[1,1])+(1/dados[1,2])+(1/dados[2,1]+(1/dados[2,2]))
>>>> ##Estimativa para variância
>>>> dpf<-sqrt(vf) ## raíz quadrada da variância
>>>> z<-qnorm(0.975) #Percentil da Normal padrão
>>>> liOR<-exp(log(OR)-z*dpf) #Limite inferior
>>>> lsOR<-exp(log(OR)+z*dpf) # Limite Superior
>>>> cbind(OR,liOR,lsOR)
>>>> ## A chance de não haver Cryptosporidium e Giardia é 6,8 vezes maior
>>>> que a presença podendo variar entre 3 e 15,4 vezes ao nível de confiança de
>>>> 95%.
>>>>
>>>>
>>>>
>>>> --
>>>> Atenciosamente
>>>> Felipe E. Barletta Mendes
>>>> Estatístico - Conre3 9766-A+55 (41)-92077191+55 (41)-33287216
>>>>
>>>>
>>>> _______________________________________________
>>>> R-br mailing list
>>>> R-br em listas.c3sl.ufpr.br
>>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>>> código mínimo reproduzível.
>>>>
>>>
>>>
>>>
>>> --
>>>
>>> *MSc. André Lucas de O. Moreira*
>>> http://lattes.cnpq.br/7258065668864153
>>> <http://www.wikiaves.com.br/perfil_andrelukinhas>
>>> http://www.wikiaves.com.br/perfil_andrelukinhas
>>> 79 8837-3562
>>> 79 9132-9093
>>>
>>>
>>> _______________________________________________
>>> R-br mailing list
>>> R-br em listas.c3sl.ufpr.br
>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>> código mínimo reproduzível.
>>>
>>
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
>
>
>
> --
>
> *MSc. André Lucas de O. Moreira*
> http://lattes.cnpq.br/7258065668864153
> <http://www.wikiaves.com.br/perfil_andrelukinhas>
> http://www.wikiaves.com.br/perfil_andrelukinhas
> 79 8837-3562
> 79 9132-9093
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20151108/54e8bf61/attachment.html>


Mais detalhes sobre a lista de discussão R-br