Re: [R-br] Chi-quadrado demonstra associação, mas e daí?

Oi pessoal, agradeço pela atenção e ajuda. Francisco, possuo dados categóricos apenas, presença ou ausência de parasitas. Felipe, acho que o caminho é esse mesmo, mas você poderia me ajudar com comentários nas linhas dos comandos? Apesar de gostar de estudar estatística a matemática da coisa não é o meu forte. Então, uma ajuda para sabe do que se tratacada comando/resultado me faria entender melhor. Obrigado a todos, André Enviado do tablet Samsung. -------- Mensagem original -------- De : putini@outlook.com Data:03/11/2015 19:45 (GMT-03:00) Para: r-br@listas.c3sl.ufpr.br,r-br@listas.c3sl.ufpr.br Assunto: Re: [R-br] Chi-quadrado demonstra associação, mas e daí? Não seria o caso de fazer uma matriz de correlação, para estabelecer a intensidade da relação entre dois fatores? De qualquer maneira esse é um passo para fazer a regressão, estou certo? Att. Francisco Putini Enviado pelo Outlook para Android On Tue, Nov 3, 2015 at 1:44 PM -0800, "Leonardo Ferreira Fontenelle" <leonardof@leonardof.med.br> wrote: Em Ter 3 nov. 2015, às 17:21, Leonardo Ferreira Fontenelle escreveu: [...] além do prop.diff(), que já vem de fábrica. [...] Ops! A função é prop.test(), não prop.diff(). Leonardo Ferreira Fontenelle

Em Ter 3 nov. 2015, às 22:33, andremoreirazoo escreveu:
[...]
Felipe, acho que o caminho é esse mesmo, mas você poderia me ajudar com comentários nas linhas dos comandos?
Apesar de gostar de estudar estatística a matemática da coisa não é o meu forte. Então, uma ajuda para sabe do que se tratacada comando/resultado me faria entender melhor.
André, Partindo do princípio de que você saiba os fundamentos de como usar o R, você pode completar seu conhecimento lendo a ajuda para cada comando que Felipe usou. Mesmo assim, eu não recomendo que você escreva código assim. Como você disse, a parte matemática não é seu forte; se você tiver conhecimento suficiente para escrever alguma coisa, ela provavelmente já foi escrita. Pior ainda, você pode acabar deixando de usar uma alternativa melhor, pois existe mais de uma forma de calcular intervalos de confiança. Por exemplo, o código que Felipe propões calcula o intervalo de confiança da diferença de proporções usando o que se costuma chamar método de Wald. Só que o R já dispõe de uma função para calcular o intervalo de confiança para a diferença de proporções, que é o prop.test(). Essa função utiliza o método dos escores de Wilson, que é uma alternativa superior ao método de Wald[1], especialmente quando a amostra é pequena o suficiente para que isso faça alguma diferença. Repito que existem pacotes como o "PropCIs" e o "binom" com funções que provavelmente vão atender às suas necessidades, além dos pacotes de epidemiologia. Se você precisa de ajuda para interpretar as estimativas fornecidas pelo R, você precisa de um livro de estatística (ou epidemiologia). Se você precisa ajuda para chegar a essas estimativas com o R, a gente pode lhe ajudar. Mas, agora me ocorreu, talvez você nem precise do R. Dependendo da complexidade das análises que você pretende realizar, você pode usar o www.openepi.com. Espero ter ajudado mais do que confundido :) Leonardo Ferreira Fontenelle[2] Links: 1. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.408.7107&rep=rep1&t... 2. http://lattes.cnpq.br/9234772336296638

Caro Leonardo, Acompanhando as perguntas e respostas aprendi coisas interessantes como referência de início de estudo. Sua vontade em ajudar foi sim bastante útil. Obrigado pela sua contribuição. André Rutz Psicólogo Em 04/11/2015 11:53, "Leonardo Ferreira Fontenelle" < leonardof@leonardof.med.br> escreveu:
Em Ter 3 nov. 2015, às 22:33, andremoreirazoo escreveu:
[...]
Felipe, acho que o caminho é esse mesmo, mas você poderia me ajudar com comentários nas linhas dos comandos?
Apesar de gostar de estudar estatística a matemática da coisa não é o meu forte. Então, uma ajuda para sabe do que se tratacada comando/resultado me faria entender melhor.
André,
Partindo do princípio de que você saiba os fundamentos de como usar o R, você pode completar seu conhecimento lendo a ajuda para cada comando que Felipe usou. Mesmo assim, eu não recomendo que você escreva código assim. Como você disse, a parte matemática não é seu forte; se você tiver conhecimento suficiente para escrever alguma coisa, ela provavelmente já foi escrita. Pior ainda, você pode acabar deixando de usar uma alternativa melhor, pois existe mais de uma forma de calcular intervalos de confiança.
Por exemplo, o código que Felipe propões calcula o intervalo de confiança da diferença de proporções usando o que se costuma chamar método de Wald. Só que o R já dispõe de uma função para calcular o intervalo de confiança para a diferença de proporções, que é o prop.test(). Essa função utiliza o método dos escores de Wilson, que é uma alternativa superior ao método de Wald <http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.408.7107&rep=rep1&type=pdf>, especialmente quando a amostra é pequena o suficiente para que isso faça alguma diferença.
Repito que existem pacotes como o "PropCIs" e o "binom" com funções que provavelmente vão atender às suas necessidades, além dos pacotes de epidemiologia.
Se você precisa de ajuda para interpretar as estimativas fornecidas pelo R, você precisa de um livro de estatística (ou epidemiologia). Se você precisa ajuda para chegar a essas estimativas com o R, a gente pode lhe ajudar. Mas, agora me ocorreu, talvez você nem precise do R. Dependendo da complexidade das análises que você pretende realizar, você pode usar o www.openepi.com.
Espero ter ajudado mais do que confundido :)
Leonardo Ferreira Fontenelle <http://lattes.cnpq.br/9234772336296638>
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

André, Como o Leonardo disse no e-mail anterior, há pacotes que já calculam medidas como diferença de proporção OR, seus respectivos IC e outras medidas que podem atender suas necessidades no seu estudo. Além dos pacotes que ele já sugeriu, outro que pode consultar é o epiR: https://cran.r-project.org/web/packages/epiR/epiR.pdf Outra sugestão de leitura que gostaria de é o material da professora Silvia Shimakura: http://leg.ufpr.br/~silvia/CE008/ http://leg.ufpr.br/~silvia/CE001/node68.html Veja qual forma se apresenta mais interessante para seu aprendizado, mas quando escrevo as funções no R como calculadora, acredito que os exemplos se tornam mais didáticos mesmo que já implementados em alguns pacotes do R. E como solicitou segue alguns comentários acerca dos comandos que enviei anteriormente: ## Carregando os dados da tabela que enviou no e-mail dados<-matrix(c(250,15,34,14),ncol=2,byrow=T) ## Verificando a existência de associação entre os parasitas através da Estatística Qui-quadrado ## Quando utilizamos o teste o argumento sim=500, há um alerta pois há casela com frequência logo um pressuposto de validade do teste não foi atendido. ## Uma alternativa então é calcular o p-valor através de simulação ou o teste exato de Fisher. Note que quando simulamos o p-valor não é necessário usar a correção de continuidade de Yates. Q<-chisq.test(dados,sim=500) Q Q$observed ### frequência observada Q$expected ### frequência esperada ##Há evidências de se rejeitar H0 # Comandos para obtenção da diferença entre proporções e seu IC(95%) ## Calculando as proporções entre Cryptosporidium negativo e Cryptosporidium positivo p11<-(dados[1,1]/(sum(dados[1,]))) p22<-(dados[1,1]/(sum(dados[1,]))) d<-p11-p21 # diferença entre as proporções vd<-((p11*(1-p11))/(sum(dados[1,])-1)) + ((p21*(1-p21))/(sum(dados[2,])-1)) ## Estimativa para a variância dvd<-sqrt(vd) ## raíz quadrada da variância z<-qnorm(0.975) #percentil da Normal padrão li<- d - (z*dvd) # Limite inferior ls<- d + (z*dvd) # Limite superior cbind(d,li,ls) # Intervalo de Confiança de 95%. Como o valor zero não está contido no IC a diferença é significativa ao nível de 95% de confiança. ##Razão de Chances ou Odds Ratio (OR) e IC95%(OR) OR<-(dados[1,1]*dados[2,2])/(dados[1,2]*dados[2,1]) ## Calculando a /*odds ratio (n11*n22/n12*n21) */## Quando OR=1 indica chances iguais. Se for OR>1, o grupo 1 apresenta maior chance que o grupo 2. ## Para o cálculo do IC para a OR, usamos o logaritmo da OR na base /e./ vf<-(1/dados[1,1])+(1/dados[1,2])+(1/dados[2,1]+(1/dados[2,2])) ##Estimativa para variância dpf<-sqrt(vf) ## raíz quadrada da variância z<-qnorm(0.975) #Percentil da Normal padrão liOR<-exp(log(OR)-z*dpf) #Limite inferior lsOR<-exp(log(OR)+z*dpf) # Limite Superior cbind(OR,liOR,lsOR) ## A chance de não haver Cryptosporidium e Giardia é 6,8 vezes maior que a presença podendo variar entre 3 e 15,4 vezes ao nível de confiança de 95%. -- Atenciosamente Felipe E. Barletta Mendes Estatístico - Conre3 9766-A +55 (41)-92077191 +55 (41)-33287216

Pessoal, muito obrigado por tudo! Felipe, com os comentários ficou mais fácil de associar o que já sei com os exemplos que você utilizou. :D Abraços a todos, André Em 4 de novembro de 2015 17:33, Felipe <felipe.e.barletta@gmail.com> escreveu:
André,
Como o Leonardo disse no e-mail anterior, há pacotes que já calculam medidas como diferença de proporção OR, seus respectivos IC e outras medidas que podem atender suas necessidades no seu estudo. Além dos pacotes que ele já sugeriu, outro que pode consultar é o epiR:
https://cran.r-project.org/web/packages/epiR/epiR.pdf
Outra sugestão de leitura que gostaria de é o material da professora Silvia Shimakura:
http://leg.ufpr.br/~silvia/CE008/ http://leg.ufpr.br/~silvia/CE001/node68.html
Veja qual forma se apresenta mais interessante para seu aprendizado, mas quando escrevo as funções no R como calculadora, acredito que os exemplos se tornam mais didáticos mesmo que já implementados em alguns pacotes do R.
E como solicitou segue alguns comentários acerca dos comandos que enviei anteriormente:
## Carregando os dados da tabela que enviou no e-mail dados<-matrix(c(250,15,34,14),ncol=2,byrow=T)
## Verificando a existência de associação entre os parasitas através da Estatística Qui-quadrado ## Quando utilizamos o teste o argumento sim=500, há um alerta pois há casela com frequência logo um pressuposto de validade do teste não foi atendido. ## Uma alternativa então é calcular o p-valor através de simulação ou o teste exato de Fisher. Note que quando simulamos o p-valor não é necessário usar a correção de continuidade de Yates. Q<-chisq.test(dados,sim=500) Q Q$observed ### frequência observada Q$expected ### frequência esperada ##Há evidências de se rejeitar H0
# Comandos para obtenção da diferença entre proporções e seu IC(95%) ## Calculando as proporções entre Cryptosporidium negativo e Cryptosporidium positivo p11<-(dados[1,1]/(sum(dados[1,]))) p22<-(dados[1,1]/(sum(dados[1,])))
d<-p11-p21 # diferença entre as proporções vd<-((p11*(1-p11))/(sum(dados[1,])-1)) + ((p21*(1-p21))/(sum(dados[2,])-1)) ## Estimativa para a variância dvd<-sqrt(vd) ## raíz quadrada da variância z<-qnorm(0.975) #percentil da Normal padrão li<- d - (z*dvd) # Limite inferior ls<- d + (z*dvd) # Limite superior cbind(d,li,ls) # Intervalo de Confiança de 95%. Como o valor zero não está contido no IC a diferença é significativa ao nível de 95% de confiança.
##Razão de Chances ou Odds Ratio (OR) e IC95%(OR) OR<-(dados[1,1]*dados[2,2])/(dados[1,2]*dados[2,1]) ## Calculando a *odds ratio (n11*n22/n12*n21) *## Quando OR=1 indica chances iguais. Se for OR>1, o grupo 1 apresenta maior chance que o grupo 2. ## Para o cálculo do IC para a OR, usamos o logaritmo da OR na base *e.* vf<-(1/dados[1,1])+(1/dados[1,2])+(1/dados[2,1]+(1/dados[2,2])) ##Estimativa para variância dpf<-sqrt(vf) ## raíz quadrada da variância z<-qnorm(0.975) #Percentil da Normal padrão liOR<-exp(log(OR)-z*dpf) #Limite inferior lsOR<-exp(log(OR)+z*dpf) # Limite Superior cbind(OR,liOR,lsOR) ## A chance de não haver Cryptosporidium e Giardia é 6,8 vezes maior que a presença podendo variar entre 3 e 15,4 vezes ao nível de confiança de 95%.
-- Atenciosamente Felipe E. Barletta Mendes Estatístico - Conre3 9766-A+55 (41)-92077191+55 (41)-33287216
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- *MSc. André Lucas de O. Moreira* http://lattes.cnpq.br/7258065668864153 <http://www.wikiaves.com.br/perfil_andrelukinhas> http://www.wikiaves.com.br/perfil_andrelukinhas 79 8837-3562 79 9132-9093

André, Sua questão sobre o quê o resultado do teste estatístico que você realizou é muito importante. Antes de mais nada gostaria de colocar que as alternativas propostas são todas tautológicas no sentido matemático/estatístico (puro) pois um fato da vida é o de que todas as "medidas" obteníveis de uma tabela de contingência estão todas inter-relacionadas. . . Uma abordagem mais lúcida a meu ver é entender o resultado do teste, "por preguiça" eu abrevei os nomes dos seus microorganismos:
tabela <- matrix(c(250,15,34,14),nrow=2,byrow=T,dimnames=list(c("CN","CP"),c("GN","GP")))
Rodando o mosaicplot nesses dados:
mosaicplot(tabela, shade=T) ou melhor ainda library(vcd) mosaic(tabela, shade=T)
A gente vê que os resíduos de Pearson por célula da tabela que estão gerando o valor do qui², e consequentemente do valor-p. Nessa figura fica claro que a expectativa não cumprida é que a porcentagem do GP para CP (posto que a quantidade de CN versus CP é muito maior). A pergunta a fazer então é a seguinte, o quê essa tabela está testando? Em outras palavras, qual experimento foi realizado? 313 amostras obtidas aleatoriamente foram classificadas para Cryptosporidium e Giardia? As proporções de Cryptosporidium e Giardia são as que aparecem na Natureza? Cada uma dessas questões levaria a uma análise diferente. Admitindo que a análise adequada conduzisse para uma melhor medida explicativa, as medidas de associação em tabelas de contingência (de novo veja que elas são apenas o resultado obtido em "outra roupagem", posto que emanam de exatamente as mesmas métricas e variáveis. . .) https://en.wikipedia.org/wiki/Contingency_table#Measures_of_association ( *sorry* a pág. em português sobre este tema é pobrezinha), e https://en.wikipedia.org/wiki/Phi_coefficient. No R:
library(psych) phi(tabela) [1] 0,29
As medidas de associação têm mais respeito porque podem medir o assim chamado "tamanho do efeito", e auxiliar a análise em relação à importância prática do resultado. Um tratamento teórico dessas medidas pode ser encontrado aqui: https://corplingstats.wordpress.com/2012/04/09/measures-of-association/ Um outro aspecto a ser mencionado é que todos os testes baseados na estatítica do qui² são sensíveis ao tamanho da amostra na tabela, daí a ideia de se usar outra maneira de interpretar os dados. A propósito, o comentário do Leonardo sobre IC de Wald versus Wilson é tratado neste interessante post: https://corplingstats.wordpress.com/2012/03/31/z-squared/ Por fim, gostaria de propor a leitura deste post para que você decida o quê o seu resultado signfica: http://www.theguardian.com/commentisfree/2011/sep/09/bad-science-research-er... HTH 2015-11-05 14:30 GMT-02:00 André Lucas de Oliveira Moreira < andremoreirazoo@gmail.com>:
Pessoal, muito obrigado por tudo!
Felipe, com os comentários ficou mais fácil de associar o que já sei com os exemplos que você utilizou. :D
Abraços a todos, André
Em 4 de novembro de 2015 17:33, Felipe <felipe.e.barletta@gmail.com> escreveu:
André,
Como o Leonardo disse no e-mail anterior, há pacotes que já calculam medidas como diferença de proporção OR, seus respectivos IC e outras medidas que podem atender suas necessidades no seu estudo. Além dos pacotes que ele já sugeriu, outro que pode consultar é o epiR:
https://cran.r-project.org/web/packages/epiR/epiR.pdf
Outra sugestão de leitura que gostaria de é o material da professora Silvia Shimakura:
http://leg.ufpr.br/~silvia/CE008/ http://leg.ufpr.br/~silvia/CE001/node68.html
Veja qual forma se apresenta mais interessante para seu aprendizado, mas quando escrevo as funções no R como calculadora, acredito que os exemplos se tornam mais didáticos mesmo que já implementados em alguns pacotes do R.
E como solicitou segue alguns comentários acerca dos comandos que enviei anteriormente:
## Carregando os dados da tabela que enviou no e-mail dados<-matrix(c(250,15,34,14),ncol=2,byrow=T)
## Verificando a existência de associação entre os parasitas através da Estatística Qui-quadrado ## Quando utilizamos o teste o argumento sim=500, há um alerta pois há casela com frequência logo um pressuposto de validade do teste não foi atendido. ## Uma alternativa então é calcular o p-valor através de simulação ou o teste exato de Fisher. Note que quando simulamos o p-valor não é necessário usar a correção de continuidade de Yates. Q<-chisq.test(dados,sim=500) Q Q$observed ### frequência observada Q$expected ### frequência esperada ##Há evidências de se rejeitar H0
# Comandos para obtenção da diferença entre proporções e seu IC(95%) ## Calculando as proporções entre Cryptosporidium negativo e Cryptosporidium positivo p11<-(dados[1,1]/(sum(dados[1,]))) p22<-(dados[1,1]/(sum(dados[1,])))
d<-p11-p21 # diferença entre as proporções vd<-((p11*(1-p11))/(sum(dados[1,])-1)) + ((p21*(1-p21))/(sum(dados[2,])-1)) ## Estimativa para a variância dvd<-sqrt(vd) ## raíz quadrada da variância z<-qnorm(0.975) #percentil da Normal padrão li<- d - (z*dvd) # Limite inferior ls<- d + (z*dvd) # Limite superior cbind(d,li,ls) # Intervalo de Confiança de 95%. Como o valor zero não está contido no IC a diferença é significativa ao nível de 95% de confiança.
##Razão de Chances ou Odds Ratio (OR) e IC95%(OR) OR<-(dados[1,1]*dados[2,2])/(dados[1,2]*dados[2,1]) ## Calculando a *odds ratio (n11*n22/n12*n21) *## Quando OR=1 indica chances iguais. Se for OR>1, o grupo 1 apresenta maior chance que o grupo 2. ## Para o cálculo do IC para a OR, usamos o logaritmo da OR na base *e.* vf<-(1/dados[1,1])+(1/dados[1,2])+(1/dados[2,1]+(1/dados[2,2])) ##Estimativa para variância dpf<-sqrt(vf) ## raíz quadrada da variância z<-qnorm(0.975) #Percentil da Normal padrão liOR<-exp(log(OR)-z*dpf) #Limite inferior lsOR<-exp(log(OR)+z*dpf) # Limite Superior cbind(OR,liOR,lsOR) ## A chance de não haver Cryptosporidium e Giardia é 6,8 vezes maior que a presença podendo variar entre 3 e 15,4 vezes ao nível de confiança de 95%.
-- Atenciosamente Felipe E. Barletta Mendes Estatístico - Conre3 9766-A+55 (41)-92077191+55 (41)-33287216
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
--
*MSc. André Lucas de O. Moreira* http://lattes.cnpq.br/7258065668864153 <http://www.wikiaves.com.br/perfil_andrelukinhas> http://www.wikiaves.com.br/perfil_andrelukinhas 79 8837-3562 79 9132-9093
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Oi César, obrigado pela contribuição. Muito interessante seus comentários e suas sugestões de leitura, estou animado para aprender um pouco mais. Afinal, aprender mais é sempre motivador. Interessante também tudo que o pessoal falou sobre as alternativas que existem, pois na literatura da biologia não se aborda essas alternativas. ...Então, a ideia nesse teste é verificar se a incidência de Cryptosporidium positivo está associado à incidência de Giardia positiva... Mais uma vez obrigado a todos, Toda essa discussão foi muito proveitosa. Em 6 de novembro de 2015 16:30, Cesar Rabak <cesar.rabak@gmail.com> escreveu:
André,
Sua questão sobre o quê o resultado do teste estatístico que você realizou é muito importante.
Antes de mais nada gostaria de colocar que as alternativas propostas são todas tautológicas no sentido matemático/estatístico (puro) pois um fato da vida é o de que todas as "medidas" obteníveis de uma tabela de contingência estão todas inter-relacionadas. . .
Uma abordagem mais lúcida a meu ver é entender o resultado do teste, "por preguiça" eu abrevei os nomes dos seus microorganismos:
tabela <- matrix(c(250,15,34,14),nrow=2,byrow=T,dimnames=list(c("CN","CP"),c("GN","GP")))
Rodando o mosaicplot nesses dados:
mosaicplot(tabela, shade=T) ou melhor ainda library(vcd) mosaic(tabela, shade=T)
A gente vê que os resíduos de Pearson por célula da tabela que estão gerando o valor do qui², e consequentemente do valor-p.
Nessa figura fica claro que a expectativa não cumprida é que a porcentagem do GP para CP (posto que a quantidade de CN versus CP é muito maior). A pergunta a fazer então é a seguinte, o quê essa tabela está testando?
Em outras palavras, qual experimento foi realizado? 313 amostras obtidas aleatoriamente foram classificadas para Cryptosporidium e Giardia?
As proporções de Cryptosporidium e Giardia são as que aparecem na Natureza?
Cada uma dessas questões levaria a uma análise diferente.
Admitindo que a análise adequada conduzisse para uma melhor medida explicativa, as medidas de associação em tabelas de contingência (de novo veja que elas são apenas o resultado obtido em "outra roupagem", posto que emanam de exatamente as mesmas métricas e variáveis. . .)
https://en.wikipedia.org/wiki/Contingency_table#Measures_of_association ( *sorry* a pág. em português sobre este tema é pobrezinha), e https://en.wikipedia.org/wiki/Phi_coefficient.
No R:
library(psych) phi(tabela) [1] 0,29
As medidas de associação têm mais respeito porque podem medir o assim chamado "tamanho do efeito", e auxiliar a análise em relação à importância prática do resultado.
Um tratamento teórico dessas medidas pode ser encontrado aqui: https://corplingstats.wordpress.com/2012/04/09/measures-of-association/
Um outro aspecto a ser mencionado é que todos os testes baseados na estatítica do qui² são sensíveis ao tamanho da amostra na tabela, daí a ideia de se usar outra maneira de interpretar os dados.
A propósito, o comentário do Leonardo sobre IC de Wald versus Wilson é tratado neste interessante post: https://corplingstats.wordpress.com/2012/03/31/z-squared/
Por fim, gostaria de propor a leitura deste post para que você decida o quê o seu resultado signfica: http://www.theguardian.com/commentisfree/2011/sep/09/bad-science-research-er...
HTH
2015-11-05 14:30 GMT-02:00 André Lucas de Oliveira Moreira < andremoreirazoo@gmail.com>:
Pessoal, muito obrigado por tudo!
Felipe, com os comentários ficou mais fácil de associar o que já sei com os exemplos que você utilizou. :D
Abraços a todos, André
Em 4 de novembro de 2015 17:33, Felipe <felipe.e.barletta@gmail.com> escreveu:
André,
Como o Leonardo disse no e-mail anterior, há pacotes que já calculam medidas como diferença de proporção OR, seus respectivos IC e outras medidas que podem atender suas necessidades no seu estudo. Além dos pacotes que ele já sugeriu, outro que pode consultar é o epiR:
https://cran.r-project.org/web/packages/epiR/epiR.pdf
Outra sugestão de leitura que gostaria de é o material da professora Silvia Shimakura:
http://leg.ufpr.br/~silvia/CE008/ http://leg.ufpr.br/~silvia/CE001/node68.html
Veja qual forma se apresenta mais interessante para seu aprendizado, mas quando escrevo as funções no R como calculadora, acredito que os exemplos se tornam mais didáticos mesmo que já implementados em alguns pacotes do R.
E como solicitou segue alguns comentários acerca dos comandos que enviei anteriormente:
## Carregando os dados da tabela que enviou no e-mail dados<-matrix(c(250,15,34,14),ncol=2,byrow=T)
## Verificando a existência de associação entre os parasitas através da Estatística Qui-quadrado ## Quando utilizamos o teste o argumento sim=500, há um alerta pois há casela com frequência logo um pressuposto de validade do teste não foi atendido. ## Uma alternativa então é calcular o p-valor através de simulação ou o teste exato de Fisher. Note que quando simulamos o p-valor não é necessário usar a correção de continuidade de Yates. Q<-chisq.test(dados,sim=500) Q Q$observed ### frequência observada Q$expected ### frequência esperada ##Há evidências de se rejeitar H0
# Comandos para obtenção da diferença entre proporções e seu IC(95%) ## Calculando as proporções entre Cryptosporidium negativo e Cryptosporidium positivo p11<-(dados[1,1]/(sum(dados[1,]))) p22<-(dados[1,1]/(sum(dados[1,])))
d<-p11-p21 # diferença entre as proporções vd<-((p11*(1-p11))/(sum(dados[1,])-1)) + ((p21*(1-p21))/(sum(dados[2,])-1)) ## Estimativa para a variância dvd<-sqrt(vd) ## raíz quadrada da variância z<-qnorm(0.975) #percentil da Normal padrão li<- d - (z*dvd) # Limite inferior ls<- d + (z*dvd) # Limite superior cbind(d,li,ls) # Intervalo de Confiança de 95%. Como o valor zero não está contido no IC a diferença é significativa ao nível de 95% de confiança.
##Razão de Chances ou Odds Ratio (OR) e IC95%(OR) OR<-(dados[1,1]*dados[2,2])/(dados[1,2]*dados[2,1]) ## Calculando a *odds ratio (n11*n22/n12*n21) *## Quando OR=1 indica chances iguais. Se for OR>1, o grupo 1 apresenta maior chance que o grupo 2. ## Para o cálculo do IC para a OR, usamos o logaritmo da OR na base *e.* vf<-(1/dados[1,1])+(1/dados[1,2])+(1/dados[2,1]+(1/dados[2,2])) ##Estimativa para variância dpf<-sqrt(vf) ## raíz quadrada da variância z<-qnorm(0.975) #Percentil da Normal padrão liOR<-exp(log(OR)-z*dpf) #Limite inferior lsOR<-exp(log(OR)+z*dpf) # Limite Superior cbind(OR,liOR,lsOR) ## A chance de não haver Cryptosporidium e Giardia é 6,8 vezes maior que a presença podendo variar entre 3 e 15,4 vezes ao nível de confiança de 95%.
-- Atenciosamente Felipe E. Barletta Mendes Estatístico - Conre3 9766-A+55 (41)-92077191+55 (41)-33287216
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
--
*MSc. André Lucas de O. Moreira* http://lattes.cnpq.br/7258065668864153 <http://www.wikiaves.com.br/perfil_andrelukinhas> http://www.wikiaves.com.br/perfil_andrelukinhas 79 8837-3562 79 9132-9093
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- *MSc. André Lucas de O. Moreira* http://lattes.cnpq.br/7258065668864153 <http://www.wikiaves.com.br/perfil_andrelukinhas> http://www.wikiaves.com.br/perfil_andrelukinhas 79 8837-3562 79 9132-9093

André, A gente fica feliz que possa ter sido de ajuda, embora o assunto levantado por você extrapola o foco desta lista, que é precipuamente o uso do R. Se você quer analisar *incidência* você precisa fazer um estudo prospectivo, posto que a incidência define-se como "Taxa de eventos novos que surgem numa população num período de tempo." Sua tabela provavelmente mostra a *prevalência* que é definida como "Proporção de casos existentes numa população". Os dados de prevalência são geralmente obtidos de um estudo denominado transversal, que é um nome usado em epidemiologia para denominar um "instantâneo" da população sob estudo. Uma observação no seu post original também acende a lâmpada amarela: ". . . apenas 4,5% das amostras continham os dois parasitas ao mesmo tempo." A pergunta necessária: os casos que apenas um dos parasitas apareceram não estão na tabela por que? Se aparece um parasita "positivo" ele exclui a possibilidade do "negativo"? E a mais importante para ver se a sua busca por associação teria validade: as proporções dos parasitas (as marginais na sua tabela de contingência) são as esperadas na Natureza? Essas questões deverão ajudá-lo a verificar se você tem uma descoberta ou apenas está a fazer um constatação trivial. HTH -- Cesar Rabak 2015-11-08 8:53 GMT-02:00 André Lucas de Oliveira Moreira < andremoreirazoo@gmail.com>:
Oi César, obrigado pela contribuição.
Muito interessante seus comentários e suas sugestões de leitura, estou animado para aprender um pouco mais. Afinal, aprender mais é sempre motivador.
Interessante também tudo que o pessoal falou sobre as alternativas que existem, pois na literatura da biologia não se aborda essas alternativas.
...Então, a ideia nesse teste é verificar se a incidência de Cryptosporidium positivo está associado à incidência de Giardia positiva...
Mais uma vez obrigado a todos, Toda essa discussão foi muito proveitosa.
Em 6 de novembro de 2015 16:30, Cesar Rabak <cesar.rabak@gmail.com> escreveu:
André,
Sua questão sobre o quê o resultado do teste estatístico que você realizou é muito importante.
Antes de mais nada gostaria de colocar que as alternativas propostas são todas tautológicas no sentido matemático/estatístico (puro) pois um fato da vida é o de que todas as "medidas" obteníveis de uma tabela de contingência estão todas inter-relacionadas. . .
Uma abordagem mais lúcida a meu ver é entender o resultado do teste, "por preguiça" eu abrevei os nomes dos seus microorganismos:
tabela <- matrix(c(250,15,34,14),nrow=2,byrow=T,dimnames=list(c("CN","CP"),c("GN","GP")))
Rodando o mosaicplot nesses dados:
mosaicplot(tabela, shade=T) ou melhor ainda library(vcd) mosaic(tabela, shade=T)
A gente vê que os resíduos de Pearson por célula da tabela que estão gerando o valor do qui², e consequentemente do valor-p.
Nessa figura fica claro que a expectativa não cumprida é que a porcentagem do GP para CP (posto que a quantidade de CN versus CP é muito maior). A pergunta a fazer então é a seguinte, o quê essa tabela está testando?
Em outras palavras, qual experimento foi realizado? 313 amostras obtidas aleatoriamente foram classificadas para Cryptosporidium e Giardia?
As proporções de Cryptosporidium e Giardia são as que aparecem na Natureza?
Cada uma dessas questões levaria a uma análise diferente.
Admitindo que a análise adequada conduzisse para uma melhor medida explicativa, as medidas de associação em tabelas de contingência (de novo veja que elas são apenas o resultado obtido em "outra roupagem", posto que emanam de exatamente as mesmas métricas e variáveis. . .)
https://en.wikipedia.org/wiki/Contingency_table#Measures_of_association ( *sorry* a pág. em português sobre este tema é pobrezinha), e https://en.wikipedia.org/wiki/Phi_coefficient.
No R:
library(psych) phi(tabela) [1] 0,29
As medidas de associação têm mais respeito porque podem medir o assim chamado "tamanho do efeito", e auxiliar a análise em relação à importância prática do resultado.
Um tratamento teórico dessas medidas pode ser encontrado aqui: https://corplingstats.wordpress.com/2012/04/09/measures-of-association/
Um outro aspecto a ser mencionado é que todos os testes baseados na estatítica do qui² são sensíveis ao tamanho da amostra na tabela, daí a ideia de se usar outra maneira de interpretar os dados.
A propósito, o comentário do Leonardo sobre IC de Wald versus Wilson é tratado neste interessante post: https://corplingstats.wordpress.com/2012/03/31/z-squared/
Por fim, gostaria de propor a leitura deste post para que você decida o quê o seu resultado signfica: http://www.theguardian.com/commentisfree/2011/sep/09/bad-science-research-er...
HTH
2015-11-05 14:30 GMT-02:00 André Lucas de Oliveira Moreira < andremoreirazoo@gmail.com>:
Pessoal, muito obrigado por tudo!
Felipe, com os comentários ficou mais fácil de associar o que já sei com os exemplos que você utilizou. :D
Abraços a todos, André
Em 4 de novembro de 2015 17:33, Felipe <felipe.e.barletta@gmail.com> escreveu:
André,
Como o Leonardo disse no e-mail anterior, há pacotes que já calculam medidas como diferença de proporção OR, seus respectivos IC e outras medidas que podem atender suas necessidades no seu estudo. Além dos pacotes que ele já sugeriu, outro que pode consultar é o epiR:
https://cran.r-project.org/web/packages/epiR/epiR.pdf
Outra sugestão de leitura que gostaria de é o material da professora Silvia Shimakura:
http://leg.ufpr.br/~silvia/CE008/ http://leg.ufpr.br/~silvia/CE001/node68.html
Veja qual forma se apresenta mais interessante para seu aprendizado, mas quando escrevo as funções no R como calculadora, acredito que os exemplos se tornam mais didáticos mesmo que já implementados em alguns pacotes do R.
E como solicitou segue alguns comentários acerca dos comandos que enviei anteriormente:
## Carregando os dados da tabela que enviou no e-mail dados<-matrix(c(250,15,34,14),ncol=2,byrow=T)
## Verificando a existência de associação entre os parasitas através da Estatística Qui-quadrado ## Quando utilizamos o teste o argumento sim=500, há um alerta pois há casela com frequência logo um pressuposto de validade do teste não foi atendido. ## Uma alternativa então é calcular o p-valor através de simulação ou o teste exato de Fisher. Note que quando simulamos o p-valor não é necessário usar a correção de continuidade de Yates. Q<-chisq.test(dados,sim=500) Q Q$observed ### frequência observada Q$expected ### frequência esperada ##Há evidências de se rejeitar H0
# Comandos para obtenção da diferença entre proporções e seu IC(95%) ## Calculando as proporções entre Cryptosporidium negativo e Cryptosporidium positivo p11<-(dados[1,1]/(sum(dados[1,]))) p22<-(dados[1,1]/(sum(dados[1,])))
d<-p11-p21 # diferença entre as proporções vd<-((p11*(1-p11))/(sum(dados[1,])-1)) + ((p21*(1-p21))/(sum(dados[2,])-1)) ## Estimativa para a variância dvd<-sqrt(vd) ## raíz quadrada da variância z<-qnorm(0.975) #percentil da Normal padrão li<- d - (z*dvd) # Limite inferior ls<- d + (z*dvd) # Limite superior cbind(d,li,ls) # Intervalo de Confiança de 95%. Como o valor zero não está contido no IC a diferença é significativa ao nível de 95% de confiança.
##Razão de Chances ou Odds Ratio (OR) e IC95%(OR) OR<-(dados[1,1]*dados[2,2])/(dados[1,2]*dados[2,1]) ## Calculando a *odds ratio (n11*n22/n12*n21) *## Quando OR=1 indica chances iguais. Se for OR>1, o grupo 1 apresenta maior chance que o grupo 2. ## Para o cálculo do IC para a OR, usamos o logaritmo da OR na base *e.* vf<-(1/dados[1,1])+(1/dados[1,2])+(1/dados[2,1]+(1/dados[2,2])) ##Estimativa para variância dpf<-sqrt(vf) ## raíz quadrada da variância z<-qnorm(0.975) #Percentil da Normal padrão liOR<-exp(log(OR)-z*dpf) #Limite inferior lsOR<-exp(log(OR)+z*dpf) # Limite Superior cbind(OR,liOR,lsOR) ## A chance de não haver Cryptosporidium e Giardia é 6,8 vezes maior que a presença podendo variar entre 3 e 15,4 vezes ao nível de confiança de 95%.
-- Atenciosamente Felipe E. Barletta Mendes Estatístico - Conre3 9766-A+55 (41)-92077191+55 (41)-33287216
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
--
*MSc. André Lucas de O. Moreira* http://lattes.cnpq.br/7258065668864153 <http://www.wikiaves.com.br/perfil_andrelukinhas> http://www.wikiaves.com.br/perfil_andrelukinhas 79 8837-3562 79 9132-9093
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
--
*MSc. André Lucas de O. Moreira* http://lattes.cnpq.br/7258065668864153 <http://www.wikiaves.com.br/perfil_andrelukinhas> http://www.wikiaves.com.br/perfil_andrelukinhas 79 8837-3562 79 9132-9093
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
participantes (6)
-
andremoreirazoo
-
André Figueiras Rutz
-
André Lucas de Oliveira Moreira
-
Cesar Rabak
-
Felipe
-
Leonardo Ferreira Fontenelle