[R-br] teste de Homogeneidade e Normalidade

Daniel Marcelino dmsilva.br em gmail.com
Quinta Junho 2 20:17:36 BRT 2011


Walmes,
Achei bastante instrutiva essa discussão na lista. Pensei agora num
exemplo que me ocorreu há uns 2 meses ao tentar ajudar um colega no
mestrado que foi orientado a usar glm. Quando eu me deparei com os
resíduos não consegui avançar, pois não tenho muito conhecimento
teórico dos modelos generalizados.

Os dados que eu digo estão aqui, caso queira ver o problema:
http://dl.dropbox.com/u/1339742/lucio11.dta

Usavamos o STATA  para rodar o seguinte modelo:

glm boe bps bpi bpn bls BOL  , link(logit) family(binomial) vce(r)
predict glmdev, dev

glm boe bps bpi bpn bls BOL  , link(logit) family(binomial)
vce(bootstrap, reps(2000) seed(10101))
predict glmdevb, dev

swilk glmdev glmdevb
pnorm  glmdev
pnorm glmdevb

A ideia do modelo era comparar as agendas de três diferentes públicos
(democrata satisfeito, insatisfeito e não democrata – bps, bpi e bpn),
das atividades de plenário do senado (bls) e das promessas fiscais
para o exercício seguinte (orçamento lei -1 = BOL) na solução imediata
ou diferida dos acordos políticos (orçamento executado = boe).

Daniel


2011/6/2 Walmes Zeviani <walmeszeviani em gmail.com>:
> Daniel,
>
> Em glm não existe uma única definição de resíduos. Veja nas opções da função
> residuals.glm() que existem diversas opções. Há um resultado assintótico (n
> tende ao infinito) que que os resíduos de pearson e deviance padronizados
> convergem para distribuição normal(0,1). Por isso o gráfico qqplot ainda é
> útil no diagnóstico desses resíduos. Leia os rótulos dos eixos dos gráficos
> de análise de resíduos que saberá qual tipo de resíduo está sendo usado.
>
> ## Dobson (1990) Page 93: Randomized Controlled Trial :
> counts <- c(18,17,15,20,10,20,25,13,12)
> outcome <- gl(3,1,9)
> treatment <- gl(3,3)
> glm.D93 <- glm(counts ~ outcome + treatment, family=poisson())
> plot(glm.D93, which=1)
> plot(glm.D93, which=2)
>
> Acontece que, assim como nem todos os dados contínuos são normais, também
> nem todas as proporções serão binomiais e nem todas as contagens serão
> Poisson. Se assim fosse todos os nossos problemas seriam resolvidos com 3
> distribuições!!! Não devemos assumir uma distribuição de referência pela
> natureza de representação (números inteiros). Devemos procurar exergar o
> processo gerador dos dados. Eu mesmo uma vez peguei dados de contagem do
> número de capulhos de algodão. Corri para o glm Poisson. Não observei um bom
> ajuste (presença de forte subdispersão) e busquei respostas teóricas.
> Conclusões, apesar do meu dado ser uma contagem, o surgimento de capulhos
> numa planta não é um evento independente com o número de ligações que chegam
> numa central telefônica em uma hora (exemplo canônico de distribuição
> Poisson). Meu dado é negativamente correlacionado, mais capulhos impedem que
> novos apareçam pois a planta só é capar de nutrir um número limitado deles.
> Felizmente eu encontrei uma distribuição (em que Poisson é um caso
> particular) para dados de contagem que considerasse esse aspecto inerente do
> meu dado.
>
> À disposição.
> Walmes.
>
> ==========================================================================
> Walmes Marques Zeviani
> LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W)
> Departamento de Estatística - Universidade Federal do Paraná
> fone: (+55) 41 3361 3573
> VoIP: (3361 3600) 1053 1173
> e-mail: walmes em ufpr.br
> twitter: @walmeszeviani
> homepage: http://www.leg.ufpr.br/~walmes
> linux user number: 531218
> ==========================================================================
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>
>



-- 
Daniel Marcelino
http://danielmarcelino.zip.net
Skype: d_marcelino


Mais detalhes sobre a lista de discussão R-br