[R-br] Variáveis contínuas explicando Variáveis categóricas
Bernardo Rangel Tura
tura em centroin.com.br
Quarta Outubro 8 06:48:33 BRT 2014
On 09/18/2014 12:47 PM, Jefferson Ferreira-Ferreira wrote:
>
> Prezados;
>
> Uma dúvida básica de um iniciante em análises estatísticas.
> Tenho uma série de variáveis categóricas binárias e duas variáveis
> contínuas. Eu gostaria de saber o quando minhas variáveis categóricas
> explicam minhas duas variáveis contínuas. Por exemplo:
>
> c1c2c3c4xy
> 0111931623
> 0100163259
> 1010690306
> 1010690306
>
>
> A pergunta é: o quanto a combinação das variáveis c explicam os valores
> de x e y? Ou, qual a correlação entre as variáveis c e as variáveis x e y?
>
> Podem me dar alguma ideia de análises possíveis?
> Obrigado.
Jefferson,
Espero que você tenha muitos dados...
Como não sei muito sobre os dados e seus pressupostos, adotaria a
seguinte estratégia:
1- Compara cada variável C*, pode ser
1.a compara 2 de cada vez (tabela de contingência) qui-quadrado ou
extato de Fisher. (você não acredita que haja interações de alto nível)
1.b compara todas as 4 de uma vez, se você acredita que possa
existir interação de alto nível, neste caso use modelo log-linear
2- Compara X e Y usa uma regressão linear vendo valor de p, R2 e AIC.
Daqui pode sair alguma situações
A - melhor dos mundos! X, Y e as C* são não correlatas com dados suficiente
Solução duas regressões lineares uma pra X e outra para Y
B - X e Y são não correlatas mas C* são correlatas, mas com dados
suficiente (precisa de mais dados)
Solução duas regressões lineares uma pra X e outra para Y, usando termos
de interação
C - X, Y são correlatas, mas as C* são não correlatas com dados
suficiente (precisa de mias dados ainda)
Solução utilizaria um modelo de correção, por exemplo, SURE (Seemingly
Unrelated Regression Equations)
D - X, Y e as C* são correlatas com dados suficiente (porém serão muito
dados!)
Solução utilizaria um modelo de correção com termos de interação, por
exemplo, SURE (Seemingly Unrelated Regression Equations)
E - pior dos mundos! X, Y e as C* são correlatas com dados INsuficientes
Bem ... Se for absolutamente necessário fazer a análise
Solução: Usa uma técnica de redução de dimensionalidade paras as C* -
análise de correspondência multivariada por exemplo - e colocas os
vetores resultantes, numa regressão SURE. Se ainda não for suficiente
utiliza os vetores da mesma junto com as variáveis X e Y numa análise de
componentes principais (PCA).
É claro que a solução E tem um monte de incerteza e é de difícil
interpretação porém se for algo que não tem solução é melhor que
enterrar o trabalho.
Espero ter ajudado, qq coisa mande um mail para a lista
[]s
Tura
Mais detalhes sobre a lista de discussão R-br