[R-br] Variáveis contínuas explicando Variáveis categóricas

Bernardo Rangel Tura tura em centroin.com.br
Quarta Outubro 8 06:48:33 BRT 2014


On 09/18/2014 12:47 PM, Jefferson Ferreira-Ferreira wrote:
>
> Prezados;
>
> Uma dúvida básica de um iniciante em análises estatísticas.
> Tenho uma série de variáveis categóricas binárias e duas variáveis
> contínuas. Eu gostaria de saber o quando minhas variáveis categóricas
> explicam minhas duas variáveis contínuas. Por exemplo:
>
> c1c2c3c4xy
> 0111931623
> 0100163259
> 1010690306
> 1010690306
>
>
> A pergunta é: o quanto a combinação das variáveis c explicam os valores
> de x e y? Ou, qual a correlação entre as variáveis c e as variáveis x e y?
>
> Podem me dar alguma ideia de análises possíveis?
> Obrigado.

Jefferson,

Espero que você tenha muitos dados...
Como não sei muito sobre os dados e seus pressupostos, adotaria a 
seguinte estratégia:

1- Compara cada variável C*, pode ser
    1.a compara 2 de cada vez (tabela de contingência) qui-quadrado ou 
extato de Fisher. (você não acredita que haja interações de alto nível)
    1.b compara todas as 4 de uma vez, se você acredita que possa 
existir interação de alto nível, neste caso use modelo log-linear

2- Compara X e Y usa uma regressão linear vendo valor de p, R2 e AIC.

Daqui pode sair alguma situações

A - melhor dos mundos! X, Y e as C* são não correlatas com dados suficiente
Solução duas regressões lineares uma pra X e outra para Y

B - X e Y são não correlatas mas C* são correlatas, mas com dados 
suficiente (precisa de mais dados)
Solução duas regressões lineares uma pra X e outra para Y, usando termos 
de interação

C - X, Y são correlatas, mas as C* são não correlatas com dados 
suficiente (precisa de mias dados ainda)
Solução utilizaria um modelo de correção, por exemplo, SURE (Seemingly 
Unrelated Regression Equations)

D - X, Y e as C* são correlatas com dados suficiente (porém serão muito 
dados!)
Solução utilizaria um modelo de correção com termos de interação, por 
exemplo, SURE (Seemingly Unrelated Regression Equations)

E - pior dos mundos! X, Y e as C* são correlatas com dados INsuficientes
Bem ... Se for absolutamente necessário fazer a análise

Solução: Usa uma técnica de redução de dimensionalidade paras as C* - 
análise de correspondência multivariada por exemplo - e colocas os 
vetores resultantes, numa regressão SURE. Se ainda não for suficiente 
utiliza os vetores da mesma junto com as variáveis X e Y numa análise de 
componentes principais (PCA).

É claro que a solução E tem um monte de incerteza e é de difícil 
interpretação porém se for algo que não tem solução é melhor que 
enterrar o trabalho.

Espero ter ajudado, qq coisa mande um mail para a lista

[]s
Tura



Mais detalhes sobre a lista de discussão R-br