
On 09/18/2014 12:47 PM, Jefferson Ferreira-Ferreira wrote:
Prezados;
Uma dúvida básica de um iniciante em análises estatísticas. Tenho uma série de variáveis categóricas binárias e duas variáveis contínuas. Eu gostaria de saber o quando minhas variáveis categóricas explicam minhas duas variáveis contínuas. Por exemplo:
c1c2c3c4xy 0111931623 0100163259 1010690306 1010690306
A pergunta é: o quanto a combinação das variáveis c explicam os valores de x e y? Ou, qual a correlação entre as variáveis c e as variáveis x e y?
Podem me dar alguma ideia de análises possíveis? Obrigado.
Jefferson, Espero que você tenha muitos dados... Como não sei muito sobre os dados e seus pressupostos, adotaria a seguinte estratégia: 1- Compara cada variável C*, pode ser 1.a compara 2 de cada vez (tabela de contingência) qui-quadrado ou extato de Fisher. (você não acredita que haja interações de alto nível) 1.b compara todas as 4 de uma vez, se você acredita que possa existir interação de alto nível, neste caso use modelo log-linear 2- Compara X e Y usa uma regressão linear vendo valor de p, R2 e AIC. Daqui pode sair alguma situações A - melhor dos mundos! X, Y e as C* são não correlatas com dados suficiente Solução duas regressões lineares uma pra X e outra para Y B - X e Y são não correlatas mas C* são correlatas, mas com dados suficiente (precisa de mais dados) Solução duas regressões lineares uma pra X e outra para Y, usando termos de interação C - X, Y são correlatas, mas as C* são não correlatas com dados suficiente (precisa de mias dados ainda) Solução utilizaria um modelo de correção, por exemplo, SURE (Seemingly Unrelated Regression Equations) D - X, Y e as C* são correlatas com dados suficiente (porém serão muito dados!) Solução utilizaria um modelo de correção com termos de interação, por exemplo, SURE (Seemingly Unrelated Regression Equations) E - pior dos mundos! X, Y e as C* são correlatas com dados INsuficientes Bem ... Se for absolutamente necessário fazer a análise Solução: Usa uma técnica de redução de dimensionalidade paras as C* - análise de correspondência multivariada por exemplo - e colocas os vetores resultantes, numa regressão SURE. Se ainda não for suficiente utiliza os vetores da mesma junto com as variáveis X e Y numa análise de componentes principais (PCA). É claro que a solução E tem um monte de incerteza e é de difícil interpretação porém se for algo que não tem solução é melhor que enterrar o trabalho. Espero ter ajudado, qq coisa mande um mail para a lista []s Tura