[R-br] Correlação entre variáveis categoricas
Elias Carvalho
ecacarva em gmail.com
Sexta Novembro 10 18:06:22 -02 2017
Ola Cesar, obrigado pelo retorno
Respostas abaixo:
Em 10 de novembro de 2017 16:10, Cesar Rabak <cesar.rabak em gmail.com>
escreveu:
> Elias,
>
> Umas observações:
>
>
> - Ao você « ... e eliminar os relacionamentos de variáveis com baixa
> corrrelação para evitar conexões causais espurias. » vai deixar as com alta
> correlação *apenas* e aí ter "colinearidade" para as variáveis?
>
> A idéia é remover correlações extremamente baixas, algo como 0.01 para
baixo.
Eu tenho uma rotina que verificar e remover colinearidades, mas de dados
numéricos por meio do VIF.
Você conhece algo similar para verificar colinearidade em variáveis
categóricas ?
>
> - A recomendação: « Para variáveis categoricas x categoricas. . .
> Sendo o valor P considerado a medida de correlação » não é muito correta do
> ponto de vista teórico🤔 Qual material "recomenda isso"?
>
>
Eu vi tantos links que até não acho mais, mas foi no
stackoverflow
e
stats.stackexchange.com
> - Para ser assertivo seria necessário que você nos contasse mais sobre
> quem seria (uma binária ou categórica ordinal) a variável resposta.
>
> Abaixo, uma amostra das variáveis, são no total 9 categóricas binárias e
12 categóricas ordinais sendo a de defecho é binaria.
Restaram 23.000 registros após remover respostas que não nos interessam
como DON'T KNOW, REFUSAL, NOT STATED.
*VARIÁVEL DE DESFECHO*
*C121 - Has heart disease*
*Content Code Sample *
NO 0 4,429
YES 1 57,079
*G001 - In general, how would you say your health is now?*
*Content Code Sample *
EXCELLENT 1 11,328
VERY GOOD 2 23,290
GOOD 3 18,472
FAIR 4 6,287
POOR 5 2,204
*G008 - Have you worked at a job or business at any time in the past 12
months?*
*Content Code Sample *
NO 0 15,233
YES 1 35,675
*CCC_071 - Has high blood pressure*
*Content Code Sample *
NO 0 14,364
YES 1 47,086
*R002 - Does a long-term physical condition or mental condition or health
problem, reduce the amount or the kind of activity at your home? *
*Content Code Sample *
SOMETIMES 1 9,189
OFTEN 2 5,939
NEVER 3 46,419
> -
>
>
> HTH
> --
> Cesar Rabak
>
>
>
> 2017-11-10 15:17 GMT-02:00 Elias Carvalho via R-br <
> r-br em listas.c3sl.ufpr.br>:
>
>> Boa Tarde Pessoal
>>
>> Tenho um banco de dados com 9 variáveis categóricas binárias e 12
>> variáveis categóricas ordinais.
>>
>> Preciso saber se há correlação entre elas, preciso de um valor que diga
>> se há uma correlação ou associação baixa, média ou alta.
>>
>> O objetivo é pré-processar um banco de dados antes de criar um grafo de
>> rede (path analysis e rede bayesiana) e eliminar os relacionamentos de
>> variáveis com baixa corrrelação para evitar conexões causais espurias.
>>
>> Lendo alguns materiais foi recomendado o seguinte:
>>
>> - Para variáveis categoricas x categoricas usar o qui-quadrado para
>> determinar se elas são independentes ou não.Sendo o valor P considerado a
>> medida de correlação
>> - Calcular também o v de Crammer (quanto menor maior é a força da
>> correlação)
>>
>> Alguuém pode me confirmar se esse é o melhor método ? Ou sugere outra
>> coisa ?
>>
>> --
>>
>>
>> *In Jesu et Maria*
>> *Obrigado*
>> *Prof. Elias Carvalho*
>>
>> *"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)"Blessed is he
>> who has been able to understand the cause of things"*
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
>
>
--
*In Jesu et Maria*
*Obrigado*
*Prof. Elias Carvalho*
*"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)"Blessed is he
who has been able to understand the cause of things"*
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20171110/ab741546/attachment.html>
Mais detalhes sobre a lista de discussão R-br