[R-br] Correlação entre variáveis categoricas

Elias Carvalho ecacarva em gmail.com
Sexta Novembro 10 18:06:22 -02 2017


Ola Cesar, obrigado pelo retorno

Respostas abaixo:

Em 10 de novembro de 2017 16:10, Cesar Rabak <cesar.rabak em gmail.com>
escreveu:

> Elias,
>
> Umas observações:
>
>
>    - Ao você « ... e eliminar os relacionamentos de variáveis com baixa
>    corrrelação para evitar conexões causais espurias. » vai deixar as com alta
>    correlação *apenas* e aí ter "colinearidade" para as variáveis?
>
> ​A idéia é remover correlações extremamente baixas, algo como 0.01 para
baixo.
Eu tenho uma rotina que verificar e remover colinearidades, mas de dados
numéricos por meio do VIF.
Você conhece algo similar para verificar colinearidade em variáveis
categóricas ?

>
>    - A recomendação: « Para variáveis categoricas x categoricas. . .
>    Sendo o valor P considerado a medida de correlação » não é muito correta do
>    ponto de vista teórico🤔 Qual material "recomenda isso"?
>
>
​Eu vi tantos links que até não acho mais, mas foi no
stackoverflow
​ ​
​
​e
stats.stackexchange.com​


>    - Para ser assertivo seria necessário que você nos contasse mais sobre
>    quem seria (uma binária ou categórica ordinal) a variável resposta.
>
> ​Abaixo, uma amostra das variáveis, são no total 9 categóricas binárias e
12 categóricas ordinais sendo a de defecho é binaria.

Restaram 23.000 registros após remover respostas que não nos interessam
como DON​'T KNOW, REFUSAL, NOT STATED.

*​VARIÁVEL DE DESFECHO*
*C121 - ​Has heart disease*
​*Content                  Code               Sample             *
NO                              0                 4,429
YES                            1                57,079 ​


*​G001 - In general, how would you say your health is now?*
*Content                  Code               Sample             *
EXCELLENT              1                11,328
VERY GOOD             2                23,290
GOOD                        3                18,472
FAIR                           4                  6,287
POOR                        5                  2,204
​
*​G008 - Have you worked at a job or business at any time in the past 12
months?*
*Content                  Code               Sample             *
NO                              0                15,233
YES                            1                35,675
​
*​CCC_071 - Has high blood pressure*
​*Content                  Code               Sample             *
NO                              0                14,364
YES                            1                47,086


*​R002 - Does a long-term physical condition or mental condition or health
problem, reduce the amount or the kind of activity at your home? ​*
​*Content                  Code               Sample             *
SOMETIMES                 1                    9,189
OFTEN                          2                    5,939
NEVER                          3                  46,419



>    -
>
>
> HTH
> --
> Cesar Rabak
>
>
>
> 2017-11-10 15:17 GMT-02:00 Elias Carvalho via R-br <
> r-br em listas.c3sl.ufpr.br>:
>
>> Boa Tarde Pessoal
>>
>> Tenho um banco de dados com 9 variáveis categóricas binárias e 12
>> variáveis categóricas ordinais.
>>
>> Preciso saber se há correlação entre elas, preciso de um valor que diga
>> se há uma correlação ou associação baixa, média ou alta.
>>
>> O objetivo é pré-processar um banco de dados antes de criar um grafo de
>> rede (path analysis e rede bayesiana) e eliminar os relacionamentos de
>> variáveis com baixa corrrelação para evitar conexões causais espurias.
>>
>> Lendo alguns materiais foi recomendado o seguinte:
>>
>>    - Para variáveis categoricas x categoricas usar o qui-quadrado para
>>    determinar se elas são independentes ou não.Sendo o valor P considerado a
>>    medida de correlação
>>    - Calcular também o v de Crammer (quanto menor maior é a força da
>>    correlação)
>>
>> Alguuém pode me confirmar se esse é o melhor método ? Ou sugere outra
>> coisa ?
>>
>> --
>>
>>
>> *In Jesu et Maria*
>> *Obrigado*
>> *Prof. Elias Carvalho*
>>
>> *"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)"Blessed is he
>> who has been able to understand the cause of things"*
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
>
>


-- 


*In Jesu et Maria*
*Obrigado*
*Prof. Elias Carvalho*

*"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)"Blessed is he
who has been able to understand the cause of things"*
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20171110/ab741546/attachment.html>


Mais detalhes sobre a lista de discussão R-br