[R-br] análise de correlação entre variáveis qualitativas e quantitativas

Cesar Rabak cesar.rabak em gmail.com
Sex Dez 7 21:34:52 -02 2018


Prezada Flávia,

A distribuição de quaisquer forma de renda ou seus *proxies* como chamam os
americanos, em quase a totalidade das populações humanas onde esse conceito
é aplicável não é gaussiana ("Normal") mas sim tende a seguir a curva
descoberta por Pareto, portanto nada de inesperado aqui.

Quanto à validade da sua regressão, como já mais de uma vez (para outros
tipos, mas este conceito é basilar para análise de regressão) o importante
não é a distribuição das variáveis (dependente e explicativas) mas sim a
distribuição dos *resíduos* pós regressão.

SE eles não forem aproximadamente normais pode estar havendo algum vício na
regressão (em geral o modelo é incorreto) e os resultados podem não servir
para a nobre função de se fazer inferências a respeito da população de onde
a amostra foi retirada.

Quanto à questão de haver na sua amostra mais casos de um que outro nível
de determinada variável, pode-se em extremos ter algumas condições onde a
variável fica "muda" isto é por não ter variação entre os casos ela não
pode ser usada para explicar a variabilidade daquela escolhida para ser a
resposta.

A forma de resolver muda de acordo com a ciência de domínio do estudo, onde
em alguns casos pode-se sortear igual número de casos por classe para ter
uma melhor distribuição dos níveis de interesse (no seu caso renda), e os
resultados devem ser analisados levando isso em conta (uma boa obra de
referência sobre quais margens são fixas ou "livres" em tabelas de
contingência esclarece bem esse assunto).

HTH
--
Cesar Rabak


On Wed, Dec 5, 2018 at 9:17 PM Flávia de Campos Martins por (R-br) <
r-br em listas.c3sl.ufpr.br> wrote:

> Prezad em s,
>
> O objetivo do meu trabalho é analisar a correlação entre o conhecimento
> que as pessoas tem sobre a fauna local (variável dependente) e dados
> sócio-econômicos (sexo, idade, renda, escolaridade, tempo de residência no
> local). Eu tenho uma amostra de 105 informantes e as variáveis
> independentes foram organizadas em frequências e para montar a matriz de
> dados usamos números que representam as frequências das variáveis. Ex.:
> Idade: 0 a 10 anos - 1; 10 a 20 anos - 2...
>
> Como estamos trabalhando com a variável dependente qualitativa ordinal, e
> as amostras não apresentaram distribuição normal, fizemos um teste de
> correlação de Spearman.
>
> Entretanto, minha dúvida é se os informantes não se distribuem igualmente
> nas classes (categorias) de idade, de renda, de escolaridade isso não vai
> afetar o resultado?
> Para esclarecer: em relação à renda mensal eu tenho quatro classes: não
> possui renda fixa (0); até um salário mínimo (1); até dois salários (2) e
> até 3 salários. Só que 58% dos informantes estão na classe 1. Ou seja eu
> tenho distribuição desigual entre as classes, isso pode afetar meu
> resultado? Se sim, como resolver?
>
> Obrigada!
>
> Professora Adjunta
> Universidade de Pernambuco (UPE), *Campus* Petrolina
> BR 203, km 2, S/N
> Vila Eduardo
> 56328903 - Petrolina, PE- Brasil.
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20181207/167d26a1/attachment.html>


Mais detalhes sobre a lista de discussão R-br