Variáveis contínuas explicando Variáveis categóricas

Prezados; Uma dúvida básica de um iniciante em análises estatísticas. Tenho uma série de variáveis categóricas binárias e duas variáveis contínuas. Eu gostaria de saber o quando minhas variáveis categóricas explicam minhas duas variáveis contínuas. Por exemplo: c1 c2 c3 c4 x y 0 1 1 1 931 623 0 1 0 0 163 259 1 0 1 0 690 306 1 0 1 0 690 306 A pergunta é: o quanto a combinação das variáveis c explicam os valores de x e y? Ou, qual a correlação entre as variáveis c e as variáveis x e y? Podem me dar alguma ideia de análises possíveis? Obrigado. -- *Jefferson Ferreira-Ferreira* Geógrafo – GEOPROCESSAMENTO IDSM | Coordenadoria de TI Jefferson.ferreira@mamiraua.org.br *Instituto de Desenvolvimento Sustentável Mamirauá* Ministério da Ciência, Tecnologia e Inovação Telefone: +55 97 3343-9710 *Google Maps* - Mapas deste e-mail: Exibir mapa ampliado <https://maps.google.com.br/maps?q=-3.355557,-64.731151&ll=-3.355471,-64.731145&spn=0.004632,0.006968&num=1&t=h&z=18> *Contatos particulares:* *(55) 9615-0100*

Você precisa fazer uma regressão. Segue um modelo # Regression analyses, standardized model1.z <- lm(scale(PE$endurance) ~ scale(PE$age)) summary(model1.z) confint(model1.z) model2.z <- lm(scale(PE$endurance) ~ scale(PE$activeyears)) summary(model2.z) confint(model2.z) model3.z <- lm(scale(PE$endurance) ~ scale(PE$age) + scale(PE$activeyears)) summary(model3.z) confint(model3.z) # Conduct a model comparison NHST to compare the fit of model2.z to the fit of model3.z anova(model2.z, model3.z) Acho que seria assim Daniel Daniel Tiezzi, MD, PhD Professor Associado Departamento de Ginecologia e Obstetrícia Setor de Mastologia e Oncologia Ginecológica Faculdade de Medicina de Ribeirão Preto - USP Tel.: 16 3602-2488 e-mail: dtiezzi@fmrp.usp.br On Sep 18, 2014, at 12:47 PM, Jefferson Ferreira-Ferreira <jecogeo@gmail.com> wrote:
Prezados;
Uma dúvida básica de um iniciante em análises estatísticas. Tenho uma série de variáveis categóricas binárias e duas variáveis contínuas. Eu gostaria de saber o quando minhas variáveis categóricas explicam minhas duas variáveis contínuas. Por exemplo:
c1 c2 c3 c4 x y 0 1 1 1 931 623 0 1 0 0 163 259 1 0 1 0 690 306 1 0 1 0 690 306
A pergunta é: o quanto a combinação das variáveis c explicam os valores de x e y? Ou, qual a correlação entre as variáveis c e as variáveis x e y?
Podem me dar alguma ideia de análises possíveis? Obrigado.
--
Jefferson Ferreira-Ferreira Geógrafo – GEOPROCESSAMENTO IDSM | Coordenadoria de TI
Jefferson.ferreira@mamiraua.org.br Instituto de Desenvolvimento Sustentável Mamirauá Ministério da Ciência, Tecnologia e Inovação Telefone: +55 97 3343-9710 Google Maps - Mapas deste e-mail: Exibir mapa ampliado
Contatos particulares: (55) 9615-0100 _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Professor daniel, Obrigado pela resposta. Ainda não testei essa alternativa. Mas a desvantagem dessa abordagem seria o grande número de modelos a serem ajustados, visto que tenho 11 variáveis explicativas categóricas para duas variáveis resposta numéricas contínuas. Isso me faria ajustar 22 modelos que teriam como premissa a independencia entre as variáveis explicativas. O que quero dizer é: o quanto a combinação das variáveis categóricas c1 c2 c3 c4 c5 c6... etc (biárias =0 ou 1) explicam meu x (numérico contínuo). Será que existe um modo de eu ajustar dois modelos? Tipo com a variável resposta X em função de todas as varíaveis explicativas categóricas e outro modelo com a variável resposta Y em função de todas as variáveis explicativas categóricas? c1 c2 c3 c4 x y 0 1 1 1 931 623 0 1 0 0 163 259 1 0 1 0 690 306 1 0 1 0 690 306 -- *Jefferson Ferreira-Ferreira* Geógrafo – GEOPROCESSAMENTO IDSM | Coordenadoria de TI Jefferson.ferreira@mamiraua.org.br *Instituto de Desenvolvimento Sustentável Mamirauá* Ministério da Ciência, Tecnologia e Inovação Telefone: +55 97 3343-9710 *Google Maps* - Mapas deste e-mail: Exibir mapa ampliado <https://maps.google.com.br/maps?q=-3.355557,-64.731151&ll=-3.355471,-64.731145&spn=0.004632,0.006968&num=1&t=h&z=18> *Contatos particulares:* *(55) 9615-0100* Em 18 de setembro de 2014 12:56, Daniel Tiezzi <dtiezzi@usp.br> escreveu:
Você precisa fazer uma regressão.
Segue um modelo
# Regression analyses, standardized model1.z <- lm(scale(PE$endurance) ~ scale(PE$age)) summary(model1.z) confint(model1.z)
model2.z <- lm(scale(PE$endurance) ~ scale(PE$activeyears)) summary(model2.z) confint(model2.z)
model3.z <- lm(scale(PE$endurance) ~ scale(PE$age) + scale(PE$activeyears)) summary(model3.z) confint(model3.z)
# Conduct a model comparison NHST to compare the fit of model2.z to the fit of model3.z anova(model2.z, model3.z)
Acho que seria assim
Daniel
Daniel Tiezzi, MD, PhD Professor Associado Departamento de Ginecologia e Obstetrícia Setor de Mastologia e Oncologia Ginecológica Faculdade de Medicina de Ribeirão Preto - USP Tel.: 16 3602-2488 e-mail: dtiezzi@fmrp.usp.br
On Sep 18, 2014, at 12:47 PM, Jefferson Ferreira-Ferreira < jecogeo@gmail.com> wrote:
Prezados;
Uma dúvida básica de um iniciante em análises estatísticas. Tenho uma série de variáveis categóricas binárias e duas variáveis contínuas. Eu gostaria de saber o quando minhas variáveis categóricas explicam minhas duas variáveis contínuas. Por exemplo:
c1 c2 c3 c4 x y 0 1 1 1 931 623 0 1 0 0 163 259 1 0 1 0 690 306 1 0 1 0 690 306
A pergunta é: o quanto a combinação das variáveis c explicam os valores de x e y? Ou, qual a correlação entre as variáveis c e as variáveis x e y?
Podem me dar alguma ideia de análises possíveis? Obrigado.
--
*Jefferson Ferreira-Ferreira* Geógrafo – GEOPROCESSAMENTO IDSM | Coordenadoria de TI
Jefferson.ferreira@mamiraua.org.br *Instituto de Desenvolvimento Sustentável Mamirauá*
Ministério da Ciência, Tecnologia e Inovação Telefone: +55 97 3343-9710
*Google Maps* - Mapas deste e-mail:
Exibir mapa ampliado <https://maps.google.com.br/maps?q=-3.355557,-64.731151&ll=-3.355471,-64.731145&spn=0.004632,0.006968&num=1&t=h&z=18>
*Contatos particulares:* *(55) 9615-0100* _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Se você só estiver interessado por elas em conjunto, pode simplesmente comparar (com anova) um modelo com todas as C e sem nenhuma C (e deixando o resto igual). [1]Leonardo Ferreira Fontenelle Em Qui 18 set. 2014, às 13:33, Jefferson Ferreira-Ferreira escreveu: Professor daniel, Obrigado pela resposta. Ainda não testei essa alternativa. Mas a desvantagem dessa abordagem seria o grande número de modelos a serem ajustados, visto que tenho 11 variáveis explicativas categóricas para duas variáveis resposta numéricas contínuas. Isso me faria ajustar 22 modelos que teriam como premissa a independencia entre as variáveis explicativas. O que quero dizer é: o quanto a combinação das variáveis categóricas c1 c2 c3 c4 c5 c6... etc (biárias =0 ou 1) explicam meu x (numérico contínuo). Será que existe um modo de eu ajustar dois modelos? Tipo com a variável resposta X em função de todas as varíaveis explicativas categóricas e outro modelo com a variável resposta Y em função de todas as variáveis explicativas categóricas? c1c2c3c4xy 0111931623 0100163259 1010690306 1010690306 -- Jefferson Ferreira-Ferreira Geógrafo – GEOPROCESSAMENTO IDSM | Coordenadoria de TI [emailass.png] [2]Jefferson.ferreira@mamiraua.org.br Instituto de Desenvolvimento Sustentável Mamirauá Ministério da Ciência, Tecnologia e Inovação Telefone: +55 97 3343-9710 [emailgoogle.png] Google Maps - Mapas deste e-mail: [3][emailtag.png] Exibir mapa ampliado Contatos particulares: (55) 9615-0100 Em 18 de setembro de 2014 12:56, Daniel Tiezzi <[4]dtiezzi@usp.br> escreveu: Você precisa fazer uma regressão. Segue um modelo # Regression analyses, standardized model1.z <- lm(scale(PE$endurance) ~ scale(PE$age)) summary(model1.z) confint(model1.z) model2.z <- lm(scale(PE$endurance) ~ scale(PE$activeyears)) summary(model2.z) confint(model2.z) model3.z <- lm(scale(PE$endurance) ~ scale(PE$age) + scale(PE$activeyears)) summary(model3.z) confint(model3.z) # Conduct a model comparison NHST to compare the fit of model2.z to the fit of model3.z anova(model2.z, model3.z) Acho que seria assim Daniel Daniel Tiezzi, MD, PhD Professor Associado Departamento de Ginecologia e Obstetrícia Setor de Mastologia e Oncologia Ginecológica Faculdade de Medicina de Ribeirão Preto - USP Tel.: 16 3602-2488 e-mail: [5]dtiezzi@fmrp.usp.br On Sep 18, 2014, at 12:47 PM, Jefferson Ferreira-Ferreira <[6]jecogeo@gmail.com> wrote: Prezados; Uma dúvida básica de um iniciante em análises estatísticas. Tenho uma série de variáveis categóricas binárias e duas variáveis contínuas. Eu gostaria de saber o quando minhas variáveis categóricas explicam minhas duas variáveis contínuas. Por exemplo: c1c2c3c4xy 0111931623 0100163259 1010690306 1010690306 A pergunta é: o quanto a combinação das variáveis c explicam os valores de x e y? Ou, qual a correlação entre as variáveis c e as variáveis x e y? Podem me dar alguma ideia de análises possíveis? Obrigado. -- Jefferson Ferreira-Ferreira Geógrafo – GEOPROCESSAMENTO IDSM | Coordenadoria de TI [emailass.png] [7]Jefferson.ferreira@mamiraua.org.br Instituto de Desenvolvimento Sustentável Mamirauá Ministério da Ciência, Tecnologia e Inovação Telefone: [8]+55 97 3343-9710 [emailgoogle.png] Google Maps - Mapas deste e-mail: [9][emailtag.png] Exibir mapa ampliado Contatos particulares: (55) 9615-0100 _______________________________________________ R-br mailing list [10]R-br@listas.c3sl.ufpr.br [11]https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem ([12]http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível. _______________________________________________ R-br mailing list [13]R-br@listas.c3sl.ufpr.br [14]https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem ([15]http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível. _______________________________________________ R-br mailing list [16]R-br@listas.c3sl.ufpr.br [17]https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem ([18]http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível. References 1. http://lattes.cnpq.br/9234772336296638 2. mailto:Jefferson.ferreira@mamiraua.org.br 3. https://maps.google.com.br/maps?q=-3.355557,-64.731151&ll=-3.355471,-64.7311... 4. mailto:dtiezzi@usp.br 5. mailto:dtiezzi@fmrp.usp.br 6. mailto:jecogeo@gmail.com 7. mailto:Jefferson.ferreira@mamiraua.org.br 8. tel:%2B55%2097%203343-9710 9. https://maps.google.com.br/maps?q=-3.355557,-64.731151&ll=-3.355471,-64.7311... 10. mailto:R-br@listas.c3sl.ufpr.br 11. https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br 12. http://www.leg.ufpr.br/r-br-guia 13. mailto:R-br@listas.c3sl.ufpr.br 14. https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br 15. http://www.leg.ufpr.br/r-br-guia 16. mailto:R-br@listas.c3sl.ufpr.br 17. https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br 18. http://www.leg.ufpr.br/r-br-guia

Impressão minha ou você tem apenas 4 linhas de registro? Se assim for, lembre-se que o seu modelo não pode "morar" numa dimensão igual ou maior que a dimensão dos dados que é 4. À disposição. Walmes.

Vi nos seus dados que vc está tratando seus dados num modelo do tipo. existe, não existe. 1 ou 0. E sua variável resposta é alguma métrica, sei lá tipo consumo de energia... minha sugestão é que vc use algum tipo de classe, ou categoria e agregue seus dados pela média ou quem sabe soma, com classes independentes. Para evitar problema de homocedasticidade. O modelo de regressão linear de fato supõe que seus dados sejam valores médios de algum critério, para determinadas observações. Isso provavelmente vai te ajudar bastante. pode ser que não seja possível em função da sua regra de negócio. espero ter ajudado. Boa sorte. abs vinicius Em 18 de setembro de 2014 18:52, Leonardo Ferreira Fontenelle < leonardof@leonardof.med.br> escreveu:
Se você só estiver interessado por elas em conjunto, pode simplesmente comparar (com anova) um modelo com todas as C e sem nenhuma C (e deixando o resto igual).
Leonardo Ferreira Fontenelle <http://lattes.cnpq.br/9234772336296638>
Em Qui 18 set. 2014, às 13:33, Jefferson Ferreira-Ferreira escreveu:
Professor daniel, Obrigado pela resposta. Ainda não testei essa alternativa. Mas a desvantagem dessa abordagem seria o grande número de modelos a serem ajustados, visto que tenho 11 variáveis explicativas categóricas para duas variáveis resposta numéricas contínuas. Isso me faria ajustar 22 modelos que teriam como premissa a independencia entre as variáveis explicativas.
O que quero dizer é: o quanto a combinação das variáveis categóricas c1 c2 c3 c4 c5 c6... etc (biárias =0 ou 1) explicam meu x (numérico contínuo).
Será que existe um modo de eu ajustar dois modelos? Tipo com a variável resposta X em função de todas as varíaveis explicativas categóricas e outro modelo com a variável resposta Y em função de todas as variáveis explicativas categóricas?
c1c2c3c4xy 0111931623 0100163259 1010690306 1010690306
--
*Jefferson Ferreira-Ferreira*
Geógrafo – GEOPROCESSAMENTO IDSM | Coordenadoria de TI
Jefferson.ferreira@mamiraua.org.br
*Instituto de Desenvolvimento Sustentável Mamirauá*
Ministério da Ciência, Tecnologia e Inovação
Telefone: +55 97 3343-9710
*Google Maps* - Mapas deste e-mail:
Exibir mapa ampliado <https://maps.google.com.br/maps?q=-3.355557,-64.731151&ll=-3.355471,-64.731145&spn=0.004632,0.006968&num=1&t=h&z=18>
*Contatos particulares:* *(55) 9615-0100 <%2855%29%209615-0100>*
Em 18 de setembro de 2014 12:56, Daniel Tiezzi <dtiezzi@usp.br> escreveu:
Você precisa fazer uma regressão.
Segue um modelo
# Regression analyses, standardized model1.z <- lm(scale(PE$endurance) ~ scale(PE$age)) summary(model1.z) confint(model1.z)
model2.z <- lm(scale(PE$endurance) ~ scale(PE$activeyears)) summary(model2.z) confint(model2.z)
model3.z <- lm(scale(PE$endurance) ~ scale(PE$age) + scale(PE$activeyears)) summary(model3.z) confint(model3.z)
# Conduct a model comparison NHST to compare the fit of model2.z to the fit of model3.z anova(model2.z, model3.z)
Acho que seria assim
Daniel
Daniel Tiezzi, MD, PhD Professor Associado Departamento de Ginecologia e Obstetrícia Setor de Mastologia e Oncologia Ginecológica Faculdade de Medicina de Ribeirão Preto - USP Tel.: 16 3602-2488 e-mail: dtiezzi@fmrp.usp.br
On Sep 18, 2014, at 12:47 PM, Jefferson Ferreira-Ferreira < jecogeo@gmail.com> wrote:
Prezados;
Uma dúvida básica de um iniciante em análises estatísticas. Tenho uma série de variáveis categóricas binárias e duas variáveis contínuas. Eu gostaria de saber o quando minhas variáveis categóricas explicam minhas duas variáveis contínuas. Por exemplo:
c1c2c3c4xy 0111931623 0100163259 1010690306 1010690306
A pergunta é: o quanto a combinação das variáveis c explicam os valores de x e y? Ou, qual a correlação entre as variáveis c e as variáveis x e y?
Podem me dar alguma ideia de análises possíveis? Obrigado.
--
*Jefferson Ferreira-Ferreira* Geógrafo – GEOPROCESSAMENTO IDSM | Coordenadoria de TI
Jefferson.ferreira@mamiraua.org.br *Instituto de Desenvolvimento Sustentável Mamirauá*
Ministério da Ciência, Tecnologia e Inovação Telefone: +55 97 3343-9710
*Google Maps* - Mapas deste e-mail:
Exibir mapa ampliado <https://maps.google.com.br/maps?q=-3.355557,-64.731151&ll=-3.355471,-64.731145&spn=0.004632,0.006968&num=1&t=h&z=18>
*Contatos particulares:* *(55) 9615-0100 <%2855%29%209615-0100>* _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
*_______________________________________________* R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- *Vinicius Brito Rocha.* *Estatístico e Atuário * *M.Sc. Engenharia de Produção/PO*

Jefferson, Seria interessante dar uma investigada nas possibilidades fornecidas pelas árvores classificação, como Y é categórico em seu caso: Y = f(x1, x2, ..., xn), sendo predito por x1, x2, ..., xn em escalas intervalares ou proporcionais. Existe a técnica para o caso Y ser univariado ou multivariado. Uma referência no Brasil é o Cesar Augusto Taconeli da UFPR ( cetaconeli_at_gmail.com). Entre em contato com ele pois embora existam pacotes no R que dão suporte a técnica de análise, ela não é muito fácil. Na ausência de melhores informações, vai aqui um link do curso que o César deu aqui na UESC em junho de 2013: http://nbcgib.uesc.br/lec/llec/cursos/arv-cla-regressao Os pressupostos da técnica são bem brandos. Ab, ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ Jose Claudio Faria Estatistica UESC/DCET/Brasil joseclaudio.faria at gmail.com Telefones: 55(73)3680.5545 - UESC 55(73)9966.9100 - VIVO 55(73)9100.7351 - TIM 55(73)8817.6159 - OI ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ 2014-09-18 19:41 GMT-03:00 Vinicius Brito Rocha <viniciusbritor@gmail.com>:
Vi nos seus dados que vc está tratando seus dados num modelo do tipo. existe, não existe. 1 ou 0. E sua variável resposta é alguma métrica, sei lá tipo consumo de energia... minha sugestão é que vc use algum tipo de classe, ou categoria e agregue seus dados pela média ou quem sabe soma, com classes independentes. Para evitar problema de homocedasticidade. O modelo de regressão linear de fato supõe que seus dados sejam valores médios de algum critério, para determinadas observações. Isso provavelmente vai te ajudar bastante. pode ser que não seja possível em função da sua regra de negócio.
espero ter ajudado.
Boa sorte.
abs
vinicius
Em 18 de setembro de 2014 18:52, Leonardo Ferreira Fontenelle < leonardof@leonardof.med.br> escreveu:
Se você só estiver interessado por elas em conjunto, pode simplesmente
comparar (com anova) um modelo com todas as C e sem nenhuma C (e deixando o resto igual).
Leonardo Ferreira Fontenelle <http://lattes.cnpq.br/9234772336296638>
Em Qui 18 set. 2014, às 13:33, Jefferson Ferreira-Ferreira escreveu:
Professor daniel, Obrigado pela resposta. Ainda não testei essa alternativa. Mas a desvantagem dessa abordagem seria o grande número de modelos a serem ajustados, visto que tenho 11 variáveis explicativas categóricas para duas variáveis resposta numéricas contínuas. Isso me faria ajustar 22 modelos que teriam como premissa a independencia entre as variáveis explicativas.
O que quero dizer é: o quanto a combinação das variáveis categóricas c1 c2 c3 c4 c5 c6... etc (biárias =0 ou 1) explicam meu x (numérico contínuo).
Será que existe um modo de eu ajustar dois modelos? Tipo com a variável resposta X em função de todas as varíaveis explicativas categóricas e outro modelo com a variável resposta Y em função de todas as variáveis explicativas categóricas?
c1c2c3c4xy 0111931623 0100163259 1010690306 1010690306
--
*Jefferson Ferreira-Ferreira*
Geógrafo – GEOPROCESSAMENTO IDSM | Coordenadoria de TI
Jefferson.ferreira@mamiraua.org.br
*Instituto de Desenvolvimento Sustentável Mamirauá*
Ministério da Ciência, Tecnologia e Inovação
Telefone: +55 97 3343-9710
*Google Maps* - Mapas deste e-mail:
Exibir mapa ampliado <https://maps.google.com.br/maps?q=-3.355557,-64.731151&ll=-3.355471,-64.731145&spn=0.004632,0.006968&num=1&t=h&z=18>
*Contatos particulares:* *(55) 9615-0100 <%2855%29%209615-0100>*
Em 18 de setembro de 2014 12:56, Daniel Tiezzi <dtiezzi@usp.br> escreveu:
Você precisa fazer uma regressão.
Segue um modelo
# Regression analyses, standardized model1.z <- lm(scale(PE$endurance) ~ scale(PE$age)) summary(model1.z) confint(model1.z)
model2.z <- lm(scale(PE$endurance) ~ scale(PE$activeyears)) summary(model2.z) confint(model2.z)
model3.z <- lm(scale(PE$endurance) ~ scale(PE$age) + scale(PE$activeyears)) summary(model3.z) confint(model3.z)
# Conduct a model comparison NHST to compare the fit of model2.z to the fit of model3.z anova(model2.z, model3.z)
Acho que seria assim
Daniel
Daniel Tiezzi, MD, PhD Professor Associado Departamento de Ginecologia e Obstetrícia Setor de Mastologia e Oncologia Ginecológica Faculdade de Medicina de Ribeirão Preto - USP Tel.: 16 3602-2488 e-mail: dtiezzi@fmrp.usp.br
On Sep 18, 2014, at 12:47 PM, Jefferson Ferreira-Ferreira < jecogeo@gmail.com> wrote:
Prezados;
Uma dúvida básica de um iniciante em análises estatísticas. Tenho uma série de variáveis categóricas binárias e duas variáveis contínuas. Eu gostaria de saber o quando minhas variáveis categóricas explicam minhas duas variáveis contínuas. Por exemplo:
c1c2c3c4xy 0111931623 0100163259 1010690306 1010690306
A pergunta é: o quanto a combinação das variáveis c explicam os valores de x e y? Ou, qual a correlação entre as variáveis c e as variáveis x e y?
Podem me dar alguma ideia de análises possíveis? Obrigado.
--
*Jefferson Ferreira-Ferreira* Geógrafo – GEOPROCESSAMENTO IDSM | Coordenadoria de TI
Jefferson.ferreira@mamiraua.org.br *Instituto de Desenvolvimento Sustentável Mamirauá*
Ministério da Ciência, Tecnologia e Inovação Telefone: +55 97 3343-9710
*Google Maps* - Mapas deste e-mail:
Exibir mapa ampliado <https://maps.google.com.br/maps?q=-3.355557,-64.731151&ll=-3.355471,-64.731145&spn=0.004632,0.006968&num=1&t=h&z=18>
*Contatos particulares:* *(55) 9615-0100 <%2855%29%209615-0100>* _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
*_______________________________________________* R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- *Vinicius Brito Rocha.* *Estatístico e Atuário * *M.Sc. Engenharia de Produção/PO*
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Prezado Jefferson, Considerandos seus dados e as perguntas que você enviou, acredito que você pode utilizar uma MANOVA já que suas variáveis dependentes são contínuas. Além disso, a MANOVA permite o uso de variáveis indepentens binárias, o que não é possível com a ANOVA - se minha memória estiver boa. Grosso modo, a MANOVA é um tipo de regressão linear que te permite extrair tanto a correlação quanto a variância explicada por suas variáveis. Atenciosamente, Alexandre Serpa Psicólogo Especialista em Métodos Computacionais Estatísticos Mestre em Educação Doutorando em Psicologia email: serpa.alexandre@gmail.com Em 7 de outubro de 2014 17:51, Jose Claudio Faria < joseclaudio.faria@gmail.com> escreveu:
Jefferson,
Seria interessante dar uma investigada nas possibilidades fornecidas pelas árvores classificação, como Y é categórico em seu caso: Y = f(x1, x2, ..., xn), sendo predito por x1, x2, ..., xn em escalas intervalares ou proporcionais.
Existe a técnica para o caso Y ser univariado ou multivariado.
Uma referência no Brasil é o Cesar Augusto Taconeli da UFPR ( cetaconeli_at_gmail.com).
Entre em contato com ele pois embora existam pacotes no R que dão suporte a técnica de análise, ela não é muito fácil.
Na ausência de melhores informações, vai aqui um link do curso que o César deu aqui na UESC em junho de 2013: http://nbcgib.uesc.br/lec/llec/cursos/arv-cla-regressao
Os pressupostos da técnica são bem brandos.
Ab,
///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ Jose Claudio Faria Estatistica UESC/DCET/Brasil joseclaudio.faria at gmail.com Telefones: 55(73)3680.5545 - UESC 55(73)9966.9100 - VIVO 55(73)9100.7351 - TIM 55(73)8817.6159 - OI ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\
2014-09-18 19:41 GMT-03:00 Vinicius Brito Rocha <viniciusbritor@gmail.com> :
Vi nos seus dados que vc está tratando seus dados num modelo do tipo.
existe, não existe. 1 ou 0. E sua variável resposta é alguma métrica, sei lá tipo consumo de energia... minha sugestão é que vc use algum tipo de classe, ou categoria e agregue seus dados pela média ou quem sabe soma, com classes independentes. Para evitar problema de homocedasticidade. O modelo de regressão linear de fato supõe que seus dados sejam valores médios de algum critério, para determinadas observações. Isso provavelmente vai te ajudar bastante. pode ser que não seja possível em função da sua regra de negócio.
espero ter ajudado.
Boa sorte.
abs
vinicius
Em 18 de setembro de 2014 18:52, Leonardo Ferreira Fontenelle < leonardof@leonardof.med.br> escreveu:
Se você só estiver interessado por elas em conjunto, pode simplesmente
comparar (com anova) um modelo com todas as C e sem nenhuma C (e deixando o resto igual).
Leonardo Ferreira Fontenelle <http://lattes.cnpq.br/9234772336296638>
Em Qui 18 set. 2014, às 13:33, Jefferson Ferreira-Ferreira escreveu:
Professor daniel, Obrigado pela resposta. Ainda não testei essa alternativa. Mas a desvantagem dessa abordagem seria o grande número de modelos a serem ajustados, visto que tenho 11 variáveis explicativas categóricas para duas variáveis resposta numéricas contínuas. Isso me faria ajustar 22 modelos que teriam como premissa a independencia entre as variáveis explicativas.
O que quero dizer é: o quanto a combinação das variáveis categóricas c1 c2 c3 c4 c5 c6... etc (biárias =0 ou 1) explicam meu x (numérico contínuo).
Será que existe um modo de eu ajustar dois modelos? Tipo com a variável resposta X em função de todas as varíaveis explicativas categóricas e outro modelo com a variável resposta Y em função de todas as variáveis explicativas categóricas?
c1c2c3c4xy 0111931623 0100163259 1010690306 1010690306
--
*Jefferson Ferreira-Ferreira*
Geógrafo – GEOPROCESSAMENTO IDSM | Coordenadoria de TI
Jefferson.ferreira@mamiraua.org.br
*Instituto de Desenvolvimento Sustentável Mamirauá*
Ministério da Ciência, Tecnologia e Inovação
Telefone: +55 97 3343-9710
*Google Maps* - Mapas deste e-mail:
Exibir mapa ampliado <https://maps.google.com.br/maps?q=-3.355557,-64.731151&ll=-3.355471,-64.731145&spn=0.004632,0.006968&num=1&t=h&z=18>
*Contatos particulares:* *(55) 9615-0100 <%2855%29%209615-0100>*
Em 18 de setembro de 2014 12:56, Daniel Tiezzi <dtiezzi@usp.br> escreveu:
Você precisa fazer uma regressão.
Segue um modelo
# Regression analyses, standardized model1.z <- lm(scale(PE$endurance) ~ scale(PE$age)) summary(model1.z) confint(model1.z)
model2.z <- lm(scale(PE$endurance) ~ scale(PE$activeyears)) summary(model2.z) confint(model2.z)
model3.z <- lm(scale(PE$endurance) ~ scale(PE$age) + scale(PE$activeyears)) summary(model3.z) confint(model3.z)
# Conduct a model comparison NHST to compare the fit of model2.z to the fit of model3.z anova(model2.z, model3.z)
Acho que seria assim
Daniel
Daniel Tiezzi, MD, PhD Professor Associado Departamento de Ginecologia e Obstetrícia Setor de Mastologia e Oncologia Ginecológica Faculdade de Medicina de Ribeirão Preto - USP Tel.: 16 3602-2488 e-mail: dtiezzi@fmrp.usp.br
On Sep 18, 2014, at 12:47 PM, Jefferson Ferreira-Ferreira < jecogeo@gmail.com> wrote:
Prezados;
Uma dúvida básica de um iniciante em análises estatísticas. Tenho uma série de variáveis categóricas binárias e duas variáveis contínuas. Eu gostaria de saber o quando minhas variáveis categóricas explicam minhas duas variáveis contínuas. Por exemplo:
c1c2c3c4xy 0111931623 0100163259 1010690306 1010690306
A pergunta é: o quanto a combinação das variáveis c explicam os valores de x e y? Ou, qual a correlação entre as variáveis c e as variáveis x e y?
Podem me dar alguma ideia de análises possíveis? Obrigado.
--
*Jefferson Ferreira-Ferreira* Geógrafo – GEOPROCESSAMENTO IDSM | Coordenadoria de TI
Jefferson.ferreira@mamiraua.org.br *Instituto de Desenvolvimento Sustentável Mamirauá*
Ministério da Ciência, Tecnologia e Inovação Telefone: +55 97 3343-9710
*Google Maps* - Mapas deste e-mail:
Exibir mapa ampliado <https://maps.google.com.br/maps?q=-3.355557,-64.731151&ll=-3.355471,-64.731145&spn=0.004632,0.006968&num=1&t=h&z=18>
*Contatos particulares:* *(55) 9615-0100 <%2855%29%209615-0100>* _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
*_______________________________________________* R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- *Vinicius Brito Rocha.* *Estatístico e Atuário * *M.Sc. Engenharia de Produção/PO*
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Jefferson, Acho, que você poderia calcular uma matrix de dissimilidade para suas variáveis categóricas usando o pacote vegan e o índice Jaccard e depois correlacionar as componentes com suas variáveis quantitativas. Att. 2014-09-18 12:47 GMT-03:00 Jefferson Ferreira-Ferreira <jecogeo@gmail.com>:
Prezados;
Uma dúvida básica de um iniciante em análises estatísticas. Tenho uma série de variáveis categóricas binárias e duas variáveis contínuas. Eu gostaria de saber o quando minhas variáveis categóricas explicam minhas duas variáveis contínuas. Por exemplo:
c1 c2 c3 c4 x y 0 1 1 1 931 623 0 1 0 0 163 259 1 0 1 0 690 306 1 0 1 0 690 306
A pergunta é: o quanto a combinação das variáveis c explicam os valores de x e y? Ou, qual a correlação entre as variáveis c e as variáveis x e y?
Podem me dar alguma ideia de análises possíveis? Obrigado.
--
*Jefferson Ferreira-Ferreira*
Geógrafo – GEOPROCESSAMENTO IDSM | Coordenadoria de TI
Jefferson.ferreira@mamiraua.org.br
*Instituto de Desenvolvimento Sustentável Mamirauá*
Ministério da Ciência, Tecnologia e Inovação
Telefone: +55 97 3343-9710
*Google Maps* - Mapas deste e-mail:
Exibir mapa ampliado <https://maps.google.com.br/maps?q=-3.355557,-64.731151&ll=-3.355471,-64.731145&spn=0.004632,0.006968&num=1&t=h&z=18>
*Contatos particulares:* *(55) 9615-0100*
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Alisson Lucrecio da Costa

On 09/18/2014 12:47 PM, Jefferson Ferreira-Ferreira wrote:
Prezados;
Uma dúvida básica de um iniciante em análises estatísticas. Tenho uma série de variáveis categóricas binárias e duas variáveis contínuas. Eu gostaria de saber o quando minhas variáveis categóricas explicam minhas duas variáveis contínuas. Por exemplo:
c1c2c3c4xy 0111931623 0100163259 1010690306 1010690306
A pergunta é: o quanto a combinação das variáveis c explicam os valores de x e y? Ou, qual a correlação entre as variáveis c e as variáveis x e y?
Podem me dar alguma ideia de análises possíveis? Obrigado.
Jefferson, Espero que você tenha muitos dados... Como não sei muito sobre os dados e seus pressupostos, adotaria a seguinte estratégia: 1- Compara cada variável C*, pode ser 1.a compara 2 de cada vez (tabela de contingência) qui-quadrado ou extato de Fisher. (você não acredita que haja interações de alto nível) 1.b compara todas as 4 de uma vez, se você acredita que possa existir interação de alto nível, neste caso use modelo log-linear 2- Compara X e Y usa uma regressão linear vendo valor de p, R2 e AIC. Daqui pode sair alguma situações A - melhor dos mundos! X, Y e as C* são não correlatas com dados suficiente Solução duas regressões lineares uma pra X e outra para Y B - X e Y são não correlatas mas C* são correlatas, mas com dados suficiente (precisa de mais dados) Solução duas regressões lineares uma pra X e outra para Y, usando termos de interação C - X, Y são correlatas, mas as C* são não correlatas com dados suficiente (precisa de mias dados ainda) Solução utilizaria um modelo de correção, por exemplo, SURE (Seemingly Unrelated Regression Equations) D - X, Y e as C* são correlatas com dados suficiente (porém serão muito dados!) Solução utilizaria um modelo de correção com termos de interação, por exemplo, SURE (Seemingly Unrelated Regression Equations) E - pior dos mundos! X, Y e as C* são correlatas com dados INsuficientes Bem ... Se for absolutamente necessário fazer a análise Solução: Usa uma técnica de redução de dimensionalidade paras as C* - análise de correspondência multivariada por exemplo - e colocas os vetores resultantes, numa regressão SURE. Se ainda não for suficiente utiliza os vetores da mesma junto com as variáveis X e Y numa análise de componentes principais (PCA). É claro que a solução E tem um monte de incerteza e é de difícil interpretação porém se for algo que não tem solução é melhor que enterrar o trabalho. Espero ter ajudado, qq coisa mande um mail para a lista []s Tura
participantes (9)
-
Alexandre Serpa
-
Alisson Lucrécio
-
Bernardo Rangel Tura
-
Daniel Tiezzi
-
Jefferson Ferreira-Ferreira
-
Jose Claudio Faria
-
Leonardo Ferreira Fontenelle
-
Vinicius Brito Rocha
-
walmes .