Resíduos agrupados dataset: Iris

Bom dia pessoal, Estava realizando um tutorial que utilizava o dataset: Iris. Após a análise de regressão o gráfico dos resíduos x valores ajustados mostrava que os pontos estavam dois grupos separados, como na figura abaixo: [image: Imagem inline 2] Gostaria de saber quando este gráfico apresenta este padrão, quais seriam as causas e quais as possíveis soluções. Segue o cmr: ### <code r> data(iris) attach(iris) iris.lm<-lm(Petal.Width ~ Petal.Length, data=iris) iris.lm summary(iris.lm) confint(iris.lm) par(mfrow=c(2,2),xpd=F) plot(iris.lm) ### </code> Desde já agradeço as contribuições, *Hélder Gramacho * Recife-PE / *agrohelder@gmail.com <agrohelder@hotmail.com>*

Na minha parca experiência, isso acontece em duas situações: Uma delas é quando você está inadvertidamente misturando duas populações diferentes. Se você separar pela variável certa (se é que ela foi coletada), vai individualizar duas ou mais nuvens de dados, e aí certas relações podem desaparecer. Digamos, uma espécie tem pétalas mais largas e mais longas do que outra, mas quando você controla pela espécie, uma coisa pode não estar correlacionada à outra. Outra situação é quando, deliberadamente, a amostragem incluiu apenas certos intervalos de uma as variáveis. Por exemplo, apenas flores de com pétalas mais estreitas do que 0,5cm e mais largas do que 1,0cm tiveram o comprimento de suas pétalas medido. Aí é bem provável que, após ajustar para as variáveis de confundimento adequadas, a correlação vá persistir. Espero não ter atrapalhado :) Leonardo Ferreira Fontenelle [1]http://lattes.cnpq.br/9234772336296638 Em Seg 30 jun. 2014, às 09:40, Helder Gramacho escreveu: Bom dia pessoal, Estava realizando um tutorial que utilizava o dataset: Iris. Após a análise de regressão o gráfico dos resíduos x valores ajustados mostrava que os pontos estavam dois grupos separados, como na figura abaixo: Imagem inline 2 Gostaria de saber quando este gráfico apresenta este padrão, quais seriam as causas e quais as possíveis soluções. Segue o cmr: ### <code r> data(iris) attach(iris) iris.lm<-lm(Petal.Width ~ Petal.Length, data=iris) iris.lm summary(iris.lm) confint(iris.lm) par(mfrow=c(2,2),xpd=F) plot(iris.lm) ### </code> Desde já agradeço as contribuições, Hélder Gramacho Recife-PE / [2]agrohelder@gmail.com _______________________________________________ R-br mailing list [3]R-br@listas.c3sl.ufpr.br [4]https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem ([5]http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível. Email had 1 attachment: * image.png * 22k (image/png) References 1. http://lattes.cnpq.br/9234772336296638 2. mailto:agrohelder@hotmail.com 3. mailto:R-br@listas.c3sl.ufpr.br 4. https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br 5. http://www.leg.ufpr.br/r-br-guia

Helder, apenas um pergunta. Porque vc está realizando uma regressão no conjunto da iris? Basicamente é um dataset para problemas de classificação. Vai muito bem como uma rede neural, porém não vejo muito propósito em uma regressão linear. Vc está ajustando as variáveis de que, por hipótese, são independentes, em todos os níveis das espécies da iris, Setosas, Versicolor e Virginica, ou seja, em populações diferentes. Abs Boa sorte Vinicius Em 30 de junho de 2014 10:04, Leonardo Ferreira Fontenelle < leonardof@leonardof.med.br> escreveu:
Na minha parca experiência, isso acontece em duas situações:
Uma delas é quando você está inadvertidamente misturando duas populações diferentes. Se você separar pela variável certa (se é que ela foi coletada), vai individualizar duas ou mais nuvens de dados, e aí certas relações podem desaparecer. Digamos, uma espécie tem pétalas mais largas e mais longas do que outra, mas quando você controla pela espécie, uma coisa pode não estar correlacionada à outra.
Outra situação é quando, deliberadamente, a amostragem incluiu apenas certos intervalos de uma as variáveis. Por exemplo, apenas flores de com pétalas mais estreitas do que 0,5cm e mais largas do que 1,0cm tiveram o comprimento de suas pétalas medido. Aí é bem provável que, após ajustar para as variáveis de confundimento adequadas, a correlação vá persistir.
Espero não ter atrapalhado :)
Leonardo Ferreira Fontenelle http://lattes.cnpq.br/9234772336296638
Em Seg 30 jun. 2014, às 09:40, Helder Gramacho escreveu:
Bom dia pessoal,
Estava realizando um tutorial que utilizava o dataset: Iris. Após a análise de regressão o gráfico dos resíduos x valores ajustados mostrava que os pontos estavam dois grupos separados, como na figura abaixo: [image: Imagem inline 2] Gostaria de saber quando este gráfico apresenta este padrão, quais seriam as causas e quais as possíveis soluções.
Segue o cmr: ### <code r> data(iris) attach(iris) iris.lm<-lm(Petal.Width ~ Petal.Length, data=iris) iris.lm summary(iris.lm) confint(iris.lm) par(mfrow=c(2,2),xpd=F) plot(iris.lm) ### </code>
Desde já agradeço as contribuições,
*Hélder Gramacho * Recife-PE /
*agrohelder@gmail.com <agrohelder@hotmail.com> *
*_______________________________________________* R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
Email had 1 attachment:
- image.png - 22k (image/png)
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- *Vinicius Brito Rocha.* *Estatístico e Atuário * *M.Sc. Engenharia de Produção/PO*

Olá Vinícius, Como eu disse, a utilização da regressão estava no tutorial que encontrei na internet, que tratava de análise de resíduos, mas o autor não mencionou sobre o que me chamou a atenção no gráfico que são os agrupamentos, enviei a dúvida pois queria saber como tratar este tipo de ocorrência, se é que é possível. att, *Hélder Gramacho * Recife-PE / *agrohelder@gmail.com <agrohelder@hotmail.com>* Em 30 de junho de 2014 11:02, Vinicius Brito Rocha <viniciusbritor@gmail.com
escreveu:
Helder,
apenas um pergunta. Porque vc está realizando uma regressão no conjunto da iris? Basicamente é um dataset para problemas de classificação. Vai muito bem como uma rede neural, porém não vejo muito propósito em uma regressão linear.
Vc está ajustando as variáveis de que, por hipótese, são independentes, em todos os níveis das espécies da iris, Setosas, Versicolor e Virginica, ou seja, em populações diferentes.
Abs
Boa sorte
Vinicius
Em 30 de junho de 2014 10:04, Leonardo Ferreira Fontenelle < leonardof@leonardof.med.br> escreveu:
Na minha parca experiência, isso acontece em duas situações:
Uma delas é quando você está inadvertidamente misturando duas populações diferentes. Se você separar pela variável certa (se é que ela foi coletada), vai individualizar duas ou mais nuvens de dados, e aí certas relações podem desaparecer. Digamos, uma espécie tem pétalas mais largas e mais longas do que outra, mas quando você controla pela espécie, uma coisa pode não estar correlacionada à outra.
Outra situação é quando, deliberadamente, a amostragem incluiu apenas certos intervalos de uma as variáveis. Por exemplo, apenas flores de com pétalas mais estreitas do que 0,5cm e mais largas do que 1,0cm tiveram o comprimento de suas pétalas medido. Aí é bem provável que, após ajustar para as variáveis de confundimento adequadas, a correlação vá persistir.
Espero não ter atrapalhado :)
Leonardo Ferreira Fontenelle http://lattes.cnpq.br/9234772336296638
Em Seg 30 jun. 2014, às 09:40, Helder Gramacho escreveu:
Bom dia pessoal,
Estava realizando um tutorial que utilizava o dataset: Iris. Após a análise de regressão o gráfico dos resíduos x valores ajustados mostrava que os pontos estavam dois grupos separados, como na figura abaixo: [image: Imagem inline 2] Gostaria de saber quando este gráfico apresenta este padrão, quais seriam as causas e quais as possíveis soluções.
Segue o cmr: ### <code r> data(iris) attach(iris) iris.lm<-lm(Petal.Width ~ Petal.Length, data=iris) iris.lm summary(iris.lm) confint(iris.lm) par(mfrow=c(2,2),xpd=F) plot(iris.lm) ### </code>
Desde já agradeço as contribuições,
*Hélder Gramacho * Recife-PE /
*agrohelder@gmail.com <agrohelder@hotmail.com> *
*_______________________________________________* R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
Email had 1 attachment:
- image.png - 22k (image/png)
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- *Vinicius Brito Rocha.* *Estatístico e Atuário * *M.Sc. Engenharia de Produção/PO*
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
participantes (3)
-
Helder Gramacho
-
Leonardo Ferreira Fontenelle
-
Vinicius Brito Rocha