[R-br] Ponto de corte Cook's Distance

Cesar Rabak cesar.rabak em gmail.com
Sex Ago 7 08:15:14 -03 2020


Esses diagnósticos "sintéticos" sobre um objeto matemático são *avisos* para
o pesquisador, mas não substituem a compreensão do assunto no domínio do
problema.

Usando o MIto da Caverna como ideia, sua regressão seria a *sombra* e o
problema real não totalmente visível para você.

A distância de Cook, e outras medidas das assim denominadas "de influência"
avisam que o procedimento matemático tem aspectos que justificam uma
revisão que pode ser desde um descarte do ponto (se ao reanalisar a forma
como foi obtido pode ser um ponto contaminado e tachável de "aberrante" (
*outlier*) a rever a estratégia toda da análise (matemática) e buscar outra
regressão que ajuste melhor aos dados (com uma possível, e talvez
necessária, reinterpretação do fenômeno subjacente à modelagem).

A primeira abordagem pode advir de crítica direta da medida versus a
razoabilidade dela (sardinha de dez quilos[?]), enquanto a segunda, mais
sutil pode indicar uma necessidade de aprimorar uma teoria, como J. Kepler
fez ao reconhecer com os dados que possuía que a  órbita de Marte devia ser
elíptica e não circular, como ele acreditava.

Voltando ao âmago da sua questão: um dos diagnósticos que se obtém no R é
um cálculo dos pontos de influência, onde a regressão é refeita sem cada um
dos pontos marcados. Veja esses resultados e decida se em adição ao
raciocínio acima se os resultados, que obviamente mudam numericamente,
significam interpretar diferente o experimento (afinal a ração dada a estes
peixes engordam-os ou  os emagrecem?).

HTH
--
Cesar Rabak


On Fri, Aug 7, 2020 at 1:32 AM Fernando Souza por (R-br) <
r-br em listas.c3sl.ufpr.br> wrote:

> Prezados colegas,
>
> Gostaria de saber como vocês definem o ponto de corte para a distância de
> Cook? Na literatura e listas de discussão tenho vistos várias sugestões,
> como valores de cook > 1 ,  valores maiores que 4/n , valor de cook maior
> que 3x a média, entre outros.
>
> Como eu devo proceder para definir o melhor ponto de corte.  Eu estou
> analisando uma variável onde do total de 35 observações ,  6 observações
> etão acima de 0.10 e dessas duas, as mais distantes estão entre  0.25 e
> 0.30.
>
> Eu deveria considerar as 6 observações como pontos de influencia?
>
> Se eu utilizar a regra de 4/35 = 0.11 então às 6 observações seriam
> removidas;
> Se eu considerar D>1, então nenhuma observação será removida
>
> Gostaria de saber sobre a experiencia de vocês e como procedem
>
> ATt
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20200807/15650e0f/attachment.html>


Mais detalhes sobre a lista de discussão R-br