[R-br] Como estimar R2 de modelo linear a partir de previsões em novos dados?
Pedro Emmanuel Alvarenga Americano do Brasil
emmanuel.brasil em gmail.com
Quinta Agosto 9 09:27:36 BRT 2012
Amigos de R,
Conceitualmente falando, a unica coisa que eu poderia comentar é essa ideia
não é minha. Ha uma literatura extensa a respeito de modelos para predição.
Vide
http://books.google.com.br/books?id=kHGK58cLsMIC&printsec=frontcover&dq=clinical+prediction+models&source=bl&ots=TLWdGZeCqo&sig=p-7XkhqnTRfUGpeKBW3mmZUEE5c&hl=pt-BR&sa=X&ei=MKgjUL_DHuP00gHIm4D4Ag&ved=0CDMQ6AEwAA#v=onepage&q=clinical%20prediction%20models&f=false
ou
http://books.google.com.br/books?id=kMyXEJEtFmkC&printsec=frontcover&dq=diagnostic+tests+classification+and+prediction&source=bl&ots=Qhe5sg7Jym&sig=w8-U946rWsA7vqKD0Srq7uDIPFE&hl=pt-BR&sa=X&ei=Z6ojUNi7Aqu40AGbp4DQBA&ved=0CDMQ6AEwAA#v=onepage&q=diagnostic%20tests%20classification%20and%20prediction&f=false
Dentro de modelos de predição clinica ou ferramentas de suporte a decisão,
ha conceitos como desenvolvimento ou ajuste de modelos, calibração ou
penalização de modelos, validação interna, e validação externa. Essa ultima
pode ser validação cruzada, temporal, ou simultanea propriamente dita.
Imaginem que há um modelo em que estima a probabilidade de um sujeito ser
portador de uma doença de transmissão aérea. Com esse modelo o médico pode
decidir se o paciente ficará em isolamento respiratorio ou não na chegada
do paciente no hospital. Mas percebam que o modelo foi desenvolvido em
outros pacientes. O que interessa nesse momento é se para este paciente em
particular o modelo funcionará razoavelmente. O que representa essa ideia é
a validação externa, e isso vai alem representação da população pela
amostra ou de características da amostra. Geralmente o desempenho dos
modelos em validação externa é pior que o desempenho no ajuste inicial.
Isso é o superajuste, que parece ser muito frequente em modelos para
predição, e é por isso que se recomenda a calibração de modelos para uso em
predição. Essas ideias possuem analogia com o aprendizado, validação e
simulação de redes neurais.
Mais uma vez a pergunta inicial. Eu encontrei funções que fazem a
estimativa de desempenho de modelo em valores previstos pelos modelos em
outros dados para logisticos e sobrevivencia, mas não encontrei para
modelos lineares. Alguem poderia me indicar alguma forma de estimar o
desempenho de um modelo linear a partir de valores previstos e outros dados?
Abraço forte,
Dr. Pedro Emmanuel A. A. do Brasil
Curriculum Lattes: http://lattes.cnpq.br/6597654894290806
Instituto de Pesquisa Clínica Evandro Chagas
Fundação Oswaldo Cruz
Rio de Janeiro - Brasil
Av. Brasil 4365,
CEP 21040-360,
Tel 55 21 3865-9648
email: pedro.brasil em ipec.fiocruz.br
email: emmanuel.brasil em gmail.com
---Apoio aos softwares livres
www.zotero.org - gerenciamento de referências bibliográficas.
www.broffice.org ou www.libreoffice.org - textos, planilhas ou
apresentações.
www.epidata.dk - entrada de dados.
www.r-project.org - análise de dados.
www.ubuntu.com - sistema operacional
Em 8 de agosto de 2012 20:37, Fernando Colugnati <fcolugnati em gmail.com>escreveu:
> Pedro, me desculpe, mas conceitualmente isso não faz sentido do ponto de
> vista frequentista que vc está empregando. No máximo vc conseguirá bandas
> de confiança para extrapolações e interpolações a partir dos seus dados, e
> verificar se as "previsões com novos dados" (que não são previsões no
> sentido que vc está querendo) caem dentro destas bandas. o que isso
> significa, não sei ao certo. Na verdade técnicas como Análise Discriminante
> e modelos de clasificação utilizam este tipo de abordagem como validação do
> modelo, a chamada Crossvalidation, mas mesmo lá, são feitas apenas medidas
> de "acerto" nas classificações, dado que se sabe o estado real das
> observações desta nova amostra (eg: Doente e Não Doente).
>
> "quero e saber se a qualidade das previsoes no futuro sem mantem como no
> ajuste inicial" . Isso não vai acontecer, principalmente se seus novos
> dados estiverem em uma amplitude diferente de observação (algo que o Ivan
> já apontou no email dele).
>
> Este seu raciocínio me parece muito mais algo Bayesiano....aliás, modelos
> de regressão para prognóstico de pacientes é algo muito pouco preconizado,
> vide literatura (Bland, Altman, Greenland, Rothman, etc...).
>
> Abs
>
>
> Em 8 de agosto de 2012 18:52, Pedro Emmanuel Alvarenga Americano do Brasil
> <emmanuel.brasil em gmail.com> escreveu:
>
> Ivan,
>>
>> Entendi o seu comentario mas isso nao me serve. Eu nao quero outro
>> modelo. O que eu quero e saber se a qualidade das previsoes no futuro sem
>> mantem como no ajuste inicial.
>> Caso sejam piores, o modelo inicial necessita de calibracao.
>> No pacote rms ha as fucoes val.prob e val.surv que o fazem para modelos
>> logisticos e para os modelos de sobrevivencia,mas mao encontrei para os
>> mpdelos lineares.
>>
>> Se eu vou utilizar esses modelos para prever eventos em pacientes que
>> serao avaliados no futuro eu gostaria de saber o quanto esse modelo e bom
>> para esse fim. Por isso me interessa as previsoes no w2 muito mais o que as
>> previsoes no w1 pelo mesmo modelo.
>>
>> Pedro Brasil
>> via Android (:)=
>> Em 08/08/2012 12:13, "Ivan Bezerra Allaman" <ivanalaman em yahoo.com.br>
>> escreveu:
>>
>>> Bom dia Pedro!
>>>
>>> Tu concordas comigo que a partir do momento que ajustastes um modelo por
>>> meio de uma amostra, o modelo irá fazer uma estimativa da variável resposta
>>> independentemente de qual amostra você utilize (desde que os pontos estejam
>>> dentro do intervalo no qual o modelo foi ajustado é claro) com aquela
>>> precisão no qual foi construído o modelo. Se vc utilizar um modelo ajustado
>>> com a amostra w1 e depois usar o modelo para fazer estimativas com a
>>> amostra w2, estas estimativas foram estimadas com a precisão dada no
>>> primeiro ajuste. Se você realmente, quer avaliar o ajuste do modelo feito
>>> com a amostra w1 e depois com a amostra w2 é simples, basta ajustar um
>>> modelo feito com a amostra w1 e depois ajustar outro modelo feito com a
>>> amostra w2 e comparar os R2, embora não vejo muito sentido nisso, pois é
>>> claro, que os valores serão diferentes sempre, pois é aquela velha
>>> história, se retirarmos 'n' amostras de uma população e retirarmos de cada
>>> amostra a média, estas médias serão diferentes obviamente pelo simples
>>> processo de amostragem.
>>>
>>> Abraço!
>>>
>>> (S,f,P)
>>> Allaman
>>>
>>> *
>>> *
>>> \begin{signature}
>>> <<>>=
>>> Prof. Dr. Ivan Bezerra Allaman
>>> Universidade Estadual de Santa Cruz
>>> Departamento de Ciências Exatas e Tecnológicas
>>> Ilhéus/BA - Brasil
>>> Fone: +55 73 3680-5596
>>> E-mail: ivanalaman em yahoo.com.br/ivanalaman em gmail.com
>>> @
>>> \end{signature}
>>>
>>> _______________________________________________
>>> R-br mailing list
>>> R-br em listas.c3sl.ufpr.br
>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>> código mínimo reproduzível.
>>>
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
>
>
>
> --
> Fernando A.B. Colugnati
>
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20120809/65b7b375/attachment.html>
Mais detalhes sobre a lista de discussão R-br