[R-br] Como estimar R2 de modelo linear a partir de previsões em novos dados?

Fernando Colugnati fcolugnati em gmail.com
Quinta Agosto 9 10:36:50 BRT 2012


Bem, a sugestão que me parece mais pertinente é ver o que é utilizado para
estes modelos logísticos e de sobrevivência, e adapte para os lineares,
pensando que os outros dois modelos também são lineares a partir da
definição apropriada da família de distribuição e função link que vc
utiliza. A extensão para mim pareceria natural, dentro do framework de GLMs.

O R deve fornecer algo parecido em pacotes para CART, Redes Neurais, etc...

Outra sugestão, veja como algumas fórmulas foram propostas para por exemplo
Filtração Glomerular para classificação do estágio doenças renais crônicas
(a partir da Creatinina), previsão de % de gordura por soma de pregas,
Framinghan, etc...são todos modelos deste tipo que vc parece buscar, e que
profissionais de saúde usam no dia e dia, e por mais críticas que possamos
ter como estatísticos a estes modelos, eles funcionam nos serviços.

Mas certamente, a ideia do R2 sugerida, para mim não faz sentido.


Abs

Em 9 de agosto de 2012 09:27, Pedro Emmanuel Alvarenga Americano do Brasil <
emmanuel.brasil em gmail.com> escreveu:

> Amigos de R,
>
> Conceitualmente falando, a unica coisa que eu poderia comentar é essa
> ideia não é minha. Ha uma literatura extensa a respeito de modelos para
> predição.
>
> Vide
> http://books.google.com.br/books?id=kHGK58cLsMIC&printsec=frontcover&dq=clinical+prediction+models&source=bl&ots=TLWdGZeCqo&sig=p-7XkhqnTRfUGpeKBW3mmZUEE5c&hl=pt-BR&sa=X&ei=MKgjUL_DHuP00gHIm4D4Ag&ved=0CDMQ6AEwAA#v=onepage&q=clinical%20prediction%20models&f=false
>
> ou
>
>
> http://books.google.com.br/books?id=kMyXEJEtFmkC&printsec=frontcover&dq=diagnostic+tests+classification+and+prediction&source=bl&ots=Qhe5sg7Jym&sig=w8-U946rWsA7vqKD0Srq7uDIPFE&hl=pt-BR&sa=X&ei=Z6ojUNi7Aqu40AGbp4DQBA&ved=0CDMQ6AEwAA#v=onepage&q=diagnostic%20tests%20classification%20and%20prediction&f=false
>
> Dentro de modelos de predição clinica ou ferramentas de suporte a decisão,
> ha conceitos como desenvolvimento ou ajuste de modelos, calibração ou
> penalização de modelos, validação interna, e validação externa. Essa ultima
> pode ser validação cruzada, temporal, ou simultanea propriamente dita.
>
> Imaginem que há um modelo em que estima a probabilidade de um sujeito ser
> portador de uma doença de transmissão aérea. Com esse modelo o médico pode
> decidir se o paciente ficará em isolamento respiratorio ou não na chegada
> do paciente no hospital. Mas percebam que o modelo foi desenvolvido em
> outros pacientes. O que interessa nesse momento é se para este paciente em
> particular o modelo funcionará razoavelmente. O que representa essa ideia é
> a validação externa, e isso vai alem representação da população pela
> amostra ou de características da amostra. Geralmente o desempenho dos
> modelos em validação externa é pior que o desempenho no ajuste inicial.
> Isso é o superajuste, que parece ser muito frequente em modelos para
> predição, e é por isso que se recomenda a calibração de modelos para uso em
> predição. Essas ideias possuem analogia com o aprendizado, validação e
> simulação de redes neurais.
>
> Mais uma vez a pergunta inicial. Eu encontrei funções que fazem a
> estimativa de desempenho de modelo em valores previstos pelos modelos em
> outros dados para logisticos e sobrevivencia, mas não encontrei para
> modelos lineares. Alguem poderia me indicar alguma forma de estimar o
> desempenho de um modelo linear a partir de valores previstos e outros dados?
>
> Abraço forte,
>
> Dr. Pedro Emmanuel A. A. do Brasil
> Curriculum Lattes:  http://lattes.cnpq.br/6597654894290806
> Instituto de Pesquisa Clínica Evandro Chagas
> Fundação Oswaldo Cruz
> Rio de Janeiro - Brasil
> Av. Brasil 4365,
> CEP 21040-360,
> Tel 55 21 3865-9648
> email: pedro.brasil em ipec.fiocruz.br
> email: emmanuel.brasil em gmail.com
>
> ---Apoio aos softwares livres
> www.zotero.org - gerenciamento de referências bibliográficas.
> www.broffice.org ou www.libreoffice.org - textos, planilhas ou
> apresentações.
> www.epidata.dk - entrada de dados.
> www.r-project.org - análise de dados.
> www.ubuntu.com - sistema operacional
>
>
>
> Em 8 de agosto de 2012 20:37, Fernando Colugnati <fcolugnati em gmail.com>escreveu:
>
> Pedro, me desculpe, mas conceitualmente isso não faz sentido do ponto de
>> vista frequentista que vc está empregando. No máximo vc conseguirá bandas
>> de confiança para extrapolações e interpolações a partir dos seus dados, e
>> verificar se as "previsões com novos dados" (que não são previsões no
>> sentido que vc está querendo) caem dentro destas bandas. o que isso
>> significa, não sei ao certo. Na verdade técnicas como Análise Discriminante
>> e modelos de clasificação utilizam este tipo de abordagem como validação do
>> modelo, a chamada Crossvalidation, mas mesmo lá, são feitas apenas medidas
>> de "acerto" nas classificações, dado que se sabe o estado real das
>> observações desta nova amostra (eg: Doente e Não Doente).
>>
>> "quero e saber se a qualidade das previsoes no futuro sem mantem como no
>> ajuste inicial" . Isso não vai acontecer, principalmente se seus novos
>> dados estiverem em uma amplitude diferente de observação (algo que o Ivan
>> já apontou no email dele).
>>
>> Este seu raciocínio me parece muito mais algo Bayesiano....aliás, modelos
>> de regressão para prognóstico de pacientes é algo muito pouco preconizado,
>> vide literatura (Bland, Altman, Greenland, Rothman, etc...).
>>
>> Abs
>>
>>
>> Em 8 de agosto de 2012 18:52, Pedro Emmanuel Alvarenga Americano do
>> Brasil <emmanuel.brasil em gmail.com> escreveu:
>>
>> Ivan,
>>>
>>> Entendi o seu comentario mas isso nao me serve. Eu nao quero outro
>>> modelo. O que eu quero e saber se a qualidade das previsoes no futuro sem
>>> mantem como no ajuste inicial.
>>> Caso sejam piores, o modelo inicial necessita de calibracao.
>>> No pacote rms ha as fucoes val.prob e val.surv que o fazem para modelos
>>> logisticos e para os modelos de sobrevivencia,mas mao encontrei para os
>>> mpdelos lineares.
>>>
>>> Se eu vou utilizar esses modelos para prever eventos em pacientes que
>>> serao avaliados no futuro eu gostaria de saber o quanto esse  modelo e bom
>>> para esse fim. Por isso me interessa as previsoes no w2 muito mais o que as
>>> previsoes no w1 pelo mesmo modelo.
>>>
>>> Pedro Brasil
>>> via Android (:)=
>>> Em 08/08/2012 12:13, "Ivan Bezerra Allaman" <ivanalaman em yahoo.com.br>
>>> escreveu:
>>>
>>>>  Bom dia Pedro!
>>>>
>>>> Tu concordas comigo que a partir do momento que ajustastes um modelo
>>>> por meio de uma amostra, o modelo irá fazer uma estimativa da variável
>>>> resposta independentemente de qual amostra você utilize (desde que os
>>>> pontos estejam dentro do intervalo no qual o modelo foi ajustado é claro)
>>>> com aquela precisão no qual foi construído o modelo. Se vc utilizar um
>>>> modelo ajustado com a amostra w1 e depois usar o modelo para fazer
>>>> estimativas com a amostra w2, estas estimativas foram estimadas com a
>>>> precisão dada no primeiro ajuste. Se você realmente, quer avaliar o ajuste
>>>> do modelo feito com a amostra w1 e depois com a amostra w2 é simples, basta
>>>> ajustar um modelo feito com a amostra w1 e depois ajustar outro modelo
>>>> feito com a amostra w2 e comparar os R2, embora não vejo muito sentido
>>>> nisso, pois é claro, que os valores serão diferentes sempre, pois é aquela
>>>> velha história, se retirarmos 'n' amostras de uma população e retirarmos de
>>>> cada amostra a média, estas médias serão diferentes obviamente pelo simples
>>>> processo de amostragem.
>>>>
>>>> Abraço!
>>>>
>>>> (S,f,P)
>>>> Allaman
>>>>
>>>> *
>>>> *
>>>> \begin{signature}
>>>> <<>>=
>>>> Prof. Dr. Ivan Bezerra Allaman
>>>> Universidade Estadual de Santa Cruz
>>>> Departamento de Ciências Exatas e Tecnológicas
>>>> Ilhéus/BA - Brasil
>>>> Fone: +55 73 3680-5596
>>>> E-mail: ivanalaman em yahoo.com.br/ivanalaman em gmail.com
>>>> @
>>>> \end{signature}
>>>>
>>>> _______________________________________________
>>>> R-br mailing list
>>>> R-br em listas.c3sl.ufpr.br
>>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>>> código mínimo reproduzível.
>>>>
>>>
>>> _______________________________________________
>>> R-br mailing list
>>> R-br em listas.c3sl.ufpr.br
>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>> código mínimo reproduzível.
>>>
>>
>>
>>
>> --
>> Fernando A.B. Colugnati
>>
>>
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>



-- 
Fernando A.B. Colugnati
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20120809/8b10f55f/attachment-0001.html>


Mais detalhes sobre a lista de discussão R-br