[R-br] Regressão não linear

Cesar Rabak cesar.rabak em gmail.com
Qua Abr 14 14:48:24 -03 2021


Chiara,

Você menciona « … esse tipo de distribuição … ».

Qual tipo você acha que é?

Pelos nomes que deste aos eixos, parece que a variável dependente é
inteira¹ ("Qtde. de artigos [N]"), por outro lado, a variável independente
é um ano calendário, que por definição é uma variável ordinal arbitrária (a
faixa 1994 -- 2021 poderia ser noutros calendários diferente, por exemplo
no Bahá'i de 157 a 178, etc.).

Para decidir por uma regressão (de qualquer tipo) antes de mais nada
deve-se refletir sobre o fenômeno e a modelagem que o *processo* que gera
esses  dados.

As regressões são abordagens que nos permitem fazer ajustes dos dados
experimentais à essas hipóteses modeladas e enfrenta os dois problemas dos
dados obtidos por meio de observação: a) amostragem; b) perturbações que
geram erros nas observações, modeladas como "ruído" ou "erros" com
distribuição gaussiana de média zero e variância em função da dispersão dos
dados vis-à-vis à abstração matemática (equação da regressão).

Daí a sua confusão sobre « … como são feitas as escolhas para valores de
a=?, b=? e c=? » ser esperada.

A equação da regressão ("não linear") propõe uma complexa equação
exponencia multiplicada pela variável independente, etc.

O quê você precisa responder é: essa curva descreve um processo que explica
a geração dos dados que está em análise?

OBS.: Faz sentido incluir um ano que ainda não acabou numa regressão que
conta eventos por unidade de ano calendário?

HTH
--
Cesar Rabak

[1] Mais importante, parece ser o tipo de dados "de contagem" que tem
outras restrições, como não poder ser menor que zero, etc.

On Wed, Apr 14, 2021 at 12:01 PM Chiara Lubich por (R-br) <
r-br em listas.c3sl.ufpr.br> wrote:

> Bom dia,
> Pessoal, fiz a plotagem dos meu dados:
> ano n
> 1994 1
> 1996 1
> 2001 1
> 2002 1
> 2004 1
> 2005 3
> 2006 3
> 2007 2
> 2008 4
> 2009 1
> 2010 3
> 2011 2
> 2012 5
> 2013 4
> 2014 5
> 2015 3
> 2016 8
> 2017 2
> 2018 4
> 2019 3
> 2020 12
> 2021 2
> [image: image.png]
> E vi na internet alguns vídeos em que gráficos que tinham esse tipo de
> distribuição, era feito o uso de Regressão Não Linear, por meio da função
> "nls". No entanto, tentei começar a digitar os comandos, mas não entendi
> como são feitas as escolhas para valores de a=?, b=? e c=?.
> Segue o script abaixo:
> plot(n ~ ano, data = chiara, xlab = "Ano da publicação", ylab =
> "Quantidade de artigos (N)")
> a_maximovalor=max(n)
> modelo<-nls(y~x*(1-exp(-b*x))^c, data=chiara, start = list(a=
> a_maximovalor, b=?, c=?))
>
> Agradeço desde já pela colaboração
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20210414/7e8accc9/attachment.html>
-------------- Próxima Parte ----------
Um anexo não-texto foi limpo...
Nome: image.png
Tipo: image/png
Tamanho: 9748 bytes
Descrição: não disponível
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20210414/7e8accc9/attachment.png>


Mais detalhes sobre a lista de discussão R-br