Chiara,

Você menciona « … esse tipo de distribuição … ».

Qual tipo você acha que é?

Pelos nomes que deste aos eixos, parece que a variável dependente é inteira¹ ("Qtde. de artigos [N]"), por outro lado, a variável independente é um ano calendário, que por definição é uma variável ordinal arbitrária (a faixa 1994 -- 2021 poderia ser noutros calendários diferente, por exemplo no Bahá'i de 157 a 178, etc.).

Para decidir por uma regressão (de qualquer tipo) antes de mais nada deve-se refletir sobre o fenômeno e a modelagem que o processo que gera esses  dados.

As regressões são abordagens que nos permitem fazer ajustes dos dados experimentais à essas hipóteses modeladas e enfrenta os dois problemas dos dados obtidos por meio de observação: a) amostragem; b) perturbações que geram erros nas observações, modeladas como "ruído" ou "erros" com distribuição gaussiana de média zero e variância em função da dispersão dos dados vis-à-vis à abstração matemática (equação da regressão).

Daí a sua confusão sobre « … como são feitas as escolhas para valores de a=?, b=? e c=? » ser esperada.

A equação da regressão ("não linear") propõe uma complexa equação exponencia multiplicada pela variável independente, etc.

O quê você precisa responder é: essa curva descreve um processo que explica a geração dos dados que está em análise?

OBS.: Faz sentido incluir um ano que ainda não acabou numa regressão que conta eventos por unidade de ano calendário?

HTH
--
Cesar Rabak

[1] Mais importante, parece ser o tipo de dados "de contagem" que tem outras restrições, como não poder ser menor que zero, etc.

On Wed, Apr 14, 2021 at 12:01 PM Chiara Lubich por (R-br) <r-br@listas.c3sl.ufpr.br> wrote:
Bom dia, 
Pessoal, fiz a plotagem dos meu dados:
ano n
1994 1
1996 1
2001 1
2002 1
2004 1
2005 3
2006 3
2007 2
2008 4
2009 1
2010 3
2011 2
2012 5
2013 4
2014 5
2015 3
2016 8
2017 2
2018 4
2019 3
2020 12
2021 2
 
image.png
E vi na internet alguns vídeos em que gráficos que tinham esse tipo de distribuição, era feito o uso de Regressão Não Linear, por meio da função "nls". No entanto, tentei começar a digitar os comandos, mas não entendi como são feitas as escolhas para valores de a=?, b=? e c=?.
Segue o script abaixo:
plot(n ~ ano, data = chiara, xlab = "Ano da publicação", ylab = "Quantidade de artigos (N)")
a_maximovalor=max(n)
modelo<-nls(y~x*(1-exp(-b*x))^c, data=chiara, start = list(a= a_maximovalor, b=?, c=?))

Agradeço desde já pela colaboração

_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.