[R-br] Regressão não linear

Cesar Rabak cesar.rabak em gmail.com
Qui Abr 15 21:15:49 -03 2021


Entendida a questão no, assim denominado, domínio do problema.

Aí você precisa encontrar nas referências sobre esse assunto qual seria o
ciclo de vida para as publicações sobre um assunto qualquer.

Visto doutra maneira, poder-se-ia fazer a pergunta desta forma: para um
período suficientemente curto uma hipótese de número de publicações por ano
linearmente dependente do ano (calendário) faz sentido?

Como as publicações são "perenes" isto é, salvo casos excruciantes que são
retratadas, elas permanecem para consulta até perderem valor intrínseco no
assunto e passam a ter valor histórico, sua hipótese que ano após ano o
número de publicações tem uma relação linear com o tempo indicaria uma
dinâmica específica sobre esse assunto.

Uma outra hipótese, só para não ficar no abstrato, mas usando um exemplo
artificial, imagine que para cada certo número de publicações existentes se
pudesse postular que uma nova seria gerada, algo como o famoso Jogo da Vida
de Conway ou o crescimento populacional dado pela sequência de Fibonacci.
Aí a modelagem matemática levaria a outro tipo de regressão.

Espero que este texto ajude mais que aumente o grau de confusão 🤓!

HTH

--
Cesar Rabak


On Thu, Apr 15, 2021 at 1:23 PM Chiara Lubich <lubichchiara em gmail.com>
wrote:

> Oi, César, tudo bem?
>
> Obrigada pelo retorno.
>
> Minha pergunta é se com o passar dos anos aumentou o número de publicações
> sobre determinado assunto.
> Ao meu ver, usaria uma regressão linear simples.
> Mas a tentativa de usar o ajuste não linear, foi mais devido à leitura da
> metodologia de alguns artigos que trabalhavam com esse mesmo tipo de
> informação.
> No qual alguns utilizaram o ajuste não linear era mais adequado, no
> entanto, não entendi muito bem o porquê, já que não havia explicações sobre
> tal escolha... Acho que por isso ficou evidente minhas dúvidas.
>
> Em qua., 14 de abr. de 2021 às 13:48, Cesar Rabak <cesar.rabak em gmail.com>
> escreveu:
>
>> Chiara,
>>
>> Você menciona « … esse tipo de distribuição … ».
>>
>> Qual tipo você acha que é?
>>
>> Pelos nomes que deste aos eixos, parece que a variável dependente é
>> inteira¹ ("Qtde. de artigos [N]"), por outro lado, a variável independente
>> é um ano calendário, que por definição é uma variável ordinal arbitrária (a
>> faixa 1994 -- 2021 poderia ser noutros calendários diferente, por exemplo
>> no Bahá'i de 157 a 178, etc.).
>>
>> Para decidir por uma regressão (de qualquer tipo) antes de mais nada
>> deve-se refletir sobre o fenômeno e a modelagem que o *processo* que
>> gera esses  dados.
>>
>> As regressões são abordagens que nos permitem fazer ajustes dos dados
>> experimentais à essas hipóteses modeladas e enfrenta os dois problemas dos
>> dados obtidos por meio de observação: a) amostragem; b) perturbações que
>> geram erros nas observações, modeladas como "ruído" ou "erros" com
>> distribuição gaussiana de média zero e variância em função da dispersão dos
>> dados vis-à-vis à abstração matemática (equação da regressão).
>>
>> Daí a sua confusão sobre « … como são feitas as escolhas para valores de
>> a=?, b=? e c=? » ser esperada.
>>
>> A equação da regressão ("não linear") propõe uma complexa equação
>> exponencia multiplicada pela variável independente, etc.
>>
>> O quê você precisa responder é: essa curva descreve um processo que
>> explica a geração dos dados que está em análise?
>>
>> OBS.: Faz sentido incluir um ano que ainda não acabou numa regressão que
>> conta eventos por unidade de ano calendário?
>>
>> HTH
>> --
>> Cesar Rabak
>>
>> [1] Mais importante, parece ser o tipo de dados "de contagem" que tem
>> outras restrições, como não poder ser menor que zero, etc.
>>
>> On Wed, Apr 14, 2021 at 12:01 PM Chiara Lubich por (R-br) <
>> r-br em listas.c3sl.ufpr.br> wrote:
>>
>>> Bom dia,
>>> Pessoal, fiz a plotagem dos meu dados:
>>> ano n
>>> 1994 1
>>> 1996 1
>>> 2001 1
>>> 2002 1
>>> 2004 1
>>> 2005 3
>>> 2006 3
>>> 2007 2
>>> 2008 4
>>> 2009 1
>>> 2010 3
>>> 2011 2
>>> 2012 5
>>> 2013 4
>>> 2014 5
>>> 2015 3
>>> 2016 8
>>> 2017 2
>>> 2018 4
>>> 2019 3
>>> 2020 12
>>> 2021 2
>>> [image: image.png]
>>> E vi na internet alguns vídeos em que gráficos que tinham esse tipo de
>>> distribuição, era feito o uso de Regressão Não Linear, por meio da função
>>> "nls". No entanto, tentei começar a digitar os comandos, mas não entendi
>>> como são feitas as escolhas para valores de a=?, b=? e c=?.
>>> Segue o script abaixo:
>>> plot(n ~ ano, data = chiara, xlab = "Ano da publicação", ylab =
>>> "Quantidade de artigos (N)")
>>> a_maximovalor=max(n)
>>> modelo<-nls(y~x*(1-exp(-b*x))^c, data=chiara, start = list(a=
>>> a_maximovalor, b=?, c=?))
>>>
>>> Agradeço desde já pela colaboração
>>>
>>> _______________________________________________
>>> R-br mailing list
>>> R-br em listas.c3sl.ufpr.br
>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>> código mínimo reproduzível.
>>>
>>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20210415/716cb0c8/attachment-0001.html>
-------------- Próxima Parte ----------
Um anexo não-texto foi limpo...
Nome: image.png
Tipo: image/png
Tamanho: 9748 bytes
Descrição: não disponível
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20210415/716cb0c8/attachment-0001.png>


Mais detalhes sobre a lista de discussão R-br