[R-br] Iniciar no Pyton

Walmes Zeviani walmeszeviani em gmail.com
Qua Jan 27 20:14:27 -02 2021


A discussão R vs Python é recorrente e pode se tornar muito polêmica.
Para evitar isso é importante reconhecer algumas coisas.

O R é desde sua concepção, em 1993, uma linguagem voltada para computação
estatística e gráficos (domain specific). Como tal, é essa sua espinha
dorsal. Com o passar dos anos ela foi ganhando cada vez mais
funcionalidades, mas sem perder essa característica ou ser adotada para
outro propósito com adesão superior a essa. No ambiente de ciência de
dados, o R está na caixa de ferramentas dos estatísticos.

O Python é uma linguagem de propósito geral, surgiu em 1991. O aparato
científico e para a análise de dados surgiu quase 15 anos depois (NumPy em
2005, Sckit learn em 2007, Pandas em 2008). Hoje a linguagem tem ampla
adoção em ambientes de ciência de dados porque ela tá na caixa de
ferramentas do pessoal de TI que tá indo trabalhar com data science.

Ainda tem um terceiro público, com formação em administração, economia,
engenharias, etc, e também estatísticos, que fazem análise com SAS, SPSS,
Stata, Minitab, e até mesmo o Excel e estão procurando aprender R e Python.

Como em números há no mercado menos estatísticos, a prevalência do R também
é menor. Não é uma questão de "competência da linguagem", até porque,
muitas coisas no Python são declaradamente inspiradas no R, como o Pandas.
O contrário também ocorre, como o rvest ser inspirado no BeatifulSoup. No
fundo, existem mais similaridades do que diferenças. Para muitas coisas,
essas linguagens chamam outras de baixo nível (C, fortram). Para web
scraping, por exemplo, as linguagens têm pacotes que dependem das
bibliotecas em C libxml e curl. Ambas tem "drivers" para bancos de dados
também. Ambas são linguagens interpretadas, de alto nível, com os mesmos
paradigmas, orientação a objetos, multiplataforma, etc. O que faz com que,
tem termos de desempenho, não se tem um vitorioso absoluto. Veja aqui um
benchmark com data.table, dplyr e pandas:
https://github.com/Rdatatable/data.table/wiki/Benchmarks-:-Grouping.

Pelo maior tempo de existência com o propósito de análise de dados, o R
está na frente na corrida, com mais recursos disponíveis. No R, a parte de
métodos estatísticos, gráficos, relatórios dinâmicos está bem consolidada e
segue em desenvolvimento, o que não deve parecer surpresa, já que é uma
linguagem para esse propósito. O Python certamente irá crescer nesses
aspectos também. Tanto o R irá crescer no sentido de ser adotada cada vez
mais com linguagem de propósito geral, quanto o Python ter um ramo
especializado na análise de dados.

Para o cientista de dados, é importante conhecer às duas linguagens e
inclusive fazer uso simbiótico das duas, combinando as suas forças. No
começo da carreira, focar em apenas uma delas, qualquer que seja, é limitar
seu escopo de atuação. Quando você decidir no quer se especializar em
termos de atuação profissional, dependendo do caso, aí você pode optar por
uma só.

Se você usa Emacs (como eu), pode trabalhar com as duas linguagens em
buffers lado a lado. Basta configurar o editor propriamente.

À disposição.
Walmes.
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20210127/40c7139a/attachment.html>


Mais detalhes sobre a lista de discussão R-br