[R-br] Problema criar colunas: socorro!

Cesar Rabak cesar.rabak em gmail.com
Seg Set 2 13:30:54 -03 2019


Dê uma olhada na documentação de grep().

On Sun, Sep 1, 2019 at 10:43 PM Amiko Bh por (R-br) <
r-br em listas.c3sl.ufpr.br> wrote:

> Muito obrigado pela ajuda.
>
> 1) Entendi a importância da ”limpeza”
>
> 2) ”Para atingir teus objetivos precisarás fazer uma busca no seu BD pela
> cadeia de caracteres que contenha o "ART. 14 - CP" e a partir dessa lista
> auxiliar ir eliminando as linhas e incluir numa nova coluna nos número de
> processo correspondentes”
>
> Estou sem saber que passo a passo considerar aqui...
>
>
>
>
> Em dom, 1 de set de 2019 15:44, Cesar Rabak por (R-br) <
> r-br em listas.c3sl.ufpr.br> escreveu:
>
>> Ellerson,
>>
>> SE a amostra de dados que você passou é um bom exemplo, você tem um
>> problema *anterior* para resolver que é o de multiplicidade de entradas
>> com grafia levemente diferentes. . .
>>
>> Veja as linhas cinco e seis do seu exemplo que o enquadramento, embora
>> igual do ponto de vista legal, está escrito de forma levemente diferente e
>> faria qualquer *script* (aliás, em qualquer linguagem, não só no R)
>> entrar em parafuso 😶. . .
>>
>> Há vários autores que dizem que a preparação e "limpeza" dos dados leva
>> 80% do tempo de análise dos dados...
>>
>> Para atingir teus objetivos precisarás fazer uma busca no seu BD pela
>> cadeia de caracteres que contenha o "ART. 14 - CP" e a partir dessa lista
>> auxiliar ir eliminando as linhas e incluir numa nova coluna nos número de
>> processo correspondentes.
>>
>> HTH
>> --
>> Cesar Rabak
>>
>>
>> On Sat, Aug 31, 2019 at 12:29 PM Elerson por (R-br) <
>> r-br em listas.c3sl.ufpr.br> wrote:
>>
>>> Prezados:
>>>
>>> Trabalho um banco de dados com mais de 10000 linhas, representado pelo
>>> exemplo abaixo.
>>>
>>> *PROCESSO* *DATA_DISTRIBUICAO* *NOME_PARTE* *DATA_CRIME* *DATA_DENUNCIA*
>>> *ENQUADRAMENTO*
>>> 180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT
>>> - 11.343/06
>>> 180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT
>>> - 11.343/06
>>> 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06
>>> 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06
>>> 180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º
>>> INC. II E IV - CPB
>>> 180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º
>>> INC.II E IV - CPB
>>> 180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º
>>> INC. II E IV - CPB
>>> 180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2
>>> INC.I E II - CP
>>> 180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.14 - CP
>>>
>>> Hipóteses:
>>>
>>> a) mesmo PROCESSO, NOME_PARTE diferentes, ENQUADRAMENTO igual (linhas 1
>>> e 2)
>>>
>>> b) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 3
>>> e 4)
>>>
>>> c) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 8
>>> e 9)
>>>
>>> Minha questão se refere à hipótese c: preciso criar um coluna
>>> (enquadramento2) para transferir o art. 14 transformando o caso em apenas
>>> uma linha… sem que se mexa na hipótese b. Em todo o banco sempre estará
>>> escrito ART.14 – CP.
>>>
>>> Para ficar assim:
>>>
>>> *PROCESSO* *DATA_DISTRIBUICAO* *NOME_PARTE* *DATA_CRIME* *DATA_DENUNCIA*
>>> *ENQUADRAMENTO* *ENQUADRAMENTO2*
>>> 180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT
>>> - 11.343/06
>>> 180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT
>>> - 11.343/06
>>> 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06
>>> 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06
>>> 180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º
>>> INC. II E IV - CPB
>>> 180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º
>>> INC.II E IV - CPB
>>> 180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º
>>> INC. II E IV - CPB
>>> 180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2
>>> INC.I E II - CP ART.14 - CP
>>>
>>> Obrigado.
>>>
>>>
>>>
>>>
>>> _______________________________________________
>>> R-br mailing list
>>> R-br em listas.c3sl.ufpr.br
>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>> código mínimo reproduzível.
>>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20190902/0d829f4e/attachment.html>


Mais detalhes sobre a lista de discussão R-br