[R-br] Problema criar colunas: socorro!

Amiko Bh amikobh em gmail.com
Dom Set 1 22:43:27 -03 2019


Muito obrigado pela ajuda.

1) Entendi a importância da ”limpeza”

2) ”Para atingir teus objetivos precisarás fazer uma busca no seu BD pela
cadeia de caracteres que contenha o "ART. 14 - CP" e a partir dessa lista
auxiliar ir eliminando as linhas e incluir numa nova coluna nos número de
processo correspondentes”

Estou sem saber que passo a passo considerar aqui...




Em dom, 1 de set de 2019 15:44, Cesar Rabak por (R-br) <
r-br em listas.c3sl.ufpr.br> escreveu:

> Ellerson,
>
> SE a amostra de dados que você passou é um bom exemplo, você tem um
> problema *anterior* para resolver que é o de multiplicidade de entradas
> com grafia levemente diferentes. . .
>
> Veja as linhas cinco e seis do seu exemplo que o enquadramento, embora
> igual do ponto de vista legal, está escrito de forma levemente diferente e
> faria qualquer *script* (aliás, em qualquer linguagem, não só no R)
> entrar em parafuso 😶. . .
>
> Há vários autores que dizem que a preparação e "limpeza" dos dados leva
> 80% do tempo de análise dos dados...
>
> Para atingir teus objetivos precisarás fazer uma busca no seu BD pela
> cadeia de caracteres que contenha o "ART. 14 - CP" e a partir dessa lista
> auxiliar ir eliminando as linhas e incluir numa nova coluna nos número de
> processo correspondentes.
>
> HTH
> --
> Cesar Rabak
>
>
> On Sat, Aug 31, 2019 at 12:29 PM Elerson por (R-br) <
> r-br em listas.c3sl.ufpr.br> wrote:
>
>> Prezados:
>>
>> Trabalho um banco de dados com mais de 10000 linhas, representado pelo
>> exemplo abaixo.
>>
>> *PROCESSO* *DATA_DISTRIBUICAO* *NOME_PARTE* *DATA_CRIME* *DATA_DENUNCIA*
>> *ENQUADRAMENTO*
>> 180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT -
>> 11.343/06
>> 180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT -
>> 11.343/06
>> 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06
>> 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06
>> 180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º
>> INC. II E IV - CPB
>> 180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º
>> INC.II E IV - CPB
>> 180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º
>> INC. II E IV - CPB
>> 180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2
>> INC.I E II - CP
>> 180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.14 - CP
>>
>> Hipóteses:
>>
>> a) mesmo PROCESSO, NOME_PARTE diferentes, ENQUADRAMENTO igual (linhas 1 e
>> 2)
>>
>> b) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 3 e
>> 4)
>>
>> c) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 8 e
>> 9)
>>
>> Minha questão se refere à hipótese c: preciso criar um coluna
>> (enquadramento2) para transferir o art. 14 transformando o caso em apenas
>> uma linha… sem que se mexa na hipótese b. Em todo o banco sempre estará
>> escrito ART.14 – CP.
>>
>> Para ficar assim:
>>
>> *PROCESSO* *DATA_DISTRIBUICAO* *NOME_PARTE* *DATA_CRIME* *DATA_DENUNCIA*
>> *ENQUADRAMENTO* *ENQUADRAMENTO2*
>> 180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT -
>> 11.343/06
>> 180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT -
>> 11.343/06
>> 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06
>> 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06
>> 180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º
>> INC. II E IV - CPB
>> 180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º
>> INC.II E IV - CPB
>> 180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º
>> INC. II E IV - CPB
>> 180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2
>> INC.I E II - CP ART.14 - CP
>>
>> Obrigado.
>>
>>
>>
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20190901/87292969/attachment.html>


Mais detalhes sobre a lista de discussão R-br