Pessoal:
Dado o DF, com o seguinte nomes fictícios:
NOME |
FILIACAO |
AENDER XXXXX AMORIM |
APARECIDA XXXXX AMORIM |
AGAPE XXXXX SILVA |
MARISA IRENEIA DE SOUZA SILVA |
AGATIL XXXXX OLIVEIRA |
VANESSA XXXXX DA COSTA |
AGATIL XXXXX OLIVEIRA |
VANESSA XXXXX DA COSTA |
AGATIL XXXXX OLIVEIRA |
VANESSA XXXXX DA COSTA |
AGNALDO XXXXX SANTOS BORGES |
MIRTES XXXXX LUCIANO |
AGUIDA XXXXX LISBOA |
DIVA XXXXX LISBOA |
AGUINALDO XXXXX PAIXAO |
ROSANE XXXXX PAIXAO |
AILTON XXXXX DOS SANTOS |
PATRICIA XXXXX ARAUJO |
AILTON XXXXX ESTEVES |
MARIA XXXXX ESTEVES |
AILTON XXXXX JUNIOR |
FLAVIA XXXXX MARTINS |
Uso o seguinte para cortar os nomes repetidos:
banco_sem_nome_repetido <- df[!duplicated(data.frame(df$NOME, df$FILIACAO)),]
Meu problema: o script resulta o seguinte df:
NOME |
FILIACAO |
AENDER XXXXX AMORIM |
APARECIDA XXXXX AMORIM |
AGAPE XXXXX SILVA |
MARISA IRENEIA DE SOUZA SILVA |
AGATIL XXXXX OLIVEIRA |
VANESSA XXXXX DA COSTA |
AGATIL XXXXX OLIVEIRA |
VANESSA XXXXX DA COSTA |
AGNALDO XXXXX SANTOS BORGES |
MIRTES XXXXX LUCIANO |
AGUIDA XXXXX LISBOA |
DIVA XXXXX LISBOA |
AGUINALDO XXXXX PAIXAO |
ROSANE XXXXX PAIXAO |
AILTON XXXXX DOS SANTOS |
PATRICIA XXXXX ARAUJO |
AILTON XXXXX ESTEVES |
MARIA XXXXX ESTEVES |
AILTON XXXXX JUNIOR |
FLAVIA XXXXX MARTINS |
Observe-se que:
AGATIL XXXXX OLIVEIRA |
VANESSA XXXXX DA COSTA |
AGATIL XXXXX OLIVEIRA |
VANESSA XXXXX DA COSTA |
Não é cortada a linha porque após o OLIVEIRA tem um espaço.
O banco é enorme e tem vários casos iguais ao citado. Alguma solução?