<div dir="ltr">Prezados,<div><br></div><div>Gostaria de sugestões para encarar o seguinte problema:</div><div><br></div><div>Estou uma base que contém um código identificador e o nome da pessoa. Teoricamente, cada código é único e representa uma única pessoa, mas posso ter falhas. Além disso, posso ter problema de digitação.</div><div><br></div><div>Segue exemplo:</div><div><br></div><div><div><div><font face="monospace, monospace"> id nome</font></div><div><font face="monospace, monospace">1 100 JOAO SILVA</font></div><div><font face="monospace, monospace">2 100 SILVA JOAO</font></div><div><font face="monospace, monospace">3 101 MARIA DA SILVA</font></div><div><font face="monospace, monospace">4 101 MARIA SOARES DA SILVA</font></div><div><font face="monospace, monospace">5 102 JOSE CANCIO</font></div><div><font face="monospace, monospace">6 102 LEONORA FURTADO</font></div><div><font face="monospace, monospace">7 102 LEONORA FURTADO</font></div><div><font face="monospace, monospace">8 103 JOSE TRINDADE</font></div><div><font face="monospace, monospace">9 103 JOSE TRINDDE</font></div><div><font face="monospace, monospace">10 104 PAULO SILVA</font></div><div><font face="monospace, monospace">11 105 LUIZ COSTA</font></div><div><font face="monospace, monospace">12 106 ISABEL CHAGAS</font></div><div><font face="monospace, monospace">13 106 CHAGAS ISABEL</font></div><div><font face="monospace, monospace">14 107 VANIA VALERIA</font></div><div><font face="monospace, monospace">15 107 SANDRA SANTOS</font></div></div></div><div><br></div><div>Nesse caso, no id 100 tenho problema de digitação, mas se trata da mesma pessoa. O mesmo ocorre nos ids 101, 103 e 106. No id 103 tenho um erro de digitação. No id 102 tenho duas pessoas diferentes, assim como no 107.</div><div><br></div><div>Como eu poderia automatizar a avaliação de quais ids tenho pessoas diferentes?</div><div><br></div><div><div><font face="monospace, monospace">> dput(teste)</font></div><div><font face="monospace, monospace">structure(list(id = c(100, 100, 101, 101, 102, 102, 102, 103, </font></div><div><font face="monospace, monospace">103, 104, 105, 106, 106, 107, 107), nome = structure(c(3L, 13L, </font></div><div><font face="monospace, monospace">9L, 10L, 4L, 7L, 7L, 5L, 6L, 11L, 8L, 2L, 1L, 14L, 12L), .Label = c("CHAGAS ISABEL", </font></div><div><font face="monospace, monospace">"ISABEL CHAGAS", "JOAO SILVA", "JOSE CANCIO", "JOSE TRINDADE", </font></div><div><font face="monospace, monospace">"JOSE TRINDDE", "LEONORA FURTADO", "LUIZ COSTA", "MARIA DA SILVA", </font></div><div><font face="monospace, monospace">"MARIA SOARES DA SILVA", "PAULO SILVA", "SANDRA SANTOS", "SILVA JOAO", </font></div><div><font face="monospace, monospace">"VANIA VALERIA"), class = "factor")), .Names = c("id", "nome"</font></div><div><font face="monospace, monospace">), row.names = c(NA, -15L), class = "data.frame")</font></div></div><div><br></div><div>Obrigado e abraços<br clear="all"><div><div class="m_-195923081793494432gmail_signature"><div dir="ltr"><div><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><b><br></b></div><div dir="ltr"><b>Paulo Dick</b><div>Estatístico / <span style="font-size:12.8px">Epidemiologia em Saúde Pública</span></div><div>Tel.: (55 21) 99591-2716</div></div></div></div></div></div></div></div></div>
</div></div>