
Tura, qual a diferença das duas funções do link que você passou. Estava lendo e me parece que o projeto Bioconductor ( http://svitsrv25.epfl.ch/R-doc/library/Biostrings/html/stringDist.html) tem implementado a distância de levenshtein. Vi que o link que você passou tem a distância de Damerau-Levenshtein. Por sua experiência qual a melhor para problemas dessa natureza? Em 29 de setembro de 2011 14:15, Bernardo Rangel Tura [via R-br] < ml-node+s2285057n3856736h93@n4.nabble.com> escreveu:
On 09/27/2011 11:01 AM, Pedro Rafael wrote:
Pessoal qual o objeto para compara duas strings e observar a distância entre elas?
Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que também fosse igual à Rafael Pedro.
Existe alguma forma de fazer isto?
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
Rafael esta é fácil
1- coloque tudo em maiúsculo
2- use a distância de levenshtein para ver qual semelhantes são as strings (http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein)
3- Se a base for muito grande usar uma codificação soundex pode servir para blocar os registros de forma eficiente
4- Antes que você se queixa vou logo avisando existem muitos brasileiros sem CPF e alguns sem RG (crianças)
5- Você já leu sobre record linkage ajuda muito para mexer com este tipo de problemas
[]s Tura
P.S Se precisar de rotina para uma codificação soundez em portugues é só falar... _______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3856736&i=0> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
------------------------------ If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p385... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.