Tura, qual a diferença das duas funções do link que você passou. Estava lendo e me parece que o projeto Bioconductor (http://svitsrv25.epfl.ch/R-doc/library/Biostrings/html/stringDist.html) tem implementado a distância de levenshtein. Vi que o link que você passou tem a distância de  Damerau-Levenshtein. Por sua experiência qual a melhor para problemas dessa natureza?

Em 29 de setembro de 2011 14:15, Bernardo Rangel Tura [via R-br] <ml-node+s2285057n3856736h93@n4.nabble.com> escreveu:
On 09/27/2011 11:01 AM, Pedro Rafael wrote:

> Pessoal qual o objeto para compara duas strings e observar a distância
> entre elas?
>
> Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que
> também fosse igual à Rafael Pedro.
>
> Existe alguma forma de fazer isto?
>
> --
> Saudações,
> Pedro Rafael Diniz Marinho.
> Estatístico - Secretaria de Estado da Saúde - PB.


Rafael esta é fácil

1- coloque tudo em maiúsculo

2- use a distância de levenshtein para ver qual semelhantes são as strings
(http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein)

3- Se a base for muito grande usar uma codificação soundex pode servir
para blocar os registros de forma eficiente

4- Antes que você se queixa vou logo avisando existem muitos brasileiros
sem CPF e alguns sem RG (crianças)

5- Você já leu sobre record linkage ajuda muito para mexer com este tipo
de problemas

[]s
Tura

P.S
Se precisar de rotina para uma codificação soundez em portugues é só
falar...
_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.



If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p3856736.html
To unsubscribe from R-br, click here.



--
Saudações,
Pedro Rafael Diniz Marinho.
Estatístico - Secretaria de Estado da Saúde - PB.