[R-br] Distância entre strings

Bernardo Rangel Tura tura em centroin.com.br
Quinta Setembro 29 14:15:26 BRT 2011


On 09/27/2011 11:01 AM, Pedro Rafael wrote:
> Pessoal qual o objeto para compara duas strings e observar a distância
> entre elas?
>
> Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que
> também fosse igual à Rafael Pedro.
>
> Existe alguma forma de fazer isto?
>
> --
> Saudações,
> Pedro Rafael Diniz Marinho.
> Estatístico - Secretaria de Estado da Saúde - PB.


Rafael esta é fácil

1- coloque tudo em maiúsculo

2- use a distância de levenshtein para ver qual semelhantes são as strings
(http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein)

3- Se a base for muito grande usar uma codificação soundex pode servir 
para blocar os registros de forma eficiente

4- Antes que você se queixa vou logo avisando existem muitos brasileiros 
sem CPF e alguns sem RG (crianças)

5- Você já leu sobre record linkage ajuda muito para mexer com este tipo 
de problemas

[]s
Tura

P.S
Se precisar de rotina para uma codificação soundez em portugues é só 
falar...


Mais detalhes sobre a lista de discussão R-br