[R-br] Distância entre strings

Bernardo Rangel Tura tura em centroin.com.br
Quinta Setembro 29 16:32:05 BRT 2011


On 09/29/2011 03:47 PM, Pedro Rafael wrote:
> Tura, você conhece uma opção free para trabalhar com o conceito de
> record linkage?
>
> Em 29 de setembro de 2011 15:45, Pedro Rafael
> <pedro.rafael.marinho em gmail.com <mailto:pedro.rafael.marinho em gmail.com>>
> escreveu:
>
>     Tura, qual a diferença das duas funções do link que você passou.
>     Estava lendo e me parece que o projeto Bioconductor
>     (http://svitsrv25.epfl.ch/R-doc/library/Biostrings/html/stringDist.html)
>     tem implementado a distância de levenshtein. Vi que o link que você
>     passou tem a distância de  Damerau-Levenshtein. Por sua experiência
>     qual a melhor para problemas dessa natureza?
>
>     Em 29 de setembro de 2011 14:15, Bernardo Rangel Tura [via R-br]
>     <ml-node+s2285057n3856736h93 em n4.nabble.com
>     <mailto:ml-node%2Bs2285057n3856736h93 em n4.nabble.com>> escreveu:
>
>         On 09/27/2011 11:01 AM, Pedro Rafael wrote:
>
>          > Pessoal qual o objeto para compara duas strings e observar a
>         distância
>          > entre elas?
>          >
>          > Exemplo: Gostaria que Pedro Rafael fosse igual à peDro
>         Rafael, que
>          > também fosse igual à Rafael Pedro.
>          >
>          > Existe alguma forma de fazer isto?
>          >
>          > --
>          > Saudações,
>          > Pedro Rafael Diniz Marinho.
>          > Estatístico - Secretaria de Estado da Saúde - PB.
>
>
>         Rafael esta é fácil
>
>         1- coloque tudo em maiúsculo
>
>         2- use a distância de levenshtein para ver qual semelhantes são
>         as strings
>         (http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein)
>
>
>         3- Se a base for muito grande usar uma codificação soundex pode
>         servir
>         para blocar os registros de forma eficiente
>
>         4- Antes que você se queixa vou logo avisando existem muitos
>         brasileiros
>         sem CPF e alguns sem RG (crianças)
>
>         5- Você já leu sobre record linkage ajuda muito para mexer com
>         este tipo
>         de problemas
>
>         []s
>         Tura
>
>         P.S
>         Se precisar de rotina para uma codificação soundez em portugues
>         é só
>         falar...
>         _______________________________________________
>
> Saudações,
> Pedro Rafael Diniz Marinho.
> Estatístico - Secretaria de Estado da Saúde - PB.
>


Sim, conheço

1- o RecLink gratuito e brasileiro feito pelo Kennedi e pelo Regina 
Coelli (conhecidos pessoais meus daqui do Rio) ele foi desenvolvido para 
Windows e já tem uma versão portada para o SL incluindo linux

2- tem um pacote no R que faz também inclusive com algumas coisas que o
RecLink não faz...

[]s
Tura



Mais detalhes sobre a lista de discussão R-br