
On 09/29/2011 03:47 PM, Pedro Rafael wrote:
Tura, você conhece uma opção free para trabalhar com o conceito de record linkage?
Em 29 de setembro de 2011 15:45, Pedro Rafael <pedro.rafael.marinho@gmail.com <mailto:pedro.rafael.marinho@gmail.com>> escreveu:
Tura, qual a diferença das duas funções do link que você passou. Estava lendo e me parece que o projeto Bioconductor (http://svitsrv25.epfl.ch/R-doc/library/Biostrings/html/stringDist.html) tem implementado a distância de levenshtein. Vi que o link que você passou tem a distância de Damerau-Levenshtein. Por sua experiência qual a melhor para problemas dessa natureza?
Em 29 de setembro de 2011 14:15, Bernardo Rangel Tura [via R-br] <ml-node+s2285057n3856736h93@n4.nabble.com <mailto:ml-node%2Bs2285057n3856736h93@n4.nabble.com>> escreveu:
On 09/27/2011 11:01 AM, Pedro Rafael wrote:
> Pessoal qual o objeto para compara duas strings e observar a distância > entre elas? > > Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que > também fosse igual à Rafael Pedro. > > Existe alguma forma de fazer isto? > > -- > Saudações, > Pedro Rafael Diniz Marinho. > Estatístico - Secretaria de Estado da Saúde - PB.
Rafael esta é fácil
1- coloque tudo em maiúsculo
2- use a distância de levenshtein para ver qual semelhantes são as strings (http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein)
3- Se a base for muito grande usar uma codificação soundex pode servir para blocar os registros de forma eficiente
4- Antes que você se queixa vou logo avisando existem muitos brasileiros sem CPF e alguns sem RG (crianças)
5- Você já leu sobre record linkage ajuda muito para mexer com este tipo de problemas
[]s Tura
P.S Se precisar de rotina para uma codificação soundez em portugues é só falar... _______________________________________________
Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
Sim, conheço 1- o RecLink gratuito e brasileiro feito pelo Kennedi e pelo Regina Coelli (conhecidos pessoais meus daqui do Rio) ele foi desenvolvido para Windows e já tem uma versão portada para o SL incluindo linux 2- tem um pacote no R que faz também inclusive com algumas coisas que o RecLink não faz... []s Tura