[R-br] Distância entre strings

Pedro Rafael pedro.rafael.marinho em gmail.com
Quinta Setembro 29 15:47:41 BRT 2011


Tura, você conhece uma opção free para trabalhar com o conceito de record
linkage?

Em 29 de setembro de 2011 15:45, Pedro Rafael <
pedro.rafael.marinho em gmail.com> escreveu:

> Tura, qual a diferença das duas funções do link que você passou. Estava
> lendo e me parece que o projeto Bioconductor (
> http://svitsrv25.epfl.ch/R-doc/library/Biostrings/html/stringDist.html)
> tem implementado a distância de levenshtein. Vi que o link que você passou
> tem a distância de  Damerau-Levenshtein. Por sua experiência qual a melhor
> para problemas dessa natureza?
>
> Em 29 de setembro de 2011 14:15, Bernardo Rangel Tura [via R-br] <
> ml-node+s2285057n3856736h93 em n4.nabble.com> escreveu:
>
>  On 09/27/2011 11:01 AM, Pedro Rafael wrote:
>>
>> > Pessoal qual o objeto para compara duas strings e observar a distância
>> > entre elas?
>> >
>> > Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que
>> > também fosse igual à Rafael Pedro.
>> >
>> > Existe alguma forma de fazer isto?
>> >
>> > --
>> > Saudações,
>> > Pedro Rafael Diniz Marinho.
>> > Estatístico - Secretaria de Estado da Saúde - PB.
>>
>>
>> Rafael esta é fácil
>>
>> 1- coloque tudo em maiúsculo
>>
>> 2- use a distância de levenshtein para ver qual semelhantes são as strings
>>
>> (http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein)
>>
>> 3- Se a base for muito grande usar uma codificação soundex pode servir
>> para blocar os registros de forma eficiente
>>
>> 4- Antes que você se queixa vou logo avisando existem muitos brasileiros
>> sem CPF e alguns sem RG (crianças)
>>
>> 5- Você já leu sobre record linkage ajuda muito para mexer com este tipo
>> de problemas
>>
>> []s
>> Tura
>>
>> P.S
>> Se precisar de rotina para uma codificação soundez em portugues é só
>> falar...
>> _______________________________________________
>> R-br mailing list
>> [hidden email] <http://user/SendEmail.jtp?type=node&node=3856736&i=0>
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
>>
>> ------------------------------
>>  If you reply to this email, your message will be added to the discussion
>> below:
>>
>> http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p3856736.html
>>  To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
>>
>>
>
>
>
> --
> Saudações,
> Pedro Rafael Diniz Marinho.
> Estatístico - Secretaria de Estado da Saúde - PB.
>
>
>


-- 
Saudações,
Pedro Rafael Diniz Marinho.
Estatístico - Secretaria de Estado da Saúde - PB.
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20110929/33c52733/attachment.html>


Mais detalhes sobre a lista de discussão R-br