[R-br] Distância entre strings

Pedro Rafael pedro.rafael.marinho em gmail.com
Quinta Setembro 29 16:09:02 BRT 2011


"P.S
Se precisar de rotina para uma codificação soundez em portugues é só
falar... "

Tura você tem algum material que fala sobre o conceito de Record Linkage?

Em 29 de setembro de 2011 15:47, Pedro Rafael <
pedro.rafael.marinho em gmail.com> escreveu:

> Tura, você conhece uma opção free para trabalhar com o conceito de record
> linkage?
>
> Em 29 de setembro de 2011 15:45, Pedro Rafael <
> pedro.rafael.marinho em gmail.com> escreveu:
>
> Tura, qual a diferença das duas funções do link que você passou. Estava
>> lendo e me parece que o projeto Bioconductor (
>> http://svitsrv25.epfl.ch/R-doc/library/Biostrings/html/stringDist.html)
>> tem implementado a distância de levenshtein. Vi que o link que você passou
>> tem a distância de  Damerau-Levenshtein. Por sua experiência qual a melhor
>> para problemas dessa natureza?
>>
>> Em 29 de setembro de 2011 14:15, Bernardo Rangel Tura [via R-br] <
>> ml-node+s2285057n3856736h93 em n4.nabble.com> escreveu:
>>
>>  On 09/27/2011 11:01 AM, Pedro Rafael wrote:
>>>
>>> > Pessoal qual o objeto para compara duas strings e observar a distância
>>> > entre elas?
>>> >
>>> > Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que
>>> > também fosse igual à Rafael Pedro.
>>> >
>>> > Existe alguma forma de fazer isto?
>>> >
>>> > --
>>> > Saudações,
>>> > Pedro Rafael Diniz Marinho.
>>> > Estatístico - Secretaria de Estado da Saúde - PB.
>>>
>>>
>>> Rafael esta é fácil
>>>
>>> 1- coloque tudo em maiúsculo
>>>
>>> 2- use a distância de levenshtein para ver qual semelhantes são as
>>> strings
>>> (http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein)
>>>
>>> 3- Se a base for muito grande usar uma codificação soundex pode servir
>>> para blocar os registros de forma eficiente
>>>
>>> 4- Antes que você se queixa vou logo avisando existem muitos brasileiros
>>> sem CPF e alguns sem RG (crianças)
>>>
>>> 5- Você já leu sobre record linkage ajuda muito para mexer com este tipo
>>> de problemas
>>>
>>> []s
>>> Tura
>>>
>>> P.S
>>> Se precisar de rotina para uma codificação soundez em portugues é só
>>> falar...
>>> _______________________________________________
>>> R-br mailing list
>>> [hidden email] <http://user/SendEmail.jtp?type=node&node=3856736&i=0>
>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>> código mínimo reproduzível.
>>>
>>>
>>> ------------------------------
>>>  If you reply to this email, your message will be added to the
>>> discussion below:
>>>
>>> http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p3856736.html
>>>  To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
>>>
>>>
>>
>>
>>
>> --
>> Saudações,
>> Pedro Rafael Diniz Marinho.
>> Estatístico - Secretaria de Estado da Saúde - PB.
>>
>>
>>
>
>
> --
> Saudações,
> Pedro Rafael Diniz Marinho.
> Estatístico - Secretaria de Estado da Saúde - PB.
>
>
>


-- 
Saudações,
Pedro Rafael Diniz Marinho.
Estatístico - Secretaria de Estado da Saúde - PB.
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20110929/d4a1fb32/attachment.html>


Mais detalhes sobre a lista de discussão R-br