<span class="Apple-style-span" style="color: rgb(34, 34, 34); font-family: arial, sans-serif; font-size: 13px; background-color: rgb(255, 255, 255); ">"P.S <br>Se precisar de rotina para uma codificação soundez em portugues é só <br>
falar... "</span><div><font class="Apple-style-span" color="#222222" face="arial, sans-serif"><br></font></div><div><font class="Apple-style-span" color="#222222" face="arial, sans-serif">Tura você tem algum material que fala sobre o conceito de Record Linkage?<br>
</font><br><div class="gmail_quote">Em 29 de setembro de 2011 15:47, Pedro Rafael <span dir="ltr"><<a href="mailto:pedro.rafael.marinho@gmail.com">pedro.rafael.marinho@gmail.com</a>></span> escreveu:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
Tura, você conhece uma opção free para trabalhar com o conceito de <span style="color:rgb(34, 34, 34);font-family:arial, sans-serif;font-size:13px;background-color:rgb(255, 255, 255)">record linkage? </span><br>
<br><div class="gmail_quote">Em 29 de setembro de 2011 15:45, Pedro Rafael <span dir="ltr"><<a href="mailto:pedro.rafael.marinho@gmail.com" target="_blank">pedro.rafael.marinho@gmail.com</a>></span> escreveu:<div><div>
</div><div class="h5"><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Tura, qual a diferença das duas funções do link que você passou. Estava lendo e me parece que o projeto Bioconductor (<a href="http://svitsrv25.epfl.ch/R-doc/library/Biostrings/html/stringDist.html" target="_blank">http://svitsrv25.epfl.ch/R-doc/library/Biostrings/html/stringDist.html</a>) tem implementado a distância de levenshtein. Vi que o link que você passou tem a distância de Damerau-Levenshtein. Por sua experiência qual a melhor para problemas dessa natureza?<br>
<br><div class="gmail_quote">Em 29 de setembro de 2011 14:15, Bernardo Rangel Tura [via R-br] <span dir="ltr"><<a href="mailto:ml-node%2Bs2285057n3856736h93@n4.nabble.com" target="_blank">ml-node+s2285057n3856736h93@n4.nabble.com</a>></span> escreveu:<div>
<div></div><div><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div></div><div>
On 09/27/2011 11:01 AM, Pedro Rafael wrote:
<div><br>> Pessoal qual o objeto para compara duas strings e observar a distância
<br>> entre elas?
<br>>
<br>> Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que
<br>> também fosse igual à Rafael Pedro.
<br>>
<br>> Existe alguma forma de fazer isto?
<br>>
<br>> --
<br>> Saudações,
<br>> Pedro Rafael Diniz Marinho.
<br>> Estatístico - Secretaria de Estado da Saúde - PB.
</div><br><br></div></div>Rafael esta é fácil
<br><br>1- coloque tudo em maiúsculo
<br><br>2- use a distância de levenshtein para ver qual semelhantes são as strings
<br>(<a href="http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein" rel="nofollow" link="external" target="_blank">http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein</a>)
<br><br>3- Se a base for muito grande usar uma codificação soundex pode servir
<br>para blocar os registros de forma eficiente
<br><br>4- Antes que você se queixa vou logo avisando existem muitos brasileiros
<br>sem CPF e alguns sem RG (crianças)
<br><br>5- Você já leu sobre record linkage ajuda muito para mexer com este tipo
<br>de problemas
<br><br>[]s
<br>Tura
<br><br>P.S
<br>Se precisar de rotina para uma codificação soundez em portugues é só
<br>falar...
<br><div>_______________________________________________
<br>R-br mailing list
<br><a href="http://user/SendEmail.jtp?type=node&node=3856736&i=0" rel="nofollow" link="external" target="_blank">[hidden email]</a>
<br><a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" rel="nofollow" link="external" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" rel="nofollow" link="external" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.
<br>
<br>
<br>
<hr noshade size="1" color="#cccccc">
</div><div style="color:#444;font:12px tahoma,geneva,helvetica,arial,sans-serif"><div>
<div style="font-weight:bold">If you reply to this email, your message will be added to the discussion below:</div>
</div><a href="http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p3856736.html" target="_blank">http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p3856736.html</a>
</div><div><div></div><div>
<div style="color:#666;font:11px tahoma,geneva,helvetica,arial,sans-serif;margin-top:.4em">
To unsubscribe from R-br, <a href="http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw" target="_blank">click here</a>.
</div></div></div></blockquote></div></div></div><div><div></div><div><br><br clear="all"><div><br></div>-- <br><font color="#000099">Saudações,</font><div><font color="#000099">Pedro Rafael Diniz Marinho.</font></div>
<div><font color="#000099">Estatístico - Secretaria de Estado da Saúde - PB.</font></div>
<div><font color="#000099"><br></font></div><br>
</div></div></blockquote></div></div></div><div><div></div><div class="h5"><br><br clear="all"><div><br></div>-- <br><font color="#000099">Saudações,</font><div><font color="#000099">Pedro Rafael Diniz Marinho.</font></div>
<div><font color="#000099">Estatístico - Secretaria de Estado da Saúde - PB.</font></div>
<div><font color="#000099"><br></font></div><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><font color="#000099">Saudações,</font><div><font color="#000099">Pedro Rafael Diniz Marinho.</font></div><div><font color="#000099">Estatístico - Secretaria de Estado da Saúde - PB.</font></div>
<div><font color="#000099"><br></font></div><br>
</div>