[R-br] Distância entre strings

Fernando Colugnati fernando em ipti.org.br
Quarta Setembro 28 10:45:44 BRT 2011


Prezados, não conheço nada no R que faça isso, mas não é difícil
implementar.
Este tipo de problema é tratado com métricas de distâncias entre os vetores
de strings, e existe bastante coisa pronta em Java, com alguns algorítimos
já implementados, que quase sempre pressupõem uma base de dados que
identifica que "d"  = "D" por exemplo. O retorno é , em geral, um escore que
varia de 0 a 1 sendo 1 a identidade. Cabe ao usuário escolher o treshold
adequado.
Mas ja aviso: "Silva, João" e "João Silva" serão quase sempre diferentes em
qualquer uma das técnicas.

Em 28 de setembro de 2011 10:00, Benilton Carvalho <
beniltoncarvalho em gmail.com> escreveu:

> parece-me uma tarefa tipica para o Google Refine... b
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>



-- 
Fernando A.B. Colugnati
Pesquisador Associado

Instituto de Pesquisas em Tecnologia e Inovação - IPTI
Tel. 55 11 8704-9812
www.ipti.org.br
fernando em ipti.org.br
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20110928/342e90cc/attachment.html>


Mais detalhes sobre a lista de discussão R-br