Bem acho que vou fazer como o Crysttian falou, converter tudo para maiúsculo e tirar os acentos para ver se facilita minha vida. O sistema codifica cada paciente com um código de 6 dígitos contudo alguns casos particulares que sabemos que tem uma pessoa no estado com alguma doença que precisa da intervenção do estado, principalmente as doenças de notificação compulsória, e precisamos saber se esse cara tá dentro da base de dados, logo não sabemos o código do indivíduo e temos que procurar pelo nome. Esse sistema foi feito pelo DATASUS mas poderia ser mais inteligente, poderia usar o RG ou CPF do indivíduo para facilitar a procura.
Acredito que não foi implementado um sistema que codifique cada paciente e agora surgiu esse problema.
Fica a sugestão.
Date: Wed, 28 Sep 2011 10:45:44 -0300
From: [hidden email]
To: [hidden email]
Subject: Re: [R-br] Distância entre strings_______________________________________________ R-br mailing list [hidden email] https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.
Prezados, não conheço nada no R que faça isso, mas não é difícil implementar.Este tipo de problema é tratado com métricas de distâncias entre os vetores de strings, e existe bastante coisa pronta em Java, com alguns algorítimos já implementados, que quase sempre pressupõem uma base de dados que identifica que "d" = "D" por exemplo. O retorno é , em geral, um escore que varia de 0 a 1 sendo 1 a identidade. Cabe ao usuário escolher o treshold adequado.Mas ja aviso: "Silva, João" e "João Silva" serão quase sempre diferentes em qualquer uma das técnicas.
Em 28 de setembro de 2011 10:00, Benilton Carvalho <[hidden email]> escreveu:
parece-me uma tarefa tipica para o Google Refine... b
_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
--
Fernando A.B. Colugnati
Pesquisador Associado
Instituto de Pesquisas em Tecnologia e Inovação - IPTI
Tel. 55 11 8704-9812
www.ipti.org.br
[hidden email]
_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p3851361.htmlIf you reply to this email, your message will be added to the discussion below:To unsubscribe from R-br, click here.