[R-br] Distância entre strings

Pedro Rafael pedro.rafael.marinho em gmail.com
Quinta Setembro 29 10:33:15 BRT 2011


Bem acho que vou fazer como o Crysttian falou, converter tudo para maiúsculo
e tirar os acentos para ver se facilita minha vida. O sistema codifica cada
paciente com um código de 6 dígitos contudo alguns casos particulares que
sabemos que tem uma pessoa no estado com alguma doença que precisa da
intervenção do estado, principalmente as doenças de notificação compulsória,
e precisamos saber se esse cara tá dentro da base de dados, logo não sabemos
o código do indivíduo e temos que procurar pelo nome. Esse sistema foi feito
pelo DATASUS mas poderia ser mais inteligente, poderia usar o RG ou CPF do
indivíduo para facilitar a procura.

Em 28 de setembro de 2011 11:08, Daniel Dantas [via R-br] <
ml-node+s2285057n3851361h68 em n4.nabble.com> escreveu:

>  Acredito que não foi implementado um sistema que codifique cada paciente e
> agora surgiu esse problema.
>
> Fica a sugestão.
>
>  ------------------------------
> Date: Wed, 28 Sep 2011 10:45:44 -0300
> From: [hidden email]<http://user/SendEmail.jtp?type=node&node=3851361&i=0>
> To: [hidden email] <http://user/SendEmail.jtp?type=node&node=3851361&i=1>
> Subject: Re: [R-br] Distância entre strings
>
>
> Prezados, não conheço nada no R que faça isso, mas não é difícil
> implementar.
> Este tipo de problema é tratado com métricas de distâncias entre os vetores
> de strings, e existe bastante coisa pronta em Java, com alguns algorítimos
> já implementados, que quase sempre pressupõem uma base de dados que
> identifica que "d"  = "D" por exemplo. O retorno é , em geral, um escore que
> varia de 0 a 1 sendo 1 a identidade. Cabe ao usuário escolher o treshold
> adequado.
> Mas ja aviso: "Silva, João" e "João Silva" serão quase sempre diferentes em
> qualquer uma das técnicas.
>
> Em 28 de setembro de 2011 10:00, Benilton Carvalho <[hidden email]<http://user/SendEmail.jtp?type=node&node=3851361&i=2>
> > escreveu:
>
> parece-me uma tarefa tipica para o Google Refine... b
> _______________________________________________
> R-br mailing list
> [hidden email] <http://user/SendEmail.jtp?type=node&node=3851361&i=3>
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
>
>
>
> --
> Fernando A.B. Colugnati
> Pesquisador Associado
>
> Instituto de Pesquisas em Tecnologia e Inovação - IPTI
> Tel. 55 11 8704-9812
> www.ipti.org.br
> [hidden email] <http://user/SendEmail.jtp?type=node&node=3851361&i=4>
>
> _______________________________________________ R-br mailing list [hidden
> email] <http://user/SendEmail.jtp?type=node&node=3851361&i=5>
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de
> postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo
> reproduz�vel.
>
> _______________________________________________
> R-br mailing list
> [hidden email] <http://user/SendEmail.jtp?type=node&node=3851361&i=6>
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
> ------------------------------
>  If you reply to this email, your message will be added to the discussion
> below:
>
> http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p3851361.html
>  To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
>
>



-- 
Saudações,
Pedro Rafael Diniz Marinho.
Estatístico - Secretaria de Estado da Saúde - PB.
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20110929/c7e7e3cd/attachment.html>


Mais detalhes sobre a lista de discussão R-br