
Pessoal qual o objeto para compara duas strings e observar a distância entre elas? Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que também fosse igual à Rafael Pedro. Existe alguma forma de fazer isto? -- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.

Tente assim: Str <- c("Pedro Rafael", "peDro Rafael", "Rafael Pedro", "Outro Nome") agrep(Str[1], Str, max.distance = 0.5) 2011/9/27 Pedro Rafael <pedro.rafael.marinho@gmail.com>
Pessoal qual o objeto para compara duas strings e observar a distância entre elas?
Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que também fosse igual à Rafael Pedro.
Existe alguma forma de fazer isto?
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O

Valeu Henrique. Contudo se eu botar Pedro Gabriel ele diz que é a mesma pessoa. Meu problema é que tenho dados de nomes de pacientes cadastrados no SINAN e as vezes ocorre do digitador pegar a notificação da doença e digitar alguma coisa errada. Por exemplo estou procurando dentro do sistema um cara chamado Pedro Rafael Diniz Marinho e a pessoa escreve Pedro RaFael Dinis Marino. Fazemos alguns cruzamentos de informações e vemos que Pedro RaFael Dinis Marino = Pedro Rafael Diniz Marinho. Em 27 de setembro de 2011 21:26, Henrique Dallazuanna [via R-br] < ml-node+s2285057n3849616h73@n4.nabble.com> escreveu:
Tente assim:
Str <- c("Pedro Rafael", "peDro Rafael", "Rafael Pedro", "Outro Nome") agrep(Str[1], Str, max.distance = 0.5)
2011/9/27 Pedro Rafael <[hidden email]<http://user/SendEmail.jtp?type=node&node=3849616&i=0>
Pessoal qual o objeto para compara duas strings e observar a distância entre elas?
Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que também fosse igual à Rafael Pedro.
Existe alguma forma de fazer isto?
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
_______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3849616&i=1> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O
_______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3849616&i=2> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
------------------------------ If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p384... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.

Olá Pedro, E se você pegar o campo que armazena dos nomes e converter para maiúsculo e depois procurar? Até Crysttian Arantes Paixão Universidade Federal de Lavras - UFLA Cel: 35 8876-9187 (Oi) 35 9189-7272 (Tim) Linux User: 456734 - Debian “Se fiz descobertas valiosas, foi mais por ter paciência do que qualquer outro talento.” [Isaac Newton] "Otimismo é esperar pelo melhor. Confiança é saber lidar com o pior." [Roberto Simonsen] "Mesmo as noites totalmente sem estrelas podem anunciar a aurora de uma grande realização." [Martin Luther King] Em 28 de setembro de 2011 08:47, Pedro Rafael < pedro.rafael.marinho@gmail.com> escreveu:
Valeu Henrique. Contudo se eu botar Pedro Gabriel ele diz que é a mesma pessoa. Meu problema é que tenho dados de nomes de pacientes cadastrados no SINAN e as vezes ocorre do digitador pegar a notificação da doença e digitar alguma coisa errada. Por exemplo estou procurando dentro do sistema um cara chamado Pedro Rafael Diniz Marinho e a pessoa escreve Pedro RaFael Dinis Marino. Fazemos alguns cruzamentos de informações e vemos que Pedro RaFael Dinis Marino = Pedro Rafael Diniz Marinho.
Em 27 de setembro de 2011 21:26, Henrique Dallazuanna [via R-br] < ml-node+s2285057n3849616h73@n4.nabble.com> escreveu:
Tente assim:
Str <- c("Pedro Rafael", "peDro Rafael", "Rafael Pedro", "Outro Nome") agrep(Str[1], Str, max.distance = 0.5)
2011/9/27 Pedro Rafael <[hidden email]<http://user/SendEmail.jtp?type=node&node=3849616&i=0>
Pessoal qual o objeto para compara duas strings e observar a distância entre elas?
Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que também fosse igual à Rafael Pedro.
Existe alguma forma de fazer isto?
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
_______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3849616&i=1>
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O
_______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3849616&i=2> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
------------------------------ If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p384... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Prezados, não conheço nada no R que faça isso, mas não é difícil implementar. Este tipo de problema é tratado com métricas de distâncias entre os vetores de strings, e existe bastante coisa pronta em Java, com alguns algorítimos já implementados, que quase sempre pressupõem uma base de dados que identifica que "d" = "D" por exemplo. O retorno é , em geral, um escore que varia de 0 a 1 sendo 1 a identidade. Cabe ao usuário escolher o treshold adequado. Mas ja aviso: "Silva, João" e "João Silva" serão quase sempre diferentes em qualquer uma das técnicas. Em 28 de setembro de 2011 10:00, Benilton Carvalho < beniltoncarvalho@gmail.com> escreveu:
parece-me uma tarefa tipica para o Google Refine... b _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Fernando A.B. Colugnati Pesquisador Associado Instituto de Pesquisas em Tecnologia e Inovação - IPTI Tel. 55 11 8704-9812 www.ipti.org.br fernando@ipti.org.br

Acredito que não foi implementado um sistema que codifique cada paciente e agora surgiu esse problema. Fica a sugestão. Date: Wed, 28 Sep 2011 10:45:44 -0300 From: fernando@ipti.org.br To: r-br@listas.c3sl.ufpr.br Subject: Re: [R-br] Distância entre strings Prezados, não conheço nada no R que faça isso, mas não é difícil implementar. Este tipo de problema é tratado com métricas de distâncias entre os vetores de strings, e existe bastante coisa pronta em Java, com alguns algorítimos já implementados, que quase sempre pressupõem uma base de dados que identifica que "d" = "D" por exemplo. O retorno é , em geral, um escore que varia de 0 a 1 sendo 1 a identidade. Cabe ao usuário escolher o treshold adequado. Mas ja aviso: "Silva, João" e "João Silva" serão quase sempre diferentes em qualquer uma das técnicas. Em 28 de setembro de 2011 10:00, Benilton Carvalho <beniltoncarvalho@gmail.com> escreveu: parece-me uma tarefa tipica para o Google Refine... b _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível. -- Fernando A.B. Colugnati Pesquisador Associado Instituto de Pesquisas em Tecnologia e Inovação - IPTI Tel. 55 11 8704-9812 www.ipti.org.br fernando@ipti.org.br _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.

Bem acho que vou fazer como o Crysttian falou, converter tudo para maiúsculo e tirar os acentos para ver se facilita minha vida. O sistema codifica cada paciente com um código de 6 dígitos contudo alguns casos particulares que sabemos que tem uma pessoa no estado com alguma doença que precisa da intervenção do estado, principalmente as doenças de notificação compulsória, e precisamos saber se esse cara tá dentro da base de dados, logo não sabemos o código do indivíduo e temos que procurar pelo nome. Esse sistema foi feito pelo DATASUS mas poderia ser mais inteligente, poderia usar o RG ou CPF do indivíduo para facilitar a procura. Em 28 de setembro de 2011 11:08, Daniel Dantas [via R-br] < ml-node+s2285057n3851361h68@n4.nabble.com> escreveu:
Acredito que não foi implementado um sistema que codifique cada paciente e agora surgiu esse problema.
Fica a sugestão.
------------------------------ Date: Wed, 28 Sep 2011 10:45:44 -0300 From: [hidden email]<http://user/SendEmail.jtp?type=node&node=3851361&i=0> To: [hidden email] <http://user/SendEmail.jtp?type=node&node=3851361&i=1> Subject: Re: [R-br] Distância entre strings
Prezados, não conheço nada no R que faça isso, mas não é difícil implementar. Este tipo de problema é tratado com métricas de distâncias entre os vetores de strings, e existe bastante coisa pronta em Java, com alguns algorítimos já implementados, que quase sempre pressupõem uma base de dados que identifica que "d" = "D" por exemplo. O retorno é , em geral, um escore que varia de 0 a 1 sendo 1 a identidade. Cabe ao usuário escolher o treshold adequado. Mas ja aviso: "Silva, João" e "João Silva" serão quase sempre diferentes em qualquer uma das técnicas.
Em 28 de setembro de 2011 10:00, Benilton Carvalho <[hidden email]<http://user/SendEmail.jtp?type=node&node=3851361&i=2>
escreveu:
parece-me uma tarefa tipica para o Google Refine... b _______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3851361&i=3> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Fernando A.B. Colugnati Pesquisador Associado
Instituto de Pesquisas em Tecnologia e Inovação - IPTI Tel. 55 11 8704-9812 www.ipti.org.br [hidden email] <http://user/SendEmail.jtp?type=node&node=3851361&i=4>
_______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3851361&i=5> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.
_______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3851361&i=6> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
------------------------------ If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p385... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.

On 09/27/2011 11:01 AM, Pedro Rafael wrote:
Pessoal qual o objeto para compara duas strings e observar a distância entre elas?
Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que também fosse igual à Rafael Pedro.
Existe alguma forma de fazer isto?
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
Rafael esta é fácil 1- coloque tudo em maiúsculo 2- use a distância de levenshtein para ver qual semelhantes são as strings (http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein) 3- Se a base for muito grande usar uma codificação soundex pode servir para blocar os registros de forma eficiente 4- Antes que você se queixa vou logo avisando existem muitos brasileiros sem CPF e alguns sem RG (crianças) 5- Você já leu sobre record linkage ajuda muito para mexer com este tipo de problemas []s Tura P.S Se precisar de rotina para uma codificação soundez em portugues é só falar...

Tura, qual a diferença das duas funções do link que você passou. Estava lendo e me parece que o projeto Bioconductor ( http://svitsrv25.epfl.ch/R-doc/library/Biostrings/html/stringDist.html) tem implementado a distância de levenshtein. Vi que o link que você passou tem a distância de Damerau-Levenshtein. Por sua experiência qual a melhor para problemas dessa natureza? Em 29 de setembro de 2011 14:15, Bernardo Rangel Tura [via R-br] < ml-node+s2285057n3856736h93@n4.nabble.com> escreveu:
On 09/27/2011 11:01 AM, Pedro Rafael wrote:
Pessoal qual o objeto para compara duas strings e observar a distância entre elas?
Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que também fosse igual à Rafael Pedro.
Existe alguma forma de fazer isto?
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
Rafael esta é fácil
1- coloque tudo em maiúsculo
2- use a distância de levenshtein para ver qual semelhantes são as strings (http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein)
3- Se a base for muito grande usar uma codificação soundex pode servir para blocar os registros de forma eficiente
4- Antes que você se queixa vou logo avisando existem muitos brasileiros sem CPF e alguns sem RG (crianças)
5- Você já leu sobre record linkage ajuda muito para mexer com este tipo de problemas
[]s Tura
P.S Se precisar de rotina para uma codificação soundez em portugues é só falar... _______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3856736&i=0> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
------------------------------ If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p385... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.

Tura, você conhece uma opção free para trabalhar com o conceito de record linkage? Em 29 de setembro de 2011 15:45, Pedro Rafael < pedro.rafael.marinho@gmail.com> escreveu:
Tura, qual a diferença das duas funções do link que você passou. Estava lendo e me parece que o projeto Bioconductor ( http://svitsrv25.epfl.ch/R-doc/library/Biostrings/html/stringDist.html) tem implementado a distância de levenshtein. Vi que o link que você passou tem a distância de Damerau-Levenshtein. Por sua experiência qual a melhor para problemas dessa natureza?
Em 29 de setembro de 2011 14:15, Bernardo Rangel Tura [via R-br] < ml-node+s2285057n3856736h93@n4.nabble.com> escreveu:
On 09/27/2011 11:01 AM, Pedro Rafael wrote:
Pessoal qual o objeto para compara duas strings e observar a distância entre elas?
Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que também fosse igual à Rafael Pedro.
Existe alguma forma de fazer isto?
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
Rafael esta é fácil
1- coloque tudo em maiúsculo
2- use a distância de levenshtein para ver qual semelhantes são as strings
(http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein)
3- Se a base for muito grande usar uma codificação soundex pode servir para blocar os registros de forma eficiente
4- Antes que você se queixa vou logo avisando existem muitos brasileiros sem CPF e alguns sem RG (crianças)
5- Você já leu sobre record linkage ajuda muito para mexer com este tipo de problemas
[]s Tura
P.S Se precisar de rotina para uma codificação soundez em portugues é só falar... _______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3856736&i=0> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
------------------------------ If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p385... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.

"P.S Se precisar de rotina para uma codificação soundez em portugues é só falar... " Tura você tem algum material que fala sobre o conceito de Record Linkage? Em 29 de setembro de 2011 15:47, Pedro Rafael < pedro.rafael.marinho@gmail.com> escreveu:
Tura, você conhece uma opção free para trabalhar com o conceito de record linkage?
Em 29 de setembro de 2011 15:45, Pedro Rafael < pedro.rafael.marinho@gmail.com> escreveu:
Tura, qual a diferença das duas funções do link que você passou. Estava
lendo e me parece que o projeto Bioconductor ( http://svitsrv25.epfl.ch/R-doc/library/Biostrings/html/stringDist.html) tem implementado a distância de levenshtein. Vi que o link que você passou tem a distância de Damerau-Levenshtein. Por sua experiência qual a melhor para problemas dessa natureza?
Em 29 de setembro de 2011 14:15, Bernardo Rangel Tura [via R-br] < ml-node+s2285057n3856736h93@n4.nabble.com> escreveu:
On 09/27/2011 11:01 AM, Pedro Rafael wrote:
Pessoal qual o objeto para compara duas strings e observar a distância entre elas?
Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que também fosse igual à Rafael Pedro.
Existe alguma forma de fazer isto?
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
Rafael esta é fácil
1- coloque tudo em maiúsculo
2- use a distância de levenshtein para ver qual semelhantes são as strings (http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein)
3- Se a base for muito grande usar uma codificação soundex pode servir para blocar os registros de forma eficiente
4- Antes que você se queixa vou logo avisando existem muitos brasileiros sem CPF e alguns sem RG (crianças)
5- Você já leu sobre record linkage ajuda muito para mexer com este tipo de problemas
[]s Tura
P.S Se precisar de rotina para uma codificação soundez em portugues é só falar... _______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3856736&i=0> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
------------------------------ If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p385... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.

On 09/29/2011 04:09 PM, Pedro Rafael wrote:
"P.S Se precisar de rotina para uma codificação soundez em portugues é só falar... "
Tura você tem algum material que fala sobre o conceito de Record Linkage?
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
Sim Pedro tenho alguma coisa vou mandar direto para seu mail

Valeu Bernardo pelas dicas. Muito obrigado mesmo cara. Eu vim um software legal (http://www.cs.umd.edu/hcil/graphvis/) mas é pago. Você o conhece? Em 29 de setembro de 2011 16:38, Bernardo Rangel Tura [via R-br] < ml-node+s2285057n3857392h29@n4.nabble.com> escreveu:
On 09/29/2011 04:09 PM, Pedro Rafael wrote:
"P.S Se precisar de rotina para uma codificação soundez em portugues é só falar... "
Tura você tem algum material que fala sobre o conceito de Record Linkage?
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
Sim Pedro tenho alguma coisa vou mandar direto para seu mail _______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3857392&i=0> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
------------------------------ If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p385... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.

Sim e a distância de Levenishtein é interessante apesar de bem simples pois ela calcula o número de edições necessárias para uma string A se tornar na string B, ou seja, Pedro para ser igual à Pedra precisa de 1 edição. Em 29 de setembro de 2011 16:40, Pedro Rafael < pedro.rafael.marinho@gmail.com> escreveu:
Valeu Bernardo pelas dicas. Muito obrigado mesmo cara. Eu vim um software legal (http://www.cs.umd.edu/hcil/graphvis/) mas é pago. Você o conhece?
Em 29 de setembro de 2011 16:38, Bernardo Rangel Tura [via R-br] < ml-node+s2285057n3857392h29@n4.nabble.com> escreveu:
On 09/29/2011 04:09 PM, Pedro Rafael wrote:
"P.S Se precisar de rotina para uma codificação soundez em portugues é só falar... "
Tura você tem algum material que fala sobre o conceito de Record Linkage?
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
Sim Pedro tenho alguma coisa vou mandar direto para seu mail _______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3857392&i=0> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
------------------------------ If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p385... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.

Lá vai eu perguntando mais uma vez. Você sabe me dizer se o algoritmo agrep que o linux usa como comando agrep que usa logica fuzzy é mais robusto que a distância de Levenshtein. Robustez no sentido mais vulgar, não no sentido estatístico. Em 29 de setembro de 2011 16:43, Pedro Rafael < pedro.rafael.marinho@gmail.com> escreveu:
Sim e a distância de Levenishtein é interessante apesar de bem simples pois ela calcula o número de edições necessárias para uma string A se tornar na string B, ou seja, Pedro para ser igual à Pedra precisa de 1 edição.
Em 29 de setembro de 2011 16:40, Pedro Rafael < pedro.rafael.marinho@gmail.com> escreveu:
Valeu Bernardo pelas dicas. Muito obrigado mesmo cara. Eu vim um software
legal (http://www.cs.umd.edu/hcil/graphvis/) mas é pago. Você o conhece?
Em 29 de setembro de 2011 16:38, Bernardo Rangel Tura [via R-br] < ml-node+s2285057n3857392h29@n4.nabble.com> escreveu:
On 09/29/2011 04:09 PM, Pedro Rafael wrote:
"P.S Se precisar de rotina para uma codificação soundez em portugues é só falar... "
Tura você tem algum material que fala sobre o conceito de Record Linkage?
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
Sim Pedro tenho alguma coisa vou mandar direto para seu mail _______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=3857392&i=0> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
------------------------------ If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/R-br-Distancia-entre-strings-tp3847468p385... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw>.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.

On 09/29/2011 04:47 PM, Pedro Rafael wrote:
Lá vai eu perguntando mais uma vez. Você sabe me dizer se o algoritmo agrep que o linux usa como comando agrep que usa logica fuzzy é mais robusto que a distância de Levenshtein. Robustez no sentido mais vulgar, não no sentido estatístico.
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
O comando agrep pode usar outras técnicas além da distancia de Levenshtein então de certo modo ele seria mais "robusto"... []s Tura

On 09/29/2011 03:47 PM, Pedro Rafael wrote:
Tura, você conhece uma opção free para trabalhar com o conceito de record linkage?
Em 29 de setembro de 2011 15:45, Pedro Rafael <pedro.rafael.marinho@gmail.com <mailto:pedro.rafael.marinho@gmail.com>> escreveu:
Tura, qual a diferença das duas funções do link que você passou. Estava lendo e me parece que o projeto Bioconductor (http://svitsrv25.epfl.ch/R-doc/library/Biostrings/html/stringDist.html) tem implementado a distância de levenshtein. Vi que o link que você passou tem a distância de Damerau-Levenshtein. Por sua experiência qual a melhor para problemas dessa natureza?
Em 29 de setembro de 2011 14:15, Bernardo Rangel Tura [via R-br] <ml-node+s2285057n3856736h93@n4.nabble.com <mailto:ml-node%2Bs2285057n3856736h93@n4.nabble.com>> escreveu:
On 09/27/2011 11:01 AM, Pedro Rafael wrote:
> Pessoal qual o objeto para compara duas strings e observar a distância > entre elas? > > Exemplo: Gostaria que Pedro Rafael fosse igual à peDro Rafael, que > também fosse igual à Rafael Pedro. > > Existe alguma forma de fazer isto? > > -- > Saudações, > Pedro Rafael Diniz Marinho. > Estatístico - Secretaria de Estado da Saúde - PB.
Rafael esta é fácil
1- coloque tudo em maiúsculo
2- use a distância de levenshtein para ver qual semelhantes são as strings (http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein)
3- Se a base for muito grande usar uma codificação soundex pode servir para blocar os registros de forma eficiente
4- Antes que você se queixa vou logo avisando existem muitos brasileiros sem CPF e alguns sem RG (crianças)
5- Você já leu sobre record linkage ajuda muito para mexer com este tipo de problemas
[]s Tura
P.S Se precisar de rotina para uma codificação soundez em portugues é só falar... _______________________________________________
Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
Sim, conheço 1- o RecLink gratuito e brasileiro feito pelo Kennedi e pelo Regina Coelli (conhecidos pessoais meus daqui do Rio) ele foi desenvolvido para Windows e já tem uma versão portada para o SL incluindo linux 2- tem um pacote no R que faz também inclusive com algumas coisas que o RecLink não faz... []s Tura

On 09/29/2011 03:45 PM, Pedro Rafael wrote:
Tura, qual a diferença das duas funções do link que você passou. Estava lendo e me parece que o projeto Bioconductor (http://svitsrv25.epfl.ch/R-doc/library/Biostrings/html/stringDist.html) tem implementado a distância de levenshtein. Vi que o link que você passou tem a distância de Damerau-Levenshtein. Por sua experiência qual a melhor para problemas dessa natureza?
Em 29 de setembro de 2011 14:15, Bernardo Rangel Tura [via R-br] <ml-node+s2285057n3856736h93@n4.nabble.com <mailto:ml-node%2Bs2285057n3856736h93@n4.nabble.com>> escreveu:
Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.
Pedro, Vamos lá 1- Na primeira só tem a opção de Levenshtein enquanto na segunda você escolhe se quer usar Damerau-Levenshtein ou não 2- Pleo help tem sim e não é surpresa pois ela é usada para estudo com DNA... 3- sempre usei Levenshtein na verdade elas são muito semelhantes e em alguns casos resultam no mesmo número ... 4- Nós usamos Levenshtein no instituto nacional e cardiologia sem nenhum problema e conseguimos uma performance muito boa (http://www.ncbi.nlm.nih.gov/pubmed/21344122) []s tura
participantes (7)
-
Benilton Carvalho
-
Bernardo Rangel Tura
-
Crysttian Arantes
-
Daniel Dantas
-
Fernando Colugnati
-
Henrique Dallazuanna
-
Pedro Rafael