Record Linkage - compare.dedup

Prezados, estou começando a estudar o artigo enviado como sugestão de leitura sobre o RecordLinkage. Logo no início diz que a função compare.dedup serve para deduplicação de um banco simples. Ou seja, pelo que entendi por essa função conseguimos os pares do banco. Bem, tentei e retornou um erro. Aí vai o CMR (é isso mesmo?). nome1=c("ANITA","ULISSES","CREUSA","HILDA","ANITA") nome3=c("COSTA","SILVA","RAMALHO","ALVES","COSTA") datanas=c("1947-06-01","1925-08-09","1946-02-03","1931-09-23","1947-06-01") teste=data.frame(nome1,nome3,datanas) teste nome1 nome3 datanas 1 ANITA COSTA 1947-06-01 2 ULISSES SILVA 1925-08-09 3 CREUSA RAMALHO 1946-02-03 4 HILDA ALVES 1931-09-23 5 ANITA COSTA 1947-06-01 rpairs=compare.dedup(teste, identity=identity.teste) Erro em identical(identity, NA) : objeto 'identity.teste' não encontrado Alguém que já tenha feito um linkage usando esse pacote pode me ajudar? Obrigada Fátima

Olá Fátima, Pelo que eu vi, você precisa criar o objeto "identity.teste". Por exemplo nome1=c("ANITA","ULISSES","CREUSA","HILDA","ANITA") nome3=c("COSTA","SILVA","RAMALHO","ALVES","COSTA") datanas=c("1947-06-01","1925-08-09","1946-02-03","1931-09-23","1947-06-01") teste=data.frame(nome1,nome3,datanas) identify.teste<-c(1,2,3,4,5) rpairs=compare.dedup(teste, identity=identify.teste) Dê uma olhada no help da função... Abraços, Luciano Em 12 de novembro de 2012 18:18, Fátima Lima Paula < fatima.lima.paula@gmail.com> escreveu:
Prezados, estou começando a estudar o artigo enviado como sugestão de leitura sobre o RecordLinkage. Logo no início diz que a função compare.dedup serve para deduplicação de um banco simples. Ou seja, pelo que entendi por essa função conseguimos os pares do banco. Bem, tentei e retornou um erro. Aí vai o CMR (é isso mesmo?).
nome1=c("ANITA","ULISSES","CREUSA","HILDA","ANITA") nome3=c("COSTA","SILVA","RAMALHO","ALVES","COSTA") datanas=c("1947-06-01","1925-08-09","1946-02-03","1931-09-23","1947-06-01") teste=data.frame(nome1,nome3,datanas) teste nome1 nome3 datanas 1 ANITA COSTA 1947-06-01 2 ULISSES SILVA 1925-08-09 3 CREUSA RAMALHO 1946-02-03 4 HILDA ALVES 1931-09-23 5 ANITA COSTA 1947-06-01 rpairs=compare.dedup(teste, identity=identity.teste) Erro em identical(identity, NA) : objeto 'identity.teste' não encontrado
Alguém que já tenha feito um linkage usando esse pacote pode me ajudar? Obrigada Fátima
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Luciano F. Sgarbi Mestrando em Ecologia e Evolução - UFG Laboratório de Ecologia de Insetos Cel. (62)8174-2262 Lab. (62)3521-1732 https://groups.google.com/d/forum/r-ecologia

Entrando com esse identity.test ele retorna o seguinte: rpairs $data nome1 nome3 datanas 1 ANITA COSTA 1947-06-01 2 ULISSES SILVA 1925-08-09 3 CREUSA RAMALHO 1946-02-03 4 HILDA ALVES 1931-09-23 5 ANITA COSTA 1947-06-01 $pairs id1 id2 nome1 nome3 datanas is_match 1 1 2 0 0 0 0 2 1 3 0 0 0 0 3 1 4 0 0 0 0 4 1 5 1 1 1 0 5 2 3 0 0 0 0 6 2 4 0 0 0 0 7 2 5 0 0 0 0 8 3 4 0 0 0 0 9 3 5 0 0 0 0 10 4 5 0 0 0 0 $frequencies nome1 nome3 datanas 0.25 0.25 0.25 $type [1] "deduplication" attr(,"class") [1] "RecLinkData" Como se pode observar na coluna is.match, na linha 4, ele parece não reconhecer a comparação 1 com 5 que é idêntica. Nesta linha, não deveria ser 1 ao invés de 0? Em 12 de novembro de 2012 18:39, Luciano F. Sgarbi < luciano.f.sgarbi@gmail.com> escreveu:
Olá Fátima, Pelo que eu vi, você precisa criar o objeto "identity.teste". Por exemplo
nome1=c("ANITA","ULISSES","CREUSA","HILDA","ANITA") nome3=c("COSTA","SILVA","RAMALHO","ALVES","COSTA") datanas=c("1947-06-01","1925-08-09","1946-02-03","1931-09-23","1947-06-01") teste=data.frame(nome1,nome3,datanas) identify.teste<-c(1,2,3,4,5) rpairs=compare.dedup(teste, identity=identify.teste)
Dê uma olhada no help da função...
Abraços, Luciano
Em 12 de novembro de 2012 18:18, Fátima Lima Paula < fatima.lima.paula@gmail.com> escreveu:
Prezados, estou começando a estudar o artigo enviado como sugestão de leitura sobre o RecordLinkage. Logo no início diz que a função compare.dedup serve para deduplicação de um banco simples. Ou seja, pelo que entendi por essa função conseguimos os pares do banco. Bem, tentei e retornou um erro. Aí vai o CMR (é isso mesmo?).
nome1=c("ANITA","ULISSES","CREUSA","HILDA","ANITA") nome3=c("COSTA","SILVA","RAMALHO","ALVES","COSTA")
datanas=c("1947-06-01","1925-08-09","1946-02-03","1931-09-23","1947-06-01") teste=data.frame(nome1,nome3,datanas) teste nome1 nome3 datanas 1 ANITA COSTA 1947-06-01 2 ULISSES SILVA 1925-08-09 3 CREUSA RAMALHO 1946-02-03 4 HILDA ALVES 1931-09-23 5 ANITA COSTA 1947-06-01 rpairs=compare.dedup(teste, identity=identity.teste) Erro em identical(identity, NA) : objeto 'identity.teste' não encontrado
Alguém que já tenha feito um linkage usando esse pacote pode me ajudar? Obrigada Fátima
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
--
Luciano F. Sgarbi Mestrando em Ecologia e Evolução - UFG Laboratório de Ecologia de Insetos Cel. (62)8174-2262 Lab. (62)3521-1732
https://groups.google.com/d/forum/r-ecologia
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
participantes (2)
-
Fátima Lima Paula
-
Luciano F. Sgarbi