[R-br] Record Linkage - compare.dedup

Fátima Lima Paula fatima.lima.paula em gmail.com
Segunda Novembro 12 20:16:30 BRST 2012


Entrando com esse identity.test ele retorna o seguinte:
rpairs
$data
    nome1   nome3    datanas
1   ANITA   COSTA 1947-06-01
2 ULISSES   SILVA 1925-08-09
3  CREUSA RAMALHO 1946-02-03
4   HILDA   ALVES 1931-09-23
5   ANITA   COSTA 1947-06-01

$pairs
id1 id2 nome1 nome3 datanas is_match
1    1   2     0     0       0        0
2    1   3     0     0       0        0
3    1   4     0     0       0        0
4    1   5     1     1       1        0
5    2   3     0     0       0        0
6    2   4     0     0       0        0
7    2   5     0     0       0        0
8    3   4     0     0       0        0
9    3   5     0     0       0        0
10   4   5     0     0       0        0

$frequencies
  nome1   nome3 datanas
   0.25    0.25    0.25

$type
[1] "deduplication"

attr(,"class")
[1] "RecLinkData"
Como se pode observar na coluna is.match, na linha 4, ele parece não
reconhecer a comparação 1 com 5 que é idêntica. Nesta linha, não deveria
ser 1 ao invés de 0?




Em 12 de novembro de 2012 18:39, Luciano F. Sgarbi <
luciano.f.sgarbi em gmail.com> escreveu:

> Olá Fátima,
> Pelo que eu vi, você precisa criar o objeto "identity.teste".
> Por exemplo
>
> nome1=c("ANITA","ULISSES","CREUSA","HILDA","ANITA")
> nome3=c("COSTA","SILVA","RAMALHO","ALVES","COSTA")
> datanas=c("1947-06-01","1925-08-09","1946-02-03","1931-09-23","1947-06-01")
> teste=data.frame(nome1,nome3,datanas)
> identify.teste<-c(1,2,3,4,5)
> rpairs=compare.dedup(teste, identity=identify.teste)
>
> Dê uma olhada no help da função...
>
> Abraços,
> Luciano
>
> Em 12 de novembro de 2012 18:18, Fátima Lima Paula <
> fatima.lima.paula em gmail.com> escreveu:
>
>> Prezados, estou começando a estudar o artigo enviado como sugestão de
>> leitura sobre o RecordLinkage.
>> Logo no início diz que a função compare.dedup serve para deduplicação de
>> um banco simples.
>> Ou seja, pelo que entendi por essa função conseguimos os pares do banco.
>> Bem, tentei e retornou um erro.
>> Aí vai o CMR (é isso mesmo?).
>>
>> nome1=c("ANITA","ULISSES","CREUSA","HILDA","ANITA")
>> nome3=c("COSTA","SILVA","RAMALHO","ALVES","COSTA")
>>
>> datanas=c("1947-06-01","1925-08-09","1946-02-03","1931-09-23","1947-06-01")
>> teste=data.frame(nome1,nome3,datanas)
>> teste
>>     nome1   nome3    datanas
>> 1   ANITA   COSTA 1947-06-01
>> 2 ULISSES   SILVA 1925-08-09
>> 3  CREUSA RAMALHO 1946-02-03
>>  4   HILDA   ALVES 1931-09-23
>> 5   ANITA   COSTA 1947-06-01
>> rpairs=compare.dedup(teste, identity=identity.teste)
>> Erro em identical(identity, NA) : objeto 'identity.teste' não encontrado
>>
>>
>> Alguém que já tenha feito um linkage usando esse pacote pode me ajudar?
>> Obrigada
>> Fátima
>>
>>
>>
>>
>>
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
>
>
>
> --
>
> Luciano F. Sgarbi
> Mestrando em Ecologia e Evolução - UFG
> Laboratório de Ecologia de Insetos
> Cel. (62)8174-2262   Lab. (62)3521-1732
>
> https://groups.google.com/d/forum/r-ecologia
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20121112/0c398fbb/attachment.html>


Mais detalhes sobre a lista de discussão R-br