[R-br] Record Linkage - compare.dedup
Fátima Lima Paula
fatima.lima.paula em gmail.com
Segunda Novembro 12 20:16:30 BRST 2012
Entrando com esse identity.test ele retorna o seguinte:
rpairs
$data
nome1 nome3 datanas
1 ANITA COSTA 1947-06-01
2 ULISSES SILVA 1925-08-09
3 CREUSA RAMALHO 1946-02-03
4 HILDA ALVES 1931-09-23
5 ANITA COSTA 1947-06-01
$pairs
id1 id2 nome1 nome3 datanas is_match
1 1 2 0 0 0 0
2 1 3 0 0 0 0
3 1 4 0 0 0 0
4 1 5 1 1 1 0
5 2 3 0 0 0 0
6 2 4 0 0 0 0
7 2 5 0 0 0 0
8 3 4 0 0 0 0
9 3 5 0 0 0 0
10 4 5 0 0 0 0
$frequencies
nome1 nome3 datanas
0.25 0.25 0.25
$type
[1] "deduplication"
attr(,"class")
[1] "RecLinkData"
Como se pode observar na coluna is.match, na linha 4, ele parece não
reconhecer a comparação 1 com 5 que é idêntica. Nesta linha, não deveria
ser 1 ao invés de 0?
Em 12 de novembro de 2012 18:39, Luciano F. Sgarbi <
luciano.f.sgarbi em gmail.com> escreveu:
> Olá Fátima,
> Pelo que eu vi, você precisa criar o objeto "identity.teste".
> Por exemplo
>
> nome1=c("ANITA","ULISSES","CREUSA","HILDA","ANITA")
> nome3=c("COSTA","SILVA","RAMALHO","ALVES","COSTA")
> datanas=c("1947-06-01","1925-08-09","1946-02-03","1931-09-23","1947-06-01")
> teste=data.frame(nome1,nome3,datanas)
> identify.teste<-c(1,2,3,4,5)
> rpairs=compare.dedup(teste, identity=identify.teste)
>
> Dê uma olhada no help da função...
>
> Abraços,
> Luciano
>
> Em 12 de novembro de 2012 18:18, Fátima Lima Paula <
> fatima.lima.paula em gmail.com> escreveu:
>
>> Prezados, estou começando a estudar o artigo enviado como sugestão de
>> leitura sobre o RecordLinkage.
>> Logo no início diz que a função compare.dedup serve para deduplicação de
>> um banco simples.
>> Ou seja, pelo que entendi por essa função conseguimos os pares do banco.
>> Bem, tentei e retornou um erro.
>> Aí vai o CMR (é isso mesmo?).
>>
>> nome1=c("ANITA","ULISSES","CREUSA","HILDA","ANITA")
>> nome3=c("COSTA","SILVA","RAMALHO","ALVES","COSTA")
>>
>> datanas=c("1947-06-01","1925-08-09","1946-02-03","1931-09-23","1947-06-01")
>> teste=data.frame(nome1,nome3,datanas)
>> teste
>> nome1 nome3 datanas
>> 1 ANITA COSTA 1947-06-01
>> 2 ULISSES SILVA 1925-08-09
>> 3 CREUSA RAMALHO 1946-02-03
>> 4 HILDA ALVES 1931-09-23
>> 5 ANITA COSTA 1947-06-01
>> rpairs=compare.dedup(teste, identity=identity.teste)
>> Erro em identical(identity, NA) : objeto 'identity.teste' não encontrado
>>
>>
>> Alguém que já tenha feito um linkage usando esse pacote pode me ajudar?
>> Obrigada
>> Fátima
>>
>>
>>
>>
>>
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
>
>
>
> --
>
> Luciano F. Sgarbi
> Mestrando em Ecologia e Evolução - UFG
> Laboratório de Ecologia de Insetos
> Cel. (62)8174-2262 Lab. (62)3521-1732
>
> https://groups.google.com/d/forum/r-ecologia
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20121112/0c398fbb/attachment.html>
Mais detalhes sobre a lista de discussão R-br