[R-br] Soundex

Daniel Marcelino dmsilva.br em gmail.com
Terça Janeiro 8 21:55:24 BRST 2013


Fátima, talvez você esteja usando a função um banco um pouco mais
"bruto" do que eu usei. Primeiro eu tirei os "de" "dos" "das" e acho
que também " e ":

mydata <- data.frame(
name = a<-c("Ricardo de Almeida","Maria José da Cruz","Maria Tereza
dos Santos","Paulo da Rocha","José Maria", "Germano das Neves"),
age = b<-c(67,89,78,65,68,67),
birth = c <-c(1945,1923,1934,1947,1944,1945),
date = d<-c(20120907,20120703,20120301,20120805,20121004,20121209) )

mydata$name2 <-strsplit(as.character(mydata[,1]),split=c("de"))

Depois eu seprarei os nomes em colunas como: primeiro e último nome,
então passei a função soundex para gerar os códigos.

*Se precisar de alguma ajuda mais detalhada estarei à disposição, mas
apenas depois do dia 20 de janeiro.
Daniel


2013/1/7 Fátima Lima Paula <fatima.lima.paula em gmail.com>:
> Olá Marcelino,
> quando você fez o Soundex, não retirou os "de", "da", "do", e plurais dos
> nomes, não é?
> Observei que usei o nome do meio para fazer o linkage e ele não captou um
> par porque num dos bancos o nome estava sem o "de".
> Exemplo: Fátima de Lima e Fátima Lima
>
> Abs
> Fátima
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código
> mínimo reproduzível.



-- 
"Small steps toward a much better world"

\begin{signature}
Daniel Marcelino
☁ dm.silva em umontreal.ca
☎ (514) 343 6111 #3799
✎ 3200 Jean Brillant,  Office C5071
Montreal, QC; H3T 1N8
Canada
\end{signature}


Mais detalhes sobre a lista de discussão R-br