
Prezados, Boa tarde, Tenho uma conjunto de dados que são mensagens de textos e preciso identificar os cpf's digitados nestas mensagens. Quando os cpf's são digitados sem pontos ou traços, consigo extrair esta informação. mas preciso selecionar também os casos como por exemplo: 000.000.000-00 Uma amostra de 69 mensagens dos dados estão nest link https://www.dropbox.com/s/cphsc02rz242z57/amostra.csv?dl=0 ## CMR d<-unlist(regmatches(dados[1:69,], gregexpr("[0-9,]+", dados[1:69,]))) d<- gsub(",", "", d) d <- d[d != ""] d[str_length(d)==11]

Olá, Felipe, Tente esse código para pegar apenas os CPFs que estiverem com a máscara: t = paste(dados[1:69,2]) d<-unlist(regmatches(t, gregexpr("[0-9]{3}\\.[0-9]{3}\\.[0-9]{3}-[0-9]{2}", t))) Espero ter ajudado. Atenciosamente, Rodrigo de Castro Ângelo On Mon, Dec 17, 2018 at 6:20 PM Felipe Barletta por (R-br) < r-br@listas.c3sl.ufpr.br> wrote:
Prezados,
Boa tarde,
Tenho uma conjunto de dados que são mensagens de textos e preciso identificar os cpf's digitados nestas mensagens.
Quando os cpf's são digitados sem pontos ou traços, consigo extrair esta informação. mas preciso selecionar também os casos como por exemplo: 000.000.000-00 Uma amostra de 69 mensagens dos dados estão nest link https://www.dropbox.com/s/cphsc02rz242z57/amostra.csv?dl=0
## CMR d<-unlist(regmatches(dados[1:69,], gregexpr("[0-9,]+", dados[1:69,]))) d<- gsub(",", "", d) d <- d[d != ""] d[str_length(d)==11]
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
participantes (2)
-
Felipe Barletta
-
Rodrigo Ângelo