[R-br] Eliminar linhas repetidas de informações

Jônatan jdtatsch em gmail.com
Sexta Abril 8 18:54:36 BRT 2016


outra alternativa:

library(dplyr)
x <- read.csv2("rudinew_data", head = FALSE)
distinct(x, V2)
?distinct



2016-04-08 15:10 GMT-03:00 Rudiney S Pereira <rudiney.s.pereira em gmail.com>:

> Prezados,
>
> Estou com um conjunto de dados com mais de 65.000 registros sendo estes,
> com dezenas de campos (variáveis). O problema consiste em desenvolver um
> códio em R para eliminar linhas que possuem informações iguais e repetidas
> nos registros. Exemplo de um trecho de arquivo onde o 2º campo (variável)
> em negrito e as demais colunas, repetem-se nas informações.
>
> 584;*019642*;ESTUDO E IMPLEMENTAÇÃO DE AUTORIZAÇÃO NO ACESSO PARA O
> PORTAL DO HUSM UTILIZANDO O CIBAC
> ;Pesquisa;Avaliado;12/10/2006;01/10/2006;30/04/2007;14680000;22/01/2008;Concluído/Publicado;6985093
> - RAUL CERETTA NUNES;07.00.00.00.0.0 - CENTRO DE TECNOLOGIA -
> CT;07.39.00.00.0.0 - CURSO DE CIÊNCIA DA COMPUTAÇÃO;, , ,;Não necessita
> contratar fundação;379536 - MARTHA BOHRER ADAIME;Não se
> aplica;Geral;0;0;Não paga nenhum tipo de bolsa;Santa
> Maria;RS;Brasil;01/01/2016;01/01/2021;Linha de pesquisa;07.01.00 - SISTEMAS
> DE COMPUTAÇÃO;;;
> 585;*019642*;ESTUDO E IMPLEMENTAÇÃO DE AUTORIZAÇÃO NO ACESSO PARA O
> PORTAL DO HUSM UTILIZANDO O CIBAC
> ;Pesquisa;Avaliado;12/10/2006;01/10/2006;30/04/2007;14680000;22/01/2008;Concluído/Publicado;6985093
> - RAUL CERETTA NUNES;07.00.00.00.0.0 - CENTRO DE TECNOLOGIA -
> CT;07.39.00.00.0.0 - CURSO DE CIÊNCIA DA COMPUTAÇÃO;, , ,;Não necessita
> contratar fundação;379536 - MARTHA BOHRER ADAIME;Não se
> aplica;Geral;0;0;Não paga nenhum tipo de bolsa;Santa
> Maria;RS;Brasil;01/01/2016;01/01/2021;Quanto ao tipo de projeto de
> pesquisa;2.06 - Projeto de Pesquisa e Extensão;;;
> 586;*019128*;ESTUDO E IMPLEMENTAÇÃO DE UMA ARQUITETURA ORIENTADA A
> SERVIÇOS;Pesquisa;Avaliado;26/05/2006;18/05/2006;22/09/2006;;16/02/2007;Concluído/Publicado;6985093
> - RAUL CERETTA NUNES;07.00.00.00.0.0 - CENTRO DE TECNOLOGIA -
> CT;07.39.00.00.0.0 - CURSO DE CIÊNCIA DA COMPUTAÇÃO;, , ,;Não necessita
> contratar fundação;;Não se aplica;Geral;0;0;Não paga nenhum tipo de
> bolsa;;;;;;Classificação CNPq;1.03.04.00-2 - SISTEMAS DE COMPUTAÇÃO;;;
> 587;*019128*;ESTUDO E IMPLEMENTAÇÃO DE UMA ARQUITETURA ORIENTADA A
> SERVIÇOS;Pesquisa;Avaliado;26/05/2006;18/05/2006;22/09/2006;;16/02/2007;Concluído/Publicado;6985093
> - RAUL CERETTA NUNES;07.00.00.00.0.0 - CENTRO DE TECNOLOGIA -
> CT;07.39.00.00.0.0 - CURSO DE CIÊNCIA DA COMPUTAÇÃO;, , ,;Não necessita
> contratar fundação;;Não se aplica;Geral;0;0;Não paga nenhum tipo de
> bolsa;;;;;;Linha de pesquisa;07.01.00 - SISTEMAS DE COMPUTAÇÃO;;;
>
> Agradeço a colaboração de quem possa.
>
> Atenciosamente,
>
> --
> Prof. Dr. Rudiney Soares Pereira
> UFSM - CCR - DER - Núcleo de Geotecnologias
> Prédio 44 J, Sala 214
> RS 509 KM 9 - Campus Universitário
> 97.105-900 Santa Maria RS
> Brasil
> site: http://www.ufsm.br/geosere
> skype: rudiney.s.pereira
> fone: 55 3220-9468
>         55 9118-4142
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>



-- 
###############################################################
##  Jônatan Dupont Tatsch
##  Professor do Departamento de Física
##  Coordenador Substituto do Programa de Pós-Graduação em Meteorologia
(PPGMET)
##  Centro de Ciências Exatas e Naturais (CCNE)
##  Universidade Federal de Santa Maria - UFSM
##  Faixa de Camobi, Prédio 13 - Campus UFSM - Santa Maria, RS, Brasil -
97105-900
##  Telefone: +55(55)33012083
##  www.ufsm.br/meteorologia
###############################################################
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20160408/28c020f5/attachment.html>


Mais detalhes sobre a lista de discussão R-br