Acessar microdados RAIS Estabelecimentos

Prezados amigos da lista, Solicito ajuda para uma tarefa. Estou tentando acessar os dados do arquivo de microdados da RAIS Estabelecimentos. Tentei com o comando read.fwf, pois o arquivo não possui delimitadores, informando o tamanho dos campos, segundo o arquivo de layout. Sem sucesso. Abri o arquivo txt no editor vim e verifiquei que há 172 colunas, mas quando faço a soma dos campos informados pelo layout só dá 87. Observei também colunas vazias. Repositório dos microdados: ftp://ftp.mtps.gov.br/pdet/microdados/RAIS/2014/ Baixei o arquivo ESTB com UF e CEP.7z Agradeço antecipadamente. -- Atenciosamente, Prof. Carlos A. S. de Andrade LAPEA - Laboratório de Pesquisa em Economia Aplicada e Engenharia de Produção Universidade Federal de Campina Grande. Centro de Humanidades Unidade Acadêmica de Economia

Carlos, bom dia! Normalmente tem uma descrição do formato junto dos dados. Nesse caso não está no mesmo diretório, mas logo acima... ftp://ftp.mtps.gov.br/pdet/microdados/RAIS/RAIS_estabelecimento_layout.xls ================================================ Éder Comunello Agronomist (UEM), MSc in Environ. Sciences (UEM) DSc in Agricultural Systems Engineering (USP/Esalq) Brazilian Agricultural Research Corporation (Embrapa) Dourados, MS, Brazil |<O>| ================================================ GEO, -22.2752, -54.8182, 408m UTC-04:00 / DST: UTC-03:00 Em 11 de maio de 2016 20:20, Carlos Andrade <prf.cantonio@gmail.com> escreveu:
Prezados amigos da lista,
Solicito ajuda para uma tarefa. Estou tentando acessar os dados do arquivo de microdados da RAIS Estabelecimentos. Tentei com o comando read.fwf, pois o arquivo não possui delimitadores, informando o tamanho dos campos, segundo o arquivo de layout. Sem sucesso. Abri o arquivo txt no editor vim e verifiquei que há 172 colunas, mas quando faço a soma dos campos informados pelo layout só dá 87. Observei também colunas vazias.
Repositório dos microdados: ftp://ftp.mtps.gov.br/pdet/microdados/RAIS/2014/ Baixei o arquivo ESTB com UF e CEP.7z
Agradeço antecipadamente. -- Atenciosamente,
Prof. Carlos A. S. de Andrade LAPEA - Laboratório de Pesquisa em Economia Aplicada e Engenharia de Produção Universidade Federal de Campina Grande. Centro de Humanidades Unidade Acadêmica de Economia
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Éder, Obrigado pela resposta. Também baixei este arquivo. Pelo que entendi os campos são descritos e informado o tamanho. Somando esses valores dá 87. Abrindo o arquivo txt vejo que são 172 colunas, com várias delas vazias no meio do registro. O arquivo de layout não está claro, não informa os campos em branco e nem o início e o fim dos outros campos. Estou pesquisando na web mas ainda não encontrei a resposta da minha dúvida. Em 12 de maio de 2016 09:03, Éder Comunello <comunello.eder@gmail.com> escreveu:
Carlos, bom dia!
Normalmente tem uma descrição do formato junto dos dados. Nesse caso não está no mesmo diretório, mas logo acima...
ftp://ftp.mtps.gov.br/pdet/microdados/RAIS/RAIS_estabelecimento_layout.xls
================================================ Éder Comunello Agronomist (UEM), MSc in Environ. Sciences (UEM) DSc in Agricultural Systems Engineering (USP/Esalq) Brazilian Agricultural Research Corporation (Embrapa) Dourados, MS, Brazil |<O>| ================================================ GEO, -22.2752, -54.8182, 408m UTC-04:00 / DST: UTC-03:00
Em 11 de maio de 2016 20:20, Carlos Andrade <prf.cantonio@gmail.com> escreveu:
Prezados amigos da lista,
Solicito ajuda para uma tarefa. Estou tentando acessar os dados do arquivo de microdados da RAIS Estabelecimentos. Tentei com o comando read.fwf, pois o arquivo não possui delimitadores, informando o tamanho dos campos, segundo o arquivo de layout. Sem sucesso. Abri o arquivo txt no editor vim e verifiquei que há 172 colunas, mas quando faço a soma dos campos informados pelo layout só dá 87. Observei também colunas vazias.
Repositório dos microdados: ftp://ftp.mtps.gov.br/pdet/microdados/RAIS/2014/ Baixei o arquivo ESTB com UF e CEP.7z
Agradeço antecipadamente. -- Atenciosamente,
Prof. Carlos A. S. de Andrade LAPEA - Laboratório de Pesquisa em Economia Aplicada e Engenharia de Produção Universidade Federal de Campina Grande. Centro de Humanidades Unidade Acadêmica de Economia
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Atenciosamente, Prof. Carlos A. S. de Andrade LAPEA - Laboratório de Pesquisa em Economia Aplicada e Engenharia de Produção Universidade Federal de Campina Grande. Centro de Humanidades Unidade Acadêmica de Economia

Carlos, O MTE possui uma lista de e-mails para discussão relacionados aos dados da RAIS e CAGED, talvez tu tenha mais sucesso se fizer essa pergunta por la. Segue link: https://br.groups.yahoo.com/neo/groups/basesmte/info . Até 2013 (o último que eu li), os dados eram separados por ; 2016-05-12 14:55 GMT-03:00 Carlos Andrade <prf.cantonio@gmail.com>:
Éder,
Obrigado pela resposta. Também baixei este arquivo. Pelo que entendi os campos são descritos e informado o tamanho. Somando esses valores dá 87. Abrindo o arquivo txt vejo que são 172 colunas, com várias delas vazias no meio do registro. O arquivo de layout não está claro, não informa os campos em branco e nem o início e o fim dos outros campos. Estou pesquisando na web mas ainda não encontrei a resposta da minha dúvida.
Em 12 de maio de 2016 09:03, Éder Comunello <comunello.eder@gmail.com> escreveu:
Carlos, bom dia!
Normalmente tem uma descrição do formato junto dos dados. Nesse caso não está no mesmo diretório, mas logo acima...
ftp://ftp.mtps.gov.br/pdet/microdados/RAIS/RAIS_estabelecimento_layout.xls
================================================ Éder Comunello Agronomist (UEM), MSc in Environ. Sciences (UEM) DSc in Agricultural Systems Engineering (USP/Esalq) Brazilian Agricultural Research Corporation (Embrapa) Dourados, MS, Brazil |<O>| ================================================ GEO, -22.2752, -54.8182, 408m UTC-04:00 / DST: UTC-03:00
Em 11 de maio de 2016 20:20, Carlos Andrade <prf.cantonio@gmail.com> escreveu:
Prezados amigos da lista,
Solicito ajuda para uma tarefa. Estou tentando acessar os dados do arquivo de microdados da RAIS Estabelecimentos. Tentei com o comando read.fwf, pois o arquivo não possui delimitadores, informando o tamanho dos campos, segundo o arquivo de layout. Sem sucesso. Abri o arquivo txt no editor vim e verifiquei que há 172 colunas, mas quando faço a soma dos campos informados pelo layout só dá 87. Observei também colunas vazias.
Repositório dos microdados: ftp://ftp.mtps.gov.br/pdet/microdados/RAIS/2014/ Baixei o arquivo ESTB com UF e CEP.7z
Agradeço antecipadamente. -- Atenciosamente,
Prof. Carlos A. S. de Andrade LAPEA - Laboratório de Pesquisa em Economia Aplicada e Engenharia de Produção Universidade Federal de Campina Grande. Centro de Humanidades Unidade Acadêmica de Economia
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Atenciosamente,
Prof. Carlos A. S. de Andrade LAPEA - Laboratório de Pesquisa em Economia Aplicada e Engenharia de Produção Universidade Federal de Campina Grande. Centro de Humanidades Unidade Acadêmica de Economia
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Carlos, boa tarde! Eu dei uma olhada nos arquivos e de fato não batem. Acho que a melhor saída é a que o colega Rodrigo indicou. Mas se você estiver disposto a testar, poderia avaliar essa divisão que fiz. Teria que verificar se as colunas importadas estão coerentes com o dados esperados(conforme mencionado no XLS). ### <code r> readLines("ESTB2014 com UF e CEP.txt", n=1) lab <- c("BairrosSP", "BairrosFortaleza", "BairrosRJ", "CNAE20Classe", "CNAE95Classe", "DistritosSP", "QtdVínculosCLT", "QtdVínculosAtivos", "QtdVínculosEstatutários", "IndAtividadeAno", "IndCEIVinculado", "IndEstabParticipaPAT", "Vazio1", "IndRaisNegativa", "IndSimples", "Município", "NaturezaJurídica", "Vazio2", "RegiõesAdmDF", "CNAE20_Subclasse", "TamanhoEstab", "TipoEstab1", "TipoEstab2", "UF", "CEPEstab") # Dados com 168 colunas wid <- (c(4,4,4,5,5,7,20,20,20,1,1,1,19,1,1,6,4,16,4,7,2,2,4,2,8)) data.frame(lab, wid) # importação das primeiras 10.000 linhas!!!! tmp <- read.fwf("ESTB2014 com UF e CEP.txt", widths=wid, col.names=lab, skip=1, n=10000, as.is=T) ### </code> ================================================ Éder Comunello Agronomist (UEM), MSc in Environ. Sciences (UEM) DSc in Agricultural Systems Engineering (USP/Esalq) Brazilian Agricultural Research Corporation (Embrapa) Dourados, MS, Brazil |<O>| ================================================ GEO, -22.2752, -54.8182, 408m UTC-04:00 / DST: UTC-03:00 Em 12 de maio de 2016 13:55, Carlos Andrade <prf.cantonio@gmail.com> escreveu:
Éder,
Obrigado pela resposta. Também baixei este arquivo. Pelo que entendi os campos são descritos e informado o tamanho. Somando esses valores dá 87. Abrindo o arquivo txt vejo que são 172 colunas, com várias delas vazias no meio do registro. O arquivo de layout não está claro, não informa os campos em branco e nem o início e o fim dos outros campos. Estou pesquisando na web mas ainda não encontrei a resposta da minha dúvida.
Em 12 de maio de 2016 09:03, Éder Comunello <comunello.eder@gmail.com> escreveu:
Carlos, bom dia!
Normalmente tem uma descrição do formato junto dos dados. Nesse caso não está no mesmo diretório, mas logo acima...
ftp://ftp.mtps.gov.br/pdet/microdados/RAIS/RAIS_estabelecimento_layout.xls
================================================ Éder Comunello Agronomist (UEM), MSc in Environ. Sciences (UEM) DSc in Agricultural Systems Engineering (USP/Esalq) Brazilian Agricultural Research Corporation (Embrapa) Dourados, MS, Brazil |<O>| ================================================ GEO, -22.2752, -54.8182, 408m UTC-04:00 / DST: UTC-03:00
Em 11 de maio de 2016 20:20, Carlos Andrade <prf.cantonio@gmail.com> escreveu:
Prezados amigos da lista,
Solicito ajuda para uma tarefa. Estou tentando acessar os dados do arquivo de microdados da RAIS Estabelecimentos. Tentei com o comando read.fwf, pois o arquivo não possui delimitadores, informando o tamanho dos campos, segundo o arquivo de layout. Sem sucesso. Abri o arquivo txt no editor vim e verifiquei que há 172 colunas, mas quando faço a soma dos campos informados pelo layout só dá 87. Observei também colunas vazias.
Repositório dos microdados: ftp://ftp.mtps.gov.br/pdet/microdados/RAIS/2014/ Baixei o arquivo ESTB com UF e CEP.7z
Agradeço antecipadamente. -- Atenciosamente,
Prof. Carlos A. S. de Andrade LAPEA - Laboratório de Pesquisa em Economia Aplicada e Engenharia de Produção Universidade Federal de Campina Grande. Centro de Humanidades Unidade Acadêmica de Economia
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Atenciosamente,
Prof. Carlos A. S. de Andrade LAPEA - Laboratório de Pesquisa em Economia Aplicada e Engenharia de Produção Universidade Federal de Campina Grande. Centro de Humanidades Unidade Acadêmica de Economia
participantes (3)
-
Carlos Andrade
-
Rodrigo Coster
-
Éder Comunello