Problema ao ler arquivo UTF-16 com nulos

Caros, Estou tentando ler o arquivo de servidores disponível no portal da transparência. ( http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... - mais de 200MB) É um CSV codificado em UTF-16. No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha. Alguém saberia como poderia fazer com que o R possa ler este arquivo? Estou lendo o arquivo com: servidores = read.table("teste.csv", header = T, sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T) o fill=T estou sando para evitar que dê erro de diferente numero de campos. Envio, em anexo, um extrato das primeiras linhas do arquivo. Obrigado pela atenção. ==== Sequencia de bytes que provocam o reconhecimento de nova linha: 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 -- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660

Tente salvar o arquivo em .csv (separado por vírgulas) e leia pelo read.csv2. Acho que vai conseguir. Fátima Em 31 de outubro de 2012 11:22, Roberto de Pinho <robertodepinho@gmail.com>escreveu:
Caros,
Estou tentando ler o arquivo de servidores disponível no portal da transparência.
(
http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... - mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T, sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
==== Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Não envie arquivos anexados nas mensagens. Forneça um CMR. Para isso hospede seu arquivo na web ou passe o dput() do mesmo. Leia o guia de postagem. À disposição. Walmes. ========================================================================== Walmes Marques Zeviani LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W) Departamento de Estatística - Universidade Federal do Paraná fone: (+55) 41 3361 3573 VoIP: (3361 3600) 1053 1173 e-mail: walmes@ufpr.br skype: walmeszeviani twitter: @walmeszeviani homepage: http://www.leg.ufpr.br/~walmes linux user number: 531218 ========================================================================== 2012/10/31 Fátima Lima Paula <fatima.lima.paula@gmail.com>
Tente salvar o arquivo em .csv (separado por vírgulas) e leia pelo read.csv2. Acho que vai conseguir. Fátima
Em 31 de outubro de 2012 11:22, Roberto de Pinho <robertodepinho@gmail.com
escreveu:
Caros,
Estou tentando ler o arquivo de servidores disponível no portal da transparência.
(
http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... - mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T, sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
==== Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

o guia foi movido? http://www.leg.ufpr.br/r-br-guia Not Found The requested URL /r-br-guia was not found on this server. 2012/10/31 Walmes Zeviani <walmeszeviani@gmail.com>
Não envie arquivos anexados nas mensagens. Forneça um CMR. Para isso hospede seu arquivo na web ou passe o dput() do mesmo. Leia o guia de postagem.
À disposição. Walmes.
========================================================================== Walmes Marques Zeviani LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W) Departamento de Estatística - Universidade Federal do Paraná fone: (+55) 41 3361 3573 VoIP: (3361 3600) 1053 1173 e-mail: walmes@ufpr.br skype: walmeszeviani twitter: @walmeszeviani homepage: http://www.leg.ufpr.br/~walmes linux user number: 531218 ==========================================================================
2012/10/31 Fátima Lima Paula <fatima.lima.paula@gmail.com>
Tente salvar o arquivo em .csv (separado por vírgulas) e leia pelo read.csv2. Acho que vai conseguir. Fátima
Em 31 de outubro de 2012 11:22, Roberto de Pinho < robertodepinho@gmail.com> escreveu:
Caros,
Estou tentando ler o arquivo de servidores disponível no portal da transparência.
(
http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... - mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T, sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
==== Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660

O site do leg está em uma rapida manutencao e já retorna On Wed, 31 Oct 2012, Roberto de Pinho wrote:
o guia foi movido? http://www.leg.ufpr.br/r-br-guia
Not Found
The requested URL /r-br-guia was not found on this server.
2012/10/31 Walmes Zeviani <walmeszeviani@gmail.com> Não envie arquivos anexados nas mensagens. Forneça um CMR. Para isso hospede seu arquivo na web ou passe o dput() do mesmo. Leia o guia de postagem.
À disposição. Walmes.
========================================================================== Walmes Marques Zeviani LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W) Departamento de Estatística - Universidade Federal do Paraná fone: (+55) 41 3361 3573 VoIP: (3361 3600) 1053 1173 e-mail: walmes@ufpr.br skype: walmeszeviani twitter: @walmeszeviani homepage: http://www.leg.ufpr.br/~walmes linux user number: 531218 ==========================================================================
2012/10/31 Fátima Lima Paula <fatima.lima.paula@gmail.com> Tente salvar o arquivo em .csv (separado por vírgulas) e leia peloread.csv2. Acho que vai conseguir. Fátima
Em 31 de outubro de 2012 11:22, Roberto de Pinho <robertodepinho@gmail.com> escreveu: Caros, Estou tentando ler o arquivo de servidores disponível no portal da transparência.
( http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... - mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T, sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
==== Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.comhttp://lattes.cnpq.br/4816166073408660

obrigado. 2012/10/31 Paulo Justiniano <paulojus@leg.ufpr.br>
O site do leg está em uma rapida manutencao e já retorna
On Wed, 31 Oct 2012, Roberto de Pinho wrote:
o guia foi movido?
http://www.leg.ufpr.br/r-br-**guia <http://www.leg.ufpr.br/r-br-guia>
Not Found
The requested URL /r-br-guia was not found on this server.
2012/10/31 Walmes Zeviani <walmeszeviani@gmail.com> Não envie arquivos anexados nas mensagens. Forneça um CMR. Para isso hospede seu arquivo na web ou passe o dput() do mesmo. Leia o guia de postagem.
À disposição. Walmes.
==============================**==============================** ============== Walmes Marques Zeviani LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W) Departamento de Estatística - Universidade Federal do Paraná fone: (+55) 41 3361 3573 VoIP: (3361 3600) 1053 1173 e-mail: walmes@ufpr.br skype: walmeszeviani twitter: @walmeszeviani homepage: http://www.leg.ufpr.br/~walmes linux user number: 531218 ==============================**==============================** ==============
2012/10/31 Fátima Lima Paula <fatima.lima.paula@gmail.com> Tente salvar o arquivo em .csv (separado por vírgulas) e leia peloread.csv2. Acho que vai conseguir. Fátima
Em 31 de outubro de 2012 11:22, Roberto de Pinho < robertodepinho@gmail.com> escreveu: Caros, Estou tentando ler o arquivo de servidores disponível no portal da transparência.
( http://arquivos.**portaldatransparencia.gov.br/** PortalTransparenciaEscolheTipo**DePlanilha.asp?origem=** Servidores&Planilha=0<http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0> - mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T, sep="\t",quote="",** stringsAsFactors=T,**fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
==== Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.comhttp://**lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660

Tenta assim: temp <- tempfile()
download.file(" http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ",temp) trying URL ' http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ' Content type 'application/x-zip-compressed' length 284100659 bytes (270.9 Mb) opened URL =============================================================================== =====
data1 <- read.delim(unz(temp, "20120930_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE) data2 <- read.delim(unz(temp, "20120930_Observacoes_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE) data3 <- read.delim(unz(temp, "20120930_Remuneracao_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE) data4 <- read.delim(unz(temp, "20120930_Jetom_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE) Daniel 2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>
obrigado.
2012/10/31 Paulo Justiniano <paulojus@leg.ufpr.br>
O site do leg está em uma rapida manutencao e já retorna
On Wed, 31 Oct 2012, Roberto de Pinho wrote:
o guia foi movido?
http://www.leg.ufpr.br/r-br-**guia <http://www.leg.ufpr.br/r-br-guia>
Not Found
The requested URL /r-br-guia was not found on this server.
2012/10/31 Walmes Zeviani <walmeszeviani@gmail.com> Não envie arquivos anexados nas mensagens. Forneça um CMR. Para isso hospede seu arquivo na web ou passe o dput() do mesmo. Leia o guia de postagem.
À disposição. Walmes.
==============================**==============================** ============== Walmes Marques Zeviani LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W) Departamento de Estatística - Universidade Federal do Paraná fone: (+55) 41 3361 3573 VoIP: (3361 3600) 1053 1173 e-mail: walmes@ufpr.br skype: walmeszeviani twitter: @walmeszeviani homepage: http://www.leg.ufpr.br/~walmes linux user number: 531218 ==============================**==============================** ==============
2012/10/31 Fátima Lima Paula <fatima.lima.paula@gmail.com> Tente salvar o arquivo em .csv (separado por vírgulas) e leia peloread.csv2. Acho que vai conseguir. Fátima
Em 31 de outubro de 2012 11:22, Roberto de Pinho < robertodepinho@gmail.com> escreveu: Caros, Estou tentando ler o arquivo de servidores disponível no portal da transparência.
( http://arquivos.**portaldatransparencia.gov.br/** PortalTransparenciaEscolheTipo**DePlanilha.asp?origem=** Servidores&Planilha=0<http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0> - mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T, sep="\t",quote="",** stringsAsFactors=T,**fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
==== Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.comhttp://**lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- "Small steps toward a much better world" \begin{signature} Daniel Marcelino Land Phone 1+514 343 6111 #3799 3200 Jean Brillant, Office C5071 Montreal, QC; H3T 1N8 Canada \end{signature}

E se tudo der certo, corte a conexao depois. unlink(temp) 2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
Tenta assim:
temp <- tempfile()
download.file(" http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ",temp) trying URL ' http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ' Content type 'application/x-zip-compressed' length 284100659 bytes (270.9 Mb) opened URL
=============================================================================== =====
data1 <- read.delim(unz(temp, "20120930_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data2 <- read.delim(unz(temp, "20120930_Observacoes_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data3 <- read.delim(unz(temp, "20120930_Remuneracao_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data4 <- read.delim(unz(temp, "20120930_Jetom_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
Daniel
2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>
obrigado.
2012/10/31 Paulo Justiniano <paulojus@leg.ufpr.br>
O site do leg está em uma rapida manutencao e já retorna
On Wed, 31 Oct 2012, Roberto de Pinho wrote:
o guia foi movido?
http://www.leg.ufpr.br/r-br-**guia <http://www.leg.ufpr.br/r-br-guia>
Not Found
The requested URL /r-br-guia was not found on this server.
2012/10/31 Walmes Zeviani <walmeszeviani@gmail.com> Não envie arquivos anexados nas mensagens. Forneça um CMR. Para isso hospede seu arquivo na web ou passe o dput() do mesmo. Leia o guia de postagem.
À disposição. Walmes.
==============================**==============================** ============== Walmes Marques Zeviani LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W) Departamento de Estatística - Universidade Federal do Paraná fone: (+55) 41 3361 3573 VoIP: (3361 3600) 1053 1173 e-mail: walmes@ufpr.br skype: walmeszeviani twitter: @walmeszeviani homepage: http://www.leg.ufpr.br/~walmes linux user number: 531218 ==============================**==============================** ==============
2012/10/31 Fátima Lima Paula <fatima.lima.paula@gmail.com> Tente salvar o arquivo em .csv (separado por vírgulas) e leia peloread.csv2. Acho que vai conseguir. Fátima
Em 31 de outubro de 2012 11:22, Roberto de Pinho < robertodepinho@gmail.com> escreveu: Caros, Estou tentando ler o arquivo de servidores disponível no portal da transparência.
( http://arquivos.**portaldatransparencia.gov.br/** PortalTransparenciaEscolheTipo**DePlanilha.asp?origem=** Servidores&Planilha=0<http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0> - mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T, sep="\t",quote="",** stringsAsFactors=T,**fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
==== Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.comhttp://**lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Resolvido: você precisa acrescentar os seguintes paramentros nos comandos que eu enviei anteriormente: fileEncoding = "latin1", as.is = TRUE Você pode também abrir os dados de seu computador assim: data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "latin1", as.is = TRUE) 2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
E se tudo der certo, corte a conexao depois.
unlink(temp)
2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
Tenta assim:
temp <- tempfile()
download.file(" http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ",temp) trying URL ' http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ' Content type 'application/x-zip-compressed' length 284100659 bytes (270.9 Mb) opened URL
=============================================================================== =====
data1 <- read.delim(unz(temp, "20120930_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data2 <- read.delim(unz(temp, "20120930_Observacoes_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data3 <- read.delim(unz(temp, "20120930_Remuneracao_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data4 <- read.delim(unz(temp, "20120930_Jetom_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
Daniel
2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>
obrigado.
2012/10/31 Paulo Justiniano <paulojus@leg.ufpr.br>
O site do leg está em uma rapida manutencao e já retorna
On Wed, 31 Oct 2012, Roberto de Pinho wrote:
o guia foi movido?
http://www.leg.ufpr.br/r-br-**guia <http://www.leg.ufpr.br/r-br-guia>
Not Found
The requested URL /r-br-guia was not found on this server.
2012/10/31 Walmes Zeviani <walmeszeviani@gmail.com> Não envie arquivos anexados nas mensagens. Forneça um CMR. Para isso hospede seu arquivo na web ou passe o dput() do mesmo. Leia o guia de postagem.
À disposição. Walmes.
==============================**==============================** ============== Walmes Marques Zeviani LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W) Departamento de Estatística - Universidade Federal do Paraná fone: (+55) 41 3361 3573 VoIP: (3361 3600) 1053 1173 e-mail: walmes@ufpr.br skype: walmeszeviani twitter: @walmeszeviani homepage: http://www.leg.ufpr.br/~walmes linux user number: 531218 ==============================**==============================** ==============
2012/10/31 Fátima Lima Paula <fatima.lima.paula@gmail.com> Tente salvar o arquivo em .csv (separado por vírgulas) e leia peloread.csv2. Acho que vai conseguir. Fátima
Em 31 de outubro de 2012 11:22, Roberto de Pinho < robertodepinho@gmail.com> escreveu: Caros, Estou tentando ler o arquivo de servidores disponível no portal da transparência.
( http://arquivos.**portaldatransparencia.gov.br/** PortalTransparenciaEscolheTipo**DePlanilha.asp?origem=** Servidores&Planilha=0<http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0> - mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T, sep="\t",quote="",** stringsAsFactors=T,**fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
==== Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.comhttp://**lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Caro Daniel, obrigado, vou tentar amanhã. Acho estranho ter funcionado por conta do encoding, com latin1, eu sempre recebia texto não aproveitável. abs Roberto 2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
Resolvido: você precisa acrescentar os seguintes paramentros nos comandos que eu enviei anteriormente:
fileEncoding = "latin1", as.is = TRUE
Você pode também abrir os dados de seu computador assim:
data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "latin1", as.is = TRUE)
2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
E se tudo der certo, corte a conexao depois.
unlink(temp)
2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
Tenta assim:
temp <- tempfile()
download.file(" http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ",temp) trying URL ' http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ' Content type 'application/x-zip-compressed' length 284100659 bytes (270.9 Mb) opened URL
=============================================================================== =====
data1 <- read.delim(unz(temp, "20120930_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data2 <- read.delim(unz(temp, "20120930_Observacoes_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data3 <- read.delim(unz(temp, "20120930_Remuneracao_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data4 <- read.delim(unz(temp, "20120930_Jetom_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
Daniel
2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>
obrigado.
2012/10/31 Paulo Justiniano <paulojus@leg.ufpr.br>
O site do leg está em uma rapida manutencao e já retorna
On Wed, 31 Oct 2012, Roberto de Pinho wrote:
o guia foi movido?
http://www.leg.ufpr.br/r-br-**guia <http://www.leg.ufpr.br/r-br-guia>
Not Found
The requested URL /r-br-guia was not found on this server.
2012/10/31 Walmes Zeviani <walmeszeviani@gmail.com> Não envie arquivos anexados nas mensagens. Forneça um CMR. Para isso hospede seu arquivo na web ou passe o dput() do mesmo. Leia o guia de postagem.
À disposição. Walmes.
==============================**==============================* *============== Walmes Marques Zeviani LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W) Departamento de Estatística - Universidade Federal do Paraná fone: (+55) 41 3361 3573 VoIP: (3361 3600) 1053 1173 e-mail: walmes@ufpr.br skype: walmeszeviani twitter: @walmeszeviani homepage: http://www.leg.ufpr.br/~walmes linux user number: 531218 ==============================**==============================* *==============
2012/10/31 Fátima Lima Paula <fatima.lima.paula@gmail.com> Tente salvar o arquivo em .csv (separado por vírgulas) e leia peloread.csv2. Acho que vai conseguir. Fátima
Em 31 de outubro de 2012 11:22, Roberto de Pinho < robertodepinho@gmail.com> escreveu: Caros, Estou tentando ler o arquivo de servidores disponível no portal da transparência.
( http://arquivos.**portaldatransparencia.gov.br/** PortalTransparenciaEscolheTipo**DePlanilha.asp?origem=** Servidores&Planilha=0<http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0> - mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T, sep="\t",quote="",** stringsAsFactors=T,**fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
==== Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
______________________________**_________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.comhttp://**lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660

Bom, eu tô usando um Macbook. Tente também UTF-8 e UTF-16LE. Aqui deu certo novamente com UTF-16LE. data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE") data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE") head(data1) ANO MES ID_SERVIDOR_PORTAL CPF 1 2012 5 1283851 ***.128.531-** 2 2012 5 1725850 ***.014.030-** 3 2012 5 2042804 ***.520.808-** 4 2012 5 1545949 ***.513.705-** 5 2012 5 1849695 ***.449.371-** 6 2012 5 1272960 ***.822.991-** NOME 1 ABADIO MENDES FERREIRA 2 ABELARDO SCALCO ISQUIERDO 3 ADAIL DE ALMEIDA ROLLO 4 ADAILTON DOS SANTOS 5 ADALBERTO FAZZIO 6 ADALIA MARIA SILVA PONTES OBSERVACAO 1 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012 2 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012 3 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012 4 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012 5 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012 6 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012 2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>
Caro Daniel,
obrigado, vou tentar amanhã.
Acho estranho ter funcionado por conta do encoding, com latin1, eu sempre recebia texto não aproveitável.
abs Roberto
2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
Resolvido: você precisa acrescentar os seguintes paramentros nos comandos que eu enviei anteriormente:
fileEncoding = "latin1", as.is = TRUE
Você pode também abrir os dados de seu computador assim:
data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "latin1", as.is = TRUE)
2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
E se tudo der certo, corte a conexao depois.
unlink(temp)
2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
Tenta assim:
temp <- tempfile()
download.file(" http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ",temp) trying URL ' http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ' Content type 'application/x-zip-compressed' length 284100659 bytes (270.9 Mb) opened URL
=============================================================================== =====
data1 <- read.delim(unz(temp, "20120930_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data2 <- read.delim(unz(temp, "20120930_Observacoes_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data3 <- read.delim(unz(temp, "20120930_Remuneracao_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data4 <- read.delim(unz(temp, "20120930_Jetom_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
Daniel
2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>
obrigado.
2012/10/31 Paulo Justiniano <paulojus@leg.ufpr.br>
O site do leg está em uma rapida manutencao e já retorna
On Wed, 31 Oct 2012, Roberto de Pinho wrote:
o guia foi movido? > http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia> > > Not > Found > > The requested URL /r-br-guia was not found on this server. > > > > 2012/10/31 Walmes Zeviani <walmeszeviani@gmail.com> > Não envie arquivos anexados nas mensagens. Forneça um CMR. > Para isso hospede seu arquivo na web ou passe o dput() do mesmo. > Leia o guia de postagem. > > À disposição. > Walmes. > > ==============================**============================== > **============== > Walmes Marques Zeviani > LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, > 49.231759 W) > Departamento de Estatística - Universidade Federal do Paraná > fone: (+55) 41 3361 3573 > VoIP: (3361 3600) 1053 1173 > e-mail: walmes@ufpr.br > skype: walmeszeviani > twitter: @walmeszeviani > homepage: http://www.leg.ufpr.br/~walmes > linux user number: 531218 > ==============================**============================== > **============== > > > 2012/10/31 Fátima Lima Paula <fatima.lima.paula@gmail.com> > Tente salvar o arquivo em .csv (separado por vírgulas) e > leia peloread.csv2. > Acho que vai conseguir. > Fátima > > Em 31 de outubro de 2012 11:22, Roberto de Pinho < > robertodepinho@gmail.com> escreveu: > Caros, > Estou tentando ler o arquivo de servidores disponível no portal da > transparência. > > ( > http://arquivos.**portaldatransparencia.gov.br/** > PortalTransparenciaEscolheTipo**DePlanilha.asp?origem=** > Servidores&Planilha=0<http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0> > - mais de 200MB) > > É um CSV codificado em UTF-16. > > No entanto, ele reconhece prematuramente fins de linhas em algumas > linhas quando encontra campos com nulo [00 00]. Há > valores não nulos não sendo lidos após campos nulos que provocam > o reconhecimento de fim de linha. > > Alguém saberia como poderia fazer com que o R possa ler este arquivo? > > Estou lendo o arquivo com: > > servidores = read.table("teste.csv", header = T, sep="\t",quote="",* > *stringsAsFactors=T,**fileEncoding="UTF-16", fill=T) > > o fill=T estou sando para evitar que dê erro de diferente numero de > campos. > > Envio, em anexo, um extrato das primeiras linhas do arquivo. > > > Obrigado pela atenção. > > ==== > Sequencia de bytes que provocam o reconhecimento de nova linha: > > 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 > 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 > 00 09 00 00 00 09 00 00 00 09 00 > > > > > > > -- > Roberto de Pinho > robertodepinho@gmail.com > http://www.ascoisas.com http://lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660> > > > ______________________________**_________________ > R-br mailing list > R-br@listas.c3sl.ufpr.br > https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) > e forneça código mínimo reproduzível. > > > > ______________________________**_________________ > R-br mailing list > R-br@listas.c3sl.ufpr.br > https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) > e forneça código mínimo reproduzível. > > > > ______________________________**_________________ > R-br mailing list > R-br@listas.c3sl.ufpr.br > https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) > e forneça código mínimo reproduzível. > > > > > -- > Roberto de Pinho > robertodepinho@gmail.com > http://www.ascoisas.comhttp://**lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660> > > > _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- "Small steps toward a much better world" \begin{signature} Daniel Marcelino Land Phone 1+514 343 6111 #3799 3200 Jean Brillant, Office C5071 Montreal, QC; H3T 1N8 Canada \end{signature}

O erro é somente no "20120930_Servidores.csv" aqui no iMac: url = "~/Downloads/teste.csv" # que é o arquivo em " http://doc-0c-9c-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7def... " x = read.delim(url,header=TRUE,sep="\t", fill=TRUE) Error in make.names(col.names, unique = TRUE) : invalid multibyte string at '<ff><fe>I' 2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
Bom, eu tô usando um Macbook.
Tente também UTF-8 e UTF-16LE. Aqui deu certo novamente com UTF-16LE.
data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE")
data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE")
head(data1)
ANO MES ID_SERVIDOR_PORTAL CPF
1 2012 5 1283851 ***.128.531-**
2 2012 5 1725850 ***.014.030-**
3 2012 5 2042804 ***.520.808-**
4 2012 5 1545949 ***.513.705-**
5 2012 5 1849695 ***.449.371-**
6 2012 5 1272960 ***.822.991-**
NOME
1 ABADIO MENDES FERREIRA
2 ABELARDO SCALCO ISQUIERDO
3 ADAIL DE ALMEIDA ROLLO
4 ADAILTON DOS SANTOS
5 ADALBERTO FAZZIO
6 ADALIA MARIA SILVA PONTES
OBSERVACAO
1 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012
2 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012
3 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012
4 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012
5 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012
6 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012
2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>
Caro Daniel,
obrigado, vou tentar amanhã.
Acho estranho ter funcionado por conta do encoding, com latin1, eu sempre recebia texto não aproveitável.
abs Roberto
2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
Resolvido: você precisa acrescentar os seguintes paramentros nos comandos que eu enviei anteriormente:
fileEncoding = "latin1", as.is = TRUE
Você pode também abrir os dados de seu computador assim:
data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "latin1", as.is = TRUE)
2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
E se tudo der certo, corte a conexao depois.
unlink(temp)
2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
Tenta assim:
temp <- tempfile()
download.file(" http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ",temp) trying URL ' http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ' Content type 'application/x-zip-compressed' length 284100659 bytes (270.9 Mb) opened URL
=============================================================================== =====
data1 <- read.delim(unz(temp, "20120930_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data2 <- read.delim(unz(temp, "20120930_Observacoes_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data3 <- read.delim(unz(temp, "20120930_Remuneracao_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data4 <- read.delim(unz(temp, "20120930_Jetom_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
Daniel
2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>
obrigado.
2012/10/31 Paulo Justiniano <paulojus@leg.ufpr.br>
> O site do leg está em uma rapida manutencao e já retorna > > > > On Wed, 31 Oct 2012, Roberto de Pinho wrote: > > o guia foi movido? >> http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia> >> >> Not >> Found >> >> The requested URL /r-br-guia was not found on this server. >> >> >> >> 2012/10/31 Walmes Zeviani <walmeszeviani@gmail.com> >> Não envie arquivos anexados nas mensagens. Forneça um CMR. >> Para isso hospede seu arquivo na web ou passe o dput() do mesmo. >> Leia o guia de postagem. >> >> À disposição. >> Walmes. >> >> ==============================** >> ==============================**============== >> Walmes Marques Zeviani >> LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, >> 49.231759 W) >> Departamento de Estatística - Universidade Federal do Paraná >> fone: (+55) 41 3361 3573 >> VoIP: (3361 3600) 1053 1173 >> e-mail: walmes@ufpr.br >> skype: walmeszeviani >> twitter: @walmeszeviani >> homepage: http://www.leg.ufpr.br/~walmes >> linux user number: 531218 >> ==============================** >> ==============================**============== >> >> >> 2012/10/31 Fátima Lima Paula <fatima.lima.paula@gmail.com> >> Tente salvar o arquivo em .csv (separado por vírgulas) >> e leia peloread.csv2. >> Acho que vai conseguir. >> Fátima >> >> Em 31 de outubro de 2012 11:22, Roberto de Pinho < >> robertodepinho@gmail.com> escreveu: >> Caros, >> Estou tentando ler o arquivo de servidores disponível no portal da >> transparência. >> >> ( >> http://arquivos.**portaldatransparencia.gov.br/** >> PortalTransparenciaEscolheTipo**DePlanilha.asp?origem=** >> Servidores&Planilha=0<http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0> >> - mais de 200MB) >> >> É um CSV codificado em UTF-16. >> >> No entanto, ele reconhece prematuramente fins de linhas em algumas >> linhas quando encontra campos com nulo [00 00]. Há >> valores não nulos não sendo lidos após campos nulos que provocam >> o reconhecimento de fim de linha. >> >> Alguém saberia como poderia fazer com que o R possa ler este >> arquivo? >> >> Estou lendo o arquivo com: >> >> servidores = read.table("teste.csv", header = T, sep="\t",quote="", >> **stringsAsFactors=T,**fileEncoding="UTF-16", fill=T) >> >> o fill=T estou sando para evitar que dê erro de diferente numero de >> campos. >> >> Envio, em anexo, um extrato das primeiras linhas do arquivo. >> >> >> Obrigado pela atenção. >> >> ==== >> Sequencia de bytes que provocam o reconhecimento de nova linha: >> >> 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 >> 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 >> 00 09 00 00 00 09 00 00 00 09 00 >> >> >> >> >> >> >> -- >> Roberto de Pinho >> robertodepinho@gmail.com >> http://www.ascoisas.com http://lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660> >> >> >> ______________________________**_________________ >> R-br mailing list >> R-br@listas.c3sl.ufpr.br >> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> >> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) >> e forneça código mínimo reproduzível. >> >> >> >> ______________________________**_________________ >> R-br mailing list >> R-br@listas.c3sl.ufpr.br >> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> >> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) >> e forneça código mínimo reproduzível. >> >> >> >> ______________________________**_________________ >> R-br mailing list >> R-br@listas.c3sl.ufpr.br >> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> >> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) >> e forneça código mínimo reproduzível. >> >> >> >> >> -- >> Roberto de Pinho >> robertodepinho@gmail.com >> http://www.ascoisas.comhttp://**lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660> >> >> >> > _______________________________________________ > R-br mailing list > R-br@listas.c3sl.ufpr.br > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e > forneça código mínimo reproduzível. >
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- "Small steps toward a much better world"
\begin{signature} Daniel Marcelino Land Phone 1+514 343 6111 #3799 3200 Jean Brillant, Office C5071 Montreal, QC; H3T 1N8 Canada \end{signature}
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660

tbm sem sucesso: ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16", as.is=T) ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16") ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE", as.is=T) ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE") 2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>
O erro é somente no "20120930_Servidores.csv"
aqui no iMac:
url = "~/Downloads/teste.csv" # que é o arquivo em " http://doc-0c-9c-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7def... "
x = read.delim(url,header=TRUE,sep="\t", fill=TRUE)
Error in make.names(col.names, unique = TRUE) : invalid multibyte string at '<ff><fe>I'
2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
Bom, eu tô usando um Macbook.
Tente também UTF-8 e UTF-16LE. Aqui deu certo novamente com UTF-16LE.
data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE")
data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE")
head(data1)
ANO MES ID_SERVIDOR_PORTAL CPF
1 2012 5 1283851 ***.128.531-**
2 2012 5 1725850 ***.014.030-**
3 2012 5 2042804 ***.520.808-**
4 2012 5 1545949 ***.513.705-**
5 2012 5 1849695 ***.449.371-**
6 2012 5 1272960 ***.822.991-**
NOME
1 ABADIO MENDES FERREIRA
2 ABELARDO SCALCO ISQUIERDO
3 ADAIL DE ALMEIDA ROLLO
4 ADAILTON DOS SANTOS
5 ADALBERTO FAZZIO
6 ADALIA MARIA SILVA PONTES
OBSERVACAO
1 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012
2 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012
3 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012
4 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012
5 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012
6 OS VALORES EXTRA-SIAPE NAO ESTAO CONSIDERADOS. ESTA INFORMACAO ESTARA DISPONIVEL ATE 30/AGO/2012
2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>
Caro Daniel,
obrigado, vou tentar amanhã.
Acho estranho ter funcionado por conta do encoding, com latin1, eu sempre recebia texto não aproveitável.
abs Roberto
2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
Resolvido: você precisa acrescentar os seguintes paramentros nos comandos que eu enviei anteriormente:
fileEncoding = "latin1", as.is = TRUE
Você pode também abrir os dados de seu computador assim:
data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "latin1", as.is = TRUE)
2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
E se tudo der certo, corte a conexao depois.
unlink(temp)
2012/10/31 Daniel Marcelino <dmsilva.br@gmail.com>
Tenta assim:
temp <- tempfile() > download.file(" http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ",temp) trying URL ' http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... ' Content type 'application/x-zip-compressed' length 284100659 bytes (270.9 Mb) opened URL
=============================================================================== =====
data1 <- read.delim(unz(temp, "20120930_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data2 <- read.delim(unz(temp, "20120930_Observacoes_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data3 <- read.delim(unz(temp, "20120930_Remuneracao_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
data4 <- read.delim(unz(temp, "20120930_Jetom_Servidores.csv"),header=TRUE,sep="\t", fill=TRUE)
Daniel
2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>
> obrigado. > > > > 2012/10/31 Paulo Justiniano <paulojus@leg.ufpr.br> > >> O site do leg está em uma rapida manutencao e já retorna >> >> >> >> On Wed, 31 Oct 2012, Roberto de Pinho wrote: >> >> o guia foi movido? >>> http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia> >>> >>> Not >>> Found >>> >>> The requested URL /r-br-guia was not found on this server. >>> >>> >>> >>> 2012/10/31 Walmes Zeviani <walmeszeviani@gmail.com> >>> Não envie arquivos anexados nas mensagens. Forneça um CMR. >>> Para isso hospede seu arquivo na web ou passe o dput() do mesmo. >>> Leia o guia de postagem. >>> >>> À disposição. >>> Walmes. >>> >>> ==============================** >>> ==============================**============== >>> Walmes Marques Zeviani >>> LEG (Laboratório de Estatística e Geoinformação, 25.450418 >>> S, 49.231759 W) >>> Departamento de Estatística - Universidade Federal do Paraná >>> fone: (+55) 41 3361 3573 >>> VoIP: (3361 3600) 1053 1173 >>> e-mail: walmes@ufpr.br >>> skype: walmeszeviani >>> twitter: @walmeszeviani >>> homepage: http://www.leg.ufpr.br/~walmes >>> linux user number: 531218 >>> ==============================** >>> ==============================**============== >>> >>> >>> 2012/10/31 Fátima Lima Paula <fatima.lima.paula@gmail.com> >>> Tente salvar o arquivo em .csv (separado por vírgulas) >>> e leia peloread.csv2. >>> Acho que vai conseguir. >>> Fátima >>> >>> Em 31 de outubro de 2012 11:22, Roberto de Pinho < >>> robertodepinho@gmail.com> escreveu: >>> Caros, >>> Estou tentando ler o arquivo de servidores disponível no portal da >>> transparência. >>> >>> ( >>> http://arquivos.**portaldatransparencia.gov.br/** >>> PortalTransparenciaEscolheTipo**DePlanilha.asp?origem=** >>> Servidores&Planilha=0<http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0> >>> - mais de 200MB) >>> >>> É um CSV codificado em UTF-16. >>> >>> No entanto, ele reconhece prematuramente fins de linhas em algumas >>> linhas quando encontra campos com nulo [00 00]. Há >>> valores não nulos não sendo lidos após campos nulos que provocam >>> o reconhecimento de fim de linha. >>> >>> Alguém saberia como poderia fazer com que o R possa ler este >>> arquivo? >>> >>> Estou lendo o arquivo com: >>> >>> servidores = read.table("teste.csv", header = T, sep="\t",quote="", >>> **stringsAsFactors=T,**fileEncoding="UTF-16", fill=T) >>> >>> o fill=T estou sando para evitar que dê erro de diferente numero >>> de campos. >>> >>> Envio, em anexo, um extrato das primeiras linhas do arquivo. >>> >>> >>> Obrigado pela atenção. >>> >>> ==== >>> Sequencia de bytes que provocam o reconhecimento de nova linha: >>> >>> 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 >>> 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 >>> 00 09 00 00 00 09 00 00 00 09 00 >>> >>> >>> >>> >>> >>> >>> -- >>> Roberto de Pinho >>> robertodepinho@gmail.com >>> http://www.ascoisas.com http://lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660> >>> >>> >>> ______________________________**_________________ >>> R-br mailing list >>> R-br@listas.c3sl.ufpr.br >>> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> >>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) >>> e forneça código mínimo reproduzível. >>> >>> >>> >>> ______________________________**_________________ >>> R-br mailing list >>> R-br@listas.c3sl.ufpr.br >>> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> >>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) >>> e forneça código mínimo reproduzível. >>> >>> >>> >>> ______________________________**_________________ >>> R-br mailing list >>> R-br@listas.c3sl.ufpr.br >>> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br> >>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>) >>> e forneça código mínimo reproduzível. >>> >>> >>> >>> >>> -- >>> Roberto de Pinho >>> robertodepinho@gmail.com >>> http://www.ascoisas.comhttp://**lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660> >>> >>> >>> >> _______________________________________________ >> R-br mailing list >> R-br@listas.c3sl.ufpr.br >> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br >> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e >> forneça código mínimo reproduzível. >> > > > > -- > Roberto de Pinho > robertodepinho@gmail.com > http://www.ascoisas.com > http://lattes.cnpq.br/4816166073408660 > > > _______________________________________________ > R-br mailing list > R-br@listas.c3sl.ufpr.br > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e > forneça código mínimo reproduzível. >
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- "Small steps toward a much better world"
\begin{signature} Daniel Marcelino Land Phone 1+514 343 6111 #3799 3200 Jean Brillant, Office C5071 Montreal, QC; H3T 1N8 Canada \end{signature}
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660

2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>:
tbm sem sucesso:
ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16", as.is=T) ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16") ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE", as.is=T) ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE")
Se estiver usando um sistema operacional que tenha o programa sed instalado (qualquer distribuição do Linux), uma tentativa pode ser "limpar" o arquivo, removendo os 0s: sed -e 's/\x00//g' teste.csv > teste2.csv sed -e 's/\xff\xfe//' teste2.csv > teste3.csv

Tenta baixar os dados e importar do computador. É quase 1 gb de texto. É praticamente impossível não ter nenhum erro de codificação. Eu fiz assim e deu certo de novo com o arquivo "20120930_Servidores.csv": data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE") R version 2.15.1 (2012-06-22) -- "Roasted Marshmallows" Copyright (C) 2012 The R Foundation for Statistical Computing ISBN 3-900051-07-0 Platform: x86_64-apple-darwin9.8.0/x86_64 (64-bit) R is free software and comes with ABSOLUTELY NO WARRANTY. You are welcome to redistribute it under certain conditions. Type 'license()' or 'licence()' for distribution details. Natural language support but running in an English locale R is a collaborative project with many contributors. Type 'contributors()' for more information and 'citation()' on how to cite R or R packages in publications. Type 'demo()' for some demos, 'help()' for on-line help, or 'help.start()' for an HTML browser interface to help. Type 'q()' to quit R.
data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE") head(data1) ID_SERVIDOR_PORTAL NOME CPF 1 1493044 AALINE SEVERIANO DA SILVA ***.592.871-** 2 1890528 AARAO CARLOS LUZ MACAMBIRA ***.017.623-** 3 1762984 AARAO CAVALCANTE DE AMORIM ***.292.777-** 4 1920165 AARAO DE ANDRADE LIMA ***.559.144-** 5 1611738 AARAO DIAMANTINO OLIVEIRA ***.056.281-** 6 1611738 AARAO DIAMANTINO OLIVEIRA ***.056.281-** MATRICULA DESCRICAO_CARGO CLASSE_CARGO 1 019**** 2 016**** BIBLIOTECARIO-DOCUMENTALISTA E 3 009**** AGENTE DE SERV DE ENGENHARIA S 4 003**** PROFESSOR 3 GRAU V 5 000**** 6 000**** ANALISTA DO BANCO CENTRAL E REFERENCIA_CARGO PADRAO_CARGO NIVEL_CARGO SIGLA_FUNCAO NIVEL_FUNCAO 1 NA NA 2 NA NA 3 NA NA 4 NA NA 5 NA NA FBC FDT1 6 NA IV NA FUNCAO CODIGO_ATIVIDADE 1 2 3 4 5 FUNCAO COMISSIONADA DO BANCO CENTRAL FDT1 6 ATIVIDADE OPCAO_FUNCAO_TOTAL 1 2 3 4 5 CHEFE DE SUBUNIDADE 6 UORG_LOTACAO COD_ORG_LOTACAO 1 NA 2 NA 3 NA 4 NA 5 DEPTO. CONTR. GEST. PLAN. SUPERVISAO 25201 6 DEPTO. CONTR. GEST. PLAN. SUPERVISAO 25201 ORG_LOTACAO COD_ORGSUP_LOTACAO ORGSUP_LOTACAO 1 NA 2 NA 3 NA 4 NA 5 BANCO CENTRAL DO BRASIL 25201 BANCO CENTRAL DO BRASIL 6 BANCO CENTRAL DO BRASIL 25201 BANCO CENTRAL DO BRASIL UORG_EXERCICIO COD_ORG_EXERCICIO 1 2 3 4 5 DEPTO. CONTR. GEST. PLAN. SUPERVISAO 25201 6 DEPTO. CONTR. GEST. PLAN. SUPERVISAO 25201 ORG_EXERCICIO COD_ORGSUP_EXERCICIO 1 2 3 4 5 BANCO CENTRAL DO BRASIL 25201 6 BANCO CENTRAL DO BRASIL 25201 ORGSUP_EXERCICIO TIPO_VINCULO SITUACAO_VINCULO 1 NA 2 NA 3 NA 4 NA 5 BANCO CENTRAL DO BRASIL 1 ATIVO PERMANENTE 6 BANCO CENTRAL DO BRASIL 2 ATIVO PERMANENTE COD_GRUPO_AFASTAMENTO COD_AFASTAMENTO DATA_INICIO_AFASTAMENTO 1 NA 2 NA 3 NA 4 NA 5 NA Não informada 6 NA Não informada DATA_TERMINO_AFASTAMENTO REGIME_JURIDICO JORNADA_DE_TRABALHO 1 2 3 4 5 Não informada REGIME JURIDICO UNICO 40 HORAS SEMANAIS 6 Não informada REGIME JURIDICO UNICO 40 HORAS SEMANAIS DATA_INGRESSO_CARGOFUNCAO DATA_NOMEACAO_CARGOFUNCAO 1 NA 2 NA 3 NA 4 NA 5 27/04/2012 NA 6 05/01/1998 NA DATA_INGRESSO_ORGAO DOCUMENTO_INGRESSO_SERVICOPUBLICO 1 2 3 4 5 000000000 6 000000000 DATA_DIPLOMA_INGRESSO_SERVICOPUBLICO DIPLOMA_INGRESSO_CARGOFUNCAO 1 NA 2 NA 3 NA 4 NA 5 Não informada NA 6 Não informada NA DIPLOMA_INGRESSO_CARGOFUNCAO.1 DIPLOMA_INGRESSO_SERVICOPUBLICO 1 2 3 4 5 6
2012/10/31 Jakson Alves de Aquino <jalvesaq@gmail.com>
2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>:
tbm sem sucesso:
ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16", as.is=T) ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16") ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE", as.is=T) ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE")
Se estiver usando um sistema operacional que tenha o programa sed instalado (qualquer distribuição do Linux), uma tentativa pode ser "limpar" o arquivo, removendo os 0s:
sed -e 's/\x00//g' teste.csv > teste2.csv sed -e 's/\xff\xfe//' teste2.csv > teste3.csv _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- "Small steps toward a much better world" \begin{signature} Daniel Marcelino Land Phone 1+514 343 6111 #3799 3200 Jean Brillant, Office C5071 Montreal, QC; H3T 1N8 Canada \end{signature}

Caro Daniel, A sua importação deixa escapar o restante dos dados da primeira linha, por exemplo. Há valores não nulos que foram não lidos pois, como disse na mensagem original: "No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha". No "resto"da primeira linha ainda há: 6271 FUNDACAO UNIVERSIDADE DE BRASILIA 15000 MINISTERIO DA EDUCACAO HOSP-HOSPITAL UNIVERSITARIO DE BRASILIA 26271 FUNDACAO UNIVERSIDADE DE BRASILIA 15000 MINISTERIO DA EDUCACAO 3 SEM VINCULO Não informada Não informada RESIDENCIA MULTIPROFISSIONAL 40 HORAS SEMANAIS Que não está sendo lido e ignorado por conta do fill = T. ==== Resolvi fazendo um programa em C que tira os nulos e substitui por espaços (abaixo). Com isto, o arquivo é lido mesmo sem o fill: url = "~/Downloads/teste2.csv" y = read.table(url, header = T, sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=F) Bem, obrigado pela ajuda, mas pena que não resolvi no R. ======= #include <stdio.h> #include <stdlib.h> int main(int argc, const char * argv[]) { FILE * inFile; FILE * outFile; inFile = fopen("/Users/robertopinho/Downloads/teste.csv", "rb"); outFile = fopen("/Users/robertopinho/Downloads/teste2.csv", "wb"); while(!feof(inFile)){ char c1; char c2; c1 = fgetc(inFile); c2 = fgetc(inFile); if(c1 == (int)NULL && c2 == (int)NULL){ c1=0x20; } fputc(c1,outFile); fputc(c2,outFile); } fclose(outFile); fclose(inFile); return 0; } 2012/11/1 Daniel Marcelino <dmsilva.br@gmail.com>
Tenta baixar os dados e importar do computador. É quase 1 gb de texto. É praticamente impossível não ter nenhum erro de codificação. Eu fiz assim e deu certo de novo com o arquivo "20120930_Servidores.csv":
data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE")
R version 2.15.1 (2012-06-22) -- "Roasted Marshmallows" Copyright (C) 2012 The R Foundation for Statistical Computing ISBN 3-900051-07-0 Platform: x86_64-apple-darwin9.8.0/x86_64 (64-bit)
R is free software and comes with ABSOLUTELY NO WARRANTY. You are welcome to redistribute it under certain conditions. Type 'license()' or 'licence()' for distribution details.
Natural language support but running in an English locale
R is a collaborative project with many contributors. Type 'contributors()' for more information and 'citation()' on how to cite R or R packages in publications.
Type 'demo()' for some demos, 'help()' for on-line help, or 'help.start()' for an HTML browser interface to help. Type 'q()' to quit R.
data1 <- read.delim(file.choose(),header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE") head(data1) ID_SERVIDOR_PORTAL NOME CPF 1 1493044 AALINE SEVERIANO DA SILVA ***.592.871-** 2 1890528 AARAO CARLOS LUZ MACAMBIRA ***.017.623-** 3 1762984 AARAO CAVALCANTE DE AMORIM ***.292.777-** 4 1920165 AARAO DE ANDRADE LIMA ***.559.144-** 5 1611738 AARAO DIAMANTINO OLIVEIRA ***.056.281-** 6 1611738 AARAO DIAMANTINO OLIVEIRA ***.056.281-** MATRICULA DESCRICAO_CARGO CLASSE_CARGO 1 019**** 2 016**** BIBLIOTECARIO-DOCUMENTALISTA E 3 009**** AGENTE DE SERV DE ENGENHARIA S 4 003**** PROFESSOR 3 GRAU V 5 000**** 6 000**** ANALISTA DO BANCO CENTRAL E REFERENCIA_CARGO PADRAO_CARGO NIVEL_CARGO SIGLA_FUNCAO NIVEL_FUNCAO 1 NA NA 2 NA NA 3 NA NA 4 NA NA 5 NA NA FBC FDT1 6 NA IV NA FUNCAO CODIGO_ATIVIDADE 1 2 3 4 5 FUNCAO COMISSIONADA DO BANCO CENTRAL FDT1 6 ATIVIDADE OPCAO_FUNCAO_TOTAL 1 2 3 4 5 CHEFE DE SUBUNIDADE 6 UORG_LOTACAO COD_ORG_LOTACAO 1 NA 2 NA 3 NA 4 NA 5 DEPTO. CONTR. GEST. PLAN. SUPERVISAO 25201 6 DEPTO. CONTR. GEST. PLAN. SUPERVISAO 25201 ORG_LOTACAO COD_ORGSUP_LOTACAO ORGSUP_LOTACAO 1 NA 2 NA 3 NA 4 NA 5 BANCO CENTRAL DO BRASIL 25201 BANCO CENTRAL DO BRASIL 6 BANCO CENTRAL DO BRASIL 25201 BANCO CENTRAL DO BRASIL UORG_EXERCICIO COD_ORG_EXERCICIO 1 2 3 4 5 DEPTO. CONTR. GEST. PLAN. SUPERVISAO 25201 6 DEPTO. CONTR. GEST. PLAN. SUPERVISAO 25201 ORG_EXERCICIO COD_ORGSUP_EXERCICIO 1 2 3 4 5 BANCO CENTRAL DO BRASIL 25201 6 BANCO CENTRAL DO BRASIL 25201 ORGSUP_EXERCICIO TIPO_VINCULO SITUACAO_VINCULO 1 NA 2 NA 3 NA 4 NA 5 BANCO CENTRAL DO BRASIL 1 ATIVO PERMANENTE 6 BANCO CENTRAL DO BRASIL 2 ATIVO PERMANENTE COD_GRUPO_AFASTAMENTO COD_AFASTAMENTO DATA_INICIO_AFASTAMENTO 1 NA 2 NA 3 NA 4 NA 5 NA Não informada 6 NA Não informada DATA_TERMINO_AFASTAMENTO REGIME_JURIDICO JORNADA_DE_TRABALHO 1 2 3 4 5 Não informada REGIME JURIDICO UNICO 40 HORAS SEMANAIS 6 Não informada REGIME JURIDICO UNICO 40 HORAS SEMANAIS DATA_INGRESSO_CARGOFUNCAO DATA_NOMEACAO_CARGOFUNCAO 1 NA 2 NA 3 NA 4 NA 5 27/04/2012 NA 6 05/01/1998 NA DATA_INGRESSO_ORGAO DOCUMENTO_INGRESSO_SERVICOPUBLICO 1 2 3 4 5 000000000 6 000000000 DATA_DIPLOMA_INGRESSO_SERVICOPUBLICO DIPLOMA_INGRESSO_CARGOFUNCAO 1 NA 2 NA 3 NA 4 NA 5 Não informada NA 6 Não informada NA DIPLOMA_INGRESSO_CARGOFUNCAO.1 DIPLOMA_INGRESSO_SERVICOPUBLICO 1 2 3 4 5 6
2012/10/31 Jakson Alves de Aquino <jalvesaq@gmail.com>
2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>:
tbm sem sucesso:
ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16", as.is=T) ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16") ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE", as.is=T) ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE")
Se estiver usando um sistema operacional que tenha o programa sed instalado (qualquer distribuição do Linux), uma tentativa pode ser "limpar" o arquivo, removendo os 0s:
sed -e 's/\x00//g' teste.csv > teste2.csv sed -e 's/\xff\xfe//' teste2.csv > teste3.csv _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- "Small steps toward a much better world"
\begin{signature} Daniel Marcelino Land Phone 1+514 343 6111 #3799 3200 Jean Brillant, Office C5071 Montreal, QC; H3T 1N8 Canada \end{signature}
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660

Tentei isto, mas limpa 00 que não devem ser limpados. ex. em: 09 00 00 00 09 00 Apenas o 00 00 do meio deve ser modificado. o 09 00 é o TAB e deve ficar. 2012/10/31 Jakson Alves de Aquino <jalvesaq@gmail.com>
2012/10/31 Roberto de Pinho <robertodepinho@gmail.com>:
tbm sem sucesso:
ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16", as.is=T) ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16") ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE", as.is=T) ata1 <- read.delim(url,header=TRUE,sep="\t", fill=TRUE, fileEncoding = "UTF-16LE")
Se estiver usando um sistema operacional que tenha o programa sed instalado (qualquer distribuição do Linux), uma tentativa pode ser "limpar" o arquivo, removendo os 0s:
sed -e 's/\x00//g' teste.csv > teste2.csv sed -e 's/\xff\xfe//' teste2.csv > teste3.csv _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660

CMR: url = " https://doc-0c-9c-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7de... " #leitura incompleta x = read.table(url, header = T, sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T) #leitura com erro y = read.table(url, header = T, sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=F) 2012/10/31 Walmes Zeviani <walmeszeviani@gmail.com>
Não envie arquivos anexados nas mensagens. Forneça um CMR. Para isso hospede seu arquivo na web ou passe o dput() do mesmo. Leia o guia de postagem.
À disposição. Walmes.
========================================================================== Walmes Marques Zeviani LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W) Departamento de Estatística - Universidade Federal do Paraná fone: (+55) 41 3361 3573 VoIP: (3361 3600) 1053 1173 e-mail: walmes@ufpr.br skype: walmeszeviani twitter: @walmeszeviani homepage: http://www.leg.ufpr.br/~walmes linux user number: 531218 ==========================================================================
2012/10/31 Fátima Lima Paula <fatima.lima.paula@gmail.com>
Tente salvar o arquivo em .csv (separado por vírgulas) e leia pelo read.csv2. Acho que vai conseguir. Fátima
Em 31 de outubro de 2012 11:22, Roberto de Pinho < robertodepinho@gmail.com> escreveu:
Caros,
Estou tentando ler o arquivo de servidores disponível no portal da transparência.
(
http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... - mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T, sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
==== Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660

Obrigado, mas o arquivo é produzido por terceiros. 2012/10/31 Fátima Lima Paula <fatima.lima.paula@gmail.com>
Tente salvar o arquivo em .csv (separado por vírgulas) e leia pelo read.csv2. Acho que vai conseguir. Fátima
Em 31 de outubro de 2012 11:22, Roberto de Pinho <robertodepinho@gmail.com
escreveu:
Caros,
Estou tentando ler o arquivo de servidores disponível no portal da transparência.
(
http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... - mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T, sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
==== Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660

Veja os argumentos "encoding" é "fileEncoding" da função. Num momento livre, dê uma passadinha nas recomendações p a lista e evite enviar arquivos anexados às suas mensagens. b -- Sent from a mobile device. Please apologise for brevity, spelling and punctuation. On 31 Oct 2012 13:22, "Roberto de Pinho" <robertodepinho@gmail.com> wrote:
Caros,
Estou tentando ler o arquivo de servidores disponível no portal da transparência.
(
http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... - mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T, sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
==== Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

sim, estou usando fileEncoding, obrigado. 2012/10/31 Benilton Carvalho <beniltoncarvalho@gmail.com>
Veja os argumentos "encoding" é "fileEncoding" da função.
Num momento livre, dê uma passadinha nas recomendações p a lista e evite enviar arquivos anexados às suas mensagens.
b
-- Sent from a mobile device. Please apologise for brevity, spelling and punctuation. On 31 Oct 2012 13:22, "Roberto de Pinho" <robertodepinho@gmail.com> wrote:
Caros,
Estou tentando ler o arquivo de servidores disponível no portal da transparência.
(
http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoD... - mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T, sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
==== Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Roberto de Pinho robertodepinho@gmail.com http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
participantes (7)
-
Benilton Carvalho
-
Daniel Marcelino
-
Fátima Lima Paula
-
Jakson Alves de Aquino
-
Paulo Justiniano
-
Roberto de Pinho
-
Walmes Zeviani