[R-br] Problema ao ler arquivo UTF-16 com nulos

Roberto de Pinho robertodepinho em gmail.com
Quarta Outubro 31 19:09:31 BRST 2012


Caro Daniel,

obrigado, vou tentar amanhã.

Acho estranho ter funcionado por conta do encoding, com latin1, eu sempre
recebia texto não aproveitável.


abs
Roberto



2012/10/31 Daniel Marcelino <dmsilva.br em gmail.com>

> Resolvido:
> você precisa acrescentar os seguintes paramentros nos comandos que eu
> enviei anteriormente:
>
> fileEncoding = "latin1", as.is = TRUE
>
>
> Você pode também abrir os dados de seu computador assim:
>
> data1 <- read.delim(file.choose(),header=TRUE,sep="\t",  fill=TRUE,
> fileEncoding = "latin1", as.is = TRUE)
>
>
>
> 2012/10/31 Daniel Marcelino <dmsilva.br em gmail.com>
>
>> E se tudo der certo,
>> corte a conexao depois.
>>
>> unlink(temp)
>>
>>
>>
>> 2012/10/31 Daniel Marcelino <dmsilva.br em gmail.com>
>>
>>> Tenta assim:
>>>
>>>
>>> temp <- tempfile()
>>> > download.file("
>>> http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0
>>> ",temp)
>>> trying URL '
>>> http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0
>>> '
>>> Content type 'application/x-zip-compressed' length 284100659 bytes
>>> (270.9 Mb)
>>> opened URL
>>>
>>> ===============================================================================
>>> =====
>>>
>>> data1 <- read.delim(unz(temp,
>>> "20120930_Servidores.csv"),header=TRUE,sep="\t",  fill=TRUE)
>>>
>>> data2 <- read.delim(unz(temp,
>>> "20120930_Observacoes_Servidores.csv"),header=TRUE,sep="\t",  fill=TRUE)
>>>
>>> data3 <- read.delim(unz(temp,
>>> "20120930_Remuneracao_Servidores.csv"),header=TRUE,sep="\t",  fill=TRUE)
>>>
>>> data4 <- read.delim(unz(temp,
>>> "20120930_Jetom_Servidores.csv"),header=TRUE,sep="\t",  fill=TRUE)
>>>
>>>
>>> Daniel
>>>
>>>
>>>
>>> 2012/10/31 Roberto de Pinho <robertodepinho em gmail.com>
>>>
>>>> obrigado.
>>>>
>>>>
>>>>
>>>> 2012/10/31 Paulo Justiniano <paulojus em leg.ufpr.br>
>>>>
>>>>> O site do leg está em uma rapida manutencao e já retorna
>>>>>
>>>>>
>>>>>
>>>>> On Wed, 31 Oct 2012, Roberto de Pinho wrote:
>>>>>
>>>>>  o guia foi movido?
>>>>>> http://www.leg.ufpr.br/r-br-**guia <http://www.leg.ufpr.br/r-br-guia>
>>>>>>
>>>>>>                                                                Not
>>>>>> Found
>>>>>>
>>>>>> The requested URL /r-br-guia was not found on this server.
>>>>>>
>>>>>>
>>>>>>
>>>>>> 2012/10/31 Walmes Zeviani <walmeszeviani em gmail.com>
>>>>>>       Não envie arquivos anexados nas mensagens. Forneça um CMR. Para
>>>>>> isso hospede seu arquivo na web ou passe o dput() do mesmo.
>>>>>>       Leia o guia de postagem.
>>>>>>
>>>>>>       À disposição.
>>>>>>       Walmes.
>>>>>>
>>>>>>       ==============================**==============================*
>>>>>> *==============
>>>>>>       Walmes Marques Zeviani
>>>>>>       LEG (Laboratório de Estatística e Geoinformação, 25.450418 S,
>>>>>> 49.231759 W)
>>>>>>       Departamento de Estatística - Universidade Federal do Paraná
>>>>>>       fone: (+55) 41 3361 3573
>>>>>>       VoIP: (3361 3600) 1053 1173
>>>>>>       e-mail: walmes em ufpr.br
>>>>>>       skype: walmeszeviani
>>>>>>       twitter: @walmeszeviani
>>>>>>       homepage: http://www.leg.ufpr.br/~walmes
>>>>>>       linux user number: 531218
>>>>>>       ==============================**==============================*
>>>>>> *==============
>>>>>>
>>>>>>
>>>>>>       2012/10/31 Fátima Lima Paula <fatima.lima.paula em gmail.com>
>>>>>>             Tente salvar o arquivo em .csv (separado por vírgulas) e
>>>>>> leia peloread.csv2.
>>>>>> Acho que vai conseguir.
>>>>>> Fátima
>>>>>>
>>>>>> Em 31 de outubro de 2012 11:22, Roberto de Pinho <
>>>>>> robertodepinho em gmail.com> escreveu:
>>>>>>       Caros,
>>>>>> Estou tentando ler o arquivo de servidores disponível no portal da
>>>>>> transparência.
>>>>>>
>>>>>> (
>>>>>> http://arquivos.**portaldatransparencia.gov.br/**
>>>>>> PortalTransparenciaEscolheTipo**DePlanilha.asp?origem=**
>>>>>> Servidores&Planilha=0<http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0>
>>>>>>  - mais de 200MB)
>>>>>>
>>>>>> É um CSV  codificado em UTF-16.
>>>>>>
>>>>>> No entanto, ele reconhece prematuramente fins de linhas em algumas
>>>>>> linhas quando encontra campos com nulo [00 00]. Há
>>>>>> valores não nulos não sendo lidos após campos nulos que provocam
>>>>>> o reconhecimento de fim de linha.
>>>>>>
>>>>>> Alguém saberia como poderia fazer com que o R possa ler este arquivo?
>>>>>>
>>>>>> Estou lendo o arquivo com:
>>>>>>
>>>>>> servidores = read.table("teste.csv", header = T, sep="\t",quote="",**
>>>>>> stringsAsFactors=T,**fileEncoding="UTF-16", fill=T)
>>>>>>
>>>>>> o fill=T estou sando para evitar que dê erro de diferente numero de
>>>>>> campos.
>>>>>>
>>>>>> Envio, em anexo, um extrato das primeiras linhas do arquivo.
>>>>>>
>>>>>>
>>>>>> Obrigado pela atenção.
>>>>>>
>>>>>> ====
>>>>>> Sequencia de bytes que provocam o reconhecimento de nova linha:
>>>>>>
>>>>>> 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00
>>>>>> 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00
>>>>>> 00 09 00 00 00 09 00 00 00 09 00
>>>>>>
>>>>>>
>>>>>>
>>>>>>
>>>>>>
>>>>>>
>>>>>> --
>>>>>> Roberto de Pinho
>>>>>> robertodepinho em gmail.com
>>>>>> http://www.ascoisas.com http://lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
>>>>>>
>>>>>>
>>>>>> ______________________________**_________________
>>>>>> R-br mailing list
>>>>>> R-br em listas.c3sl.ufpr.br
>>>>>> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br>
>>>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>)
>>>>>> e forneça código mínimo reproduzível.
>>>>>>
>>>>>>
>>>>>>
>>>>>> ______________________________**_________________
>>>>>> R-br mailing list
>>>>>> R-br em listas.c3sl.ufpr.br
>>>>>> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br>
>>>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>)
>>>>>> e forneça código mínimo reproduzível.
>>>>>>
>>>>>>
>>>>>>
>>>>>> ______________________________**_________________
>>>>>> R-br mailing list
>>>>>> R-br em listas.c3sl.ufpr.br
>>>>>> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br>
>>>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>)
>>>>>> e forneça código mínimo reproduzível.
>>>>>>
>>>>>>
>>>>>>
>>>>>>
>>>>>> --
>>>>>> Roberto de Pinho
>>>>>> robertodepinho em gmail.com
>>>>>> http://www.ascoisas.comhttp://**lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
>>>>>>
>>>>>>
>>>>>>
>>>>> _______________________________________________
>>>>> R-br mailing list
>>>>> R-br em listas.c3sl.ufpr.br
>>>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>>>> código mínimo reproduzível.
>>>>>
>>>>
>>>>
>>>>
>>>> --
>>>> Roberto de Pinho
>>>> robertodepinho em gmail.com
>>>> http://www.ascoisas.com
>>>> http://lattes.cnpq.br/4816166073408660
>>>>
>>>>
>>>> _______________________________________________
>>>> R-br mailing list
>>>> R-br em listas.c3sl.ufpr.br
>>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>>> código mínimo reproduzível.
>>>>
>>>
>>>
>>
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>



-- 
Roberto de Pinho
robertodepinho em gmail.com
http://www.ascoisas.com
http://lattes.cnpq.br/4816166073408660
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20121031/039c7434/attachment.html>


Mais detalhes sobre a lista de discussão R-br