Encoding usando read.csv.sql()

Pessoal, Alguém sabe como definir o encoding do arquivo usando a função read.csv.sql? Tenho um banco em CSV com 19Gb e preciso ler já aplicando alguns filtros, e pensei em fazer isso usando a função read.csv.sql, do pacote sqldf. Entretanto, preciso definir o encoding="latin1" ao ler essa base. Obrigado, Leonardo.

Conheces o pacote ff para ler arquivos grandes em csv? Edson Lira Estatístico Manaus-Amazonas Em Quinta-feira, 12 de Junho de 2014 9:32, Leonardo Aguirre <leoaguirre32@gmail.com> escreveu: Pessoal, Alguém sabe como definir o encoding do arquivo usando a função read.csv.sql? Tenho um banco em CSV com 19Gb e preciso ler já aplicando alguns filtros, e pensei em fazer isso usando a função read.csv.sql, do pacote sqldf. Entretanto, preciso definir o encoding="latin1" ao ler essa base. Obrigado, Leonardo. _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

conheço, mas não sei se ele vai aguentar, o banco tem mais de 70milhões de linhas e 50 variáveis. Uso um Mac com 12Gb de RAM...Você saberia me dizer se ele aguenta? Obrigado, Leonardo. Em 12 de junho de 2014 10:51, Edson Lira <edinhoestat@yahoo.com.br> escreveu:
Conheces o pacote ff para ler arquivos grandes em csv?
Edson Lira Estatístico Manaus-Amazonas
Em Quinta-feira, 12 de Junho de 2014 9:32, Leonardo Aguirre < leoaguirre32@gmail.com> escreveu:
Pessoal,
Alguém sabe como definir o encoding do arquivo usando a função read.csv.sql? Tenho um banco em CSV com 19Gb e preciso ler já aplicando alguns filtros, e pensei em fazer isso usando a função read.csv.sql, do pacote sqldf. Entretanto, preciso definir o encoding="latin1" ao ler essa base.
Obrigado,
Leonardo.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Cara, Eu usava o read.csv.sql(), mas ele era bastante demorado e dava erro com alguns bancos grandes (não tão grandes quanto os teus)... Uma solução foi usar o pacote RSQLite para transformar o .csv em um banco SQLite e depois chamar só as variáveis de interesse de acordo com critérios de interesse (via SQLite)... Da uma nessa postagem que fiz como ler bancos grandes: http://rcoster.blogspot.com.br/2014/02/lendo-grandes-bancos-de-dados.html []'s 2014-06-12 11:39 GMT-03:00 Leonardo Aguirre <leoaguirre32@gmail.com>:
conheço, mas não sei se ele vai aguentar, o banco tem mais de 70milhões de linhas e 50 variáveis. Uso um Mac com 12Gb de RAM...Você saberia me dizer se ele aguenta?
Obrigado,
Leonardo.
Em 12 de junho de 2014 10:51, Edson Lira <edinhoestat@yahoo.com.br> escreveu:
Conheces o pacote ff para ler arquivos grandes em csv?
Edson Lira Estatístico Manaus-Amazonas
Em Quinta-feira, 12 de Junho de 2014 9:32, Leonardo Aguirre < leoaguirre32@gmail.com> escreveu:
Pessoal,
Alguém sabe como definir o encoding do arquivo usando a função read.csv.sql? Tenho um banco em CSV com 19Gb e preciso ler já aplicando alguns filtros, e pensei em fazer isso usando a função read.csv.sql, do pacote sqldf. Entretanto, preciso definir o encoding="latin1" ao ler essa base.
Obrigado,
Leonardo.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Ok, obrigado Rodrigo! Leonardo. Em 12 de junho de 2014 11:45, Rodrigo Coster <rcoster@gmail.com> escreveu:
Cara,
Eu usava o read.csv.sql(), mas ele era bastante demorado e dava erro com alguns bancos grandes (não tão grandes quanto os teus)... Uma solução foi usar o pacote RSQLite para transformar o .csv em um banco SQLite e depois chamar só as variáveis de interesse de acordo com critérios de interesse (via SQLite)...
Da uma nessa postagem que fiz como ler bancos grandes: http://rcoster.blogspot.com.br/2014/02/lendo-grandes-bancos-de-dados.html
[]'s
2014-06-12 11:39 GMT-03:00 Leonardo Aguirre <leoaguirre32@gmail.com>:
conheço, mas não sei se ele vai aguentar, o banco tem mais de 70milhões de
linhas e 50 variáveis. Uso um Mac com 12Gb de RAM...Você saberia me dizer se ele aguenta?
Obrigado,
Leonardo.
Em 12 de junho de 2014 10:51, Edson Lira <edinhoestat@yahoo.com.br> escreveu:
Conheces o pacote ff para ler arquivos grandes em csv?
Edson Lira Estatístico Manaus-Amazonas
Em Quinta-feira, 12 de Junho de 2014 9:32, Leonardo Aguirre < leoaguirre32@gmail.com> escreveu:
Pessoal,
Alguém sabe como definir o encoding do arquivo usando a função read.csv.sql? Tenho um banco em CSV com 19Gb e preciso ler já aplicando alguns filtros, e pensei em fazer isso usando a função read.csv.sql, do pacote sqldf. Entretanto, preciso definir o encoding="latin1" ao ler essa base.
Obrigado,
Leonardo.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

a resposta e' 'sim'... a detalhada e': 'sim, se vc tiver espaco suficiente em disco' o jeito de saber e' testando. Em 12 de junho de 2014 11:39, Leonardo Aguirre <leoaguirre32@gmail.com> escreveu:
conheço, mas não sei se ele vai aguentar, o banco tem mais de 70milhões de linhas e 50 variáveis. Uso um Mac com 12Gb de RAM...Você saberia me dizer se ele aguenta?
Obrigado,
Leonardo.
Em 12 de junho de 2014 10:51, Edson Lira <edinhoestat@yahoo.com.br> escreveu:
Conheces o pacote ff para ler arquivos grandes em csv?
Edson Lira Estatístico Manaus-Amazonas
Em Quinta-feira, 12 de Junho de 2014 9:32, Leonardo Aguirre < leoaguirre32@gmail.com> escreveu:
Pessoal,
Alguém sabe como definir o encoding do arquivo usando a função read.csv.sql? Tenho um banco em CSV com 19Gb e preciso ler já aplicando alguns filtros, e pensei em fazer isso usando a função read.csv.sql, do pacote sqldf. Entretanto, preciso definir o encoding="latin1" ao ler essa base.
Obrigado,
Leonardo.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- [image: Benilton Carvalho on about.me] Benilton Carvalho about.me/benilton <http://about.me/benilton>

É, realmente funciona com o pacote ff. Consegui ler as 70 milhões de linhas e 50 variáveis em pouco menos de 2 horas. Abraços, Leonardo. Em 12 de junho de 2014 12:39, Benilton Carvalho <beniltoncarvalho@gmail.com> escreveu:
a resposta e' 'sim'...
a detalhada e': 'sim, se vc tiver espaco suficiente em disco'
o jeito de saber e' testando.
Em 12 de junho de 2014 11:39, Leonardo Aguirre <leoaguirre32@gmail.com> escreveu:
conheço, mas não sei se ele vai aguentar, o banco tem mais de 70milhões de
linhas e 50 variáveis. Uso um Mac com 12Gb de RAM...Você saberia me dizer se ele aguenta?
Obrigado,
Leonardo.
Em 12 de junho de 2014 10:51, Edson Lira <edinhoestat@yahoo.com.br> escreveu:
Conheces o pacote ff para ler arquivos grandes em csv?
Edson Lira Estatístico Manaus-Amazonas
Em Quinta-feira, 12 de Junho de 2014 9:32, Leonardo Aguirre < leoaguirre32@gmail.com> escreveu:
Pessoal,
Alguém sabe como definir o encoding do arquivo usando a função read.csv.sql? Tenho um banco em CSV com 19Gb e preciso ler já aplicando alguns filtros, e pensei em fazer isso usando a função read.csv.sql, do pacote sqldf. Entretanto, preciso definir o encoding="latin1" ao ler essa base.
Obrigado,
Leonardo.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
--
[image: Benilton Carvalho on about.me]
Benilton Carvalho about.me/benilton <http://about.me/benilton>
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Leonardo, Sei que já tem uma boa solução, mas algo possível é alterar o encoding no terminal do mac/linux. file -i arquivo_desejado.csv # linux file -I arquivo_desejado.csv # Mac iconv -f ISO-8859-1 -t UTF-8 arquivo-iso.csv > arquivo-utf.csv Como seu arquivo é grande isso iria demorar muito. Att Roney

Obrigado Roney Abraço, Leonardo. Em 14 de junho de 2014 10:18, Roney Fraga Souza <roneyfraga@gmail.com> escreveu:
Leonardo,
Sei que já tem uma boa solução, mas algo possível é alterar o encoding no terminal do mac/linux.
file -i arquivo_desejado.csv # linux file -I arquivo_desejado.csv # Mac iconv -f ISO-8859-1 -t UTF-8 arquivo-iso.csv > arquivo-utf.csv
Como seu arquivo é grande isso iria demorar muito.
Att Roney _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
participantes (5)
-
Benilton Carvalho
-
Edson Lira
-
Leonardo Aguirre
-
Rodrigo Coster
-
Roney Fraga Souza