
Senhores, como já manifestei em outras mensagens, gosto e acho útil criar algoritmos (spiders, boots, etc... tem muitos nomes) que buscam dados não estruturados na internet e depois organizam esses dados em tabelas para posterior análise. Não vejo muito o R sendo utilizado com essa finalidade de extrair dados de forma rotineira. Gostaria de aprender mais sobre o curl ( http://curl.haxx.se/), que no R pode ser utilizado através do pacote RCurl. O link acima apresenta um bom conteúdo mas não para leigos, e tenho algumas dificuldades em digerir o material. Algum de vocês conhece o assunto e pode indicar outros materiais, tutoriais, portais de conhecimento, wikis, etc, envolvendo curl? Não precisa ser necessariamente ligado ao R. Quem sabe reunindo mais fontes eu possa evoluir o conhecimento atual. Abraços, Paulo

Dê uma olhada no pacote XML, funções xpathSApply(), readHTMLTable(), htmlTreeParse() São bem úteis pro que você precisa. Abraço, Leonardo. Em 25 de julho de 2014 13:02, Paulo Nogueira Starzynski <paulons@gmail.com> escreveu:
Senhores, como já manifestei em outras mensagens, gosto e acho útil criar algoritmos (spiders, boots, etc... tem muitos nomes) que buscam dados não estruturados na internet e depois organizam esses dados em tabelas para posterior análise.
Não vejo muito o R sendo utilizado com essa finalidade de extrair dados de forma rotineira. Gostaria de aprender mais sobre o curl ( http://curl.haxx.se/), que no R pode ser utilizado através do pacote RCurl. O link acima apresenta um bom conteúdo mas não para leigos, e tenho algumas dificuldades em digerir o material.
Algum de vocês conhece o assunto e pode indicar outros materiais, tutoriais, portais de conhecimento, wikis, etc, envolvendo curl? Não precisa ser necessariamente ligado ao R.
Quem sabe reunindo mais fontes eu possa evoluir o conhecimento atual.
Abraços, Paulo
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Paulo, boa tarde! Uma opção interessante é o curso "Getting and Cleaning Data" oferecido gratuitamente no Coursera. É voltado ao uso do R para obter e tratar dados, inclusive da web. O curso tem duração de 4 semanas e há ofertas mensais. A próxima turma deve iniciar nos próximos dias. Veja mais no site do curso: <https://www.coursera.org/course/getdata>. Também recomendo um material complementar, que particularmente acho muito bom, para ajudar no tratamento dos dados obtidos (mais a parte do 'Cleaning'): <https://www.stat.auckland.ac.nz/~paul/ItDT/> <https://www.stat.auckland.ac.nz/~paul/ItDT/HTML/> Éder Comunello <c <comunello.eder@gmail.com>omunello.eder@gmail.com> Dourados, MS - [22 16.5'S, 54 49'W]

Tem um livro que eu acho bem interessante. http://www.amazon.com/XML-Web-Technologies-Data-Sciences/dp/1461478995 Em 25/07/2014 13:02, "Paulo Nogueira Starzynski" <paulons@gmail.com> escreveu:
Senhores, como já manifestei em outras mensagens, gosto e acho útil criar algoritmos (spiders, boots, etc... tem muitos nomes) que buscam dados não estruturados na internet e depois organizam esses dados em tabelas para posterior análise.
Não vejo muito o R sendo utilizado com essa finalidade de extrair dados de forma rotineira. Gostaria de aprender mais sobre o curl ( http://curl.haxx.se/), que no R pode ser utilizado através do pacote RCurl. O link acima apresenta um bom conteúdo mas não para leigos, e tenho algumas dificuldades em digerir o material.
Algum de vocês conhece o assunto e pode indicar outros materiais, tutoriais, portais de conhecimento, wikis, etc, envolvendo curl? Não precisa ser necessariamente ligado ao R.
Quem sabe reunindo mais fontes eu possa evoluir o conhecimento atual.
Abraços, Paulo
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Leonardo, conheço as funções e já utilizei algumas vezes. O que tenho um pouco de dificuldade é entender melhor os argumentos da função, que vão além do básico. Éder, já fiz alguns cursos do Coursera e acho muito legal. Obrigado pela dica. Marcos, não conhecia esse livro. Esse é recente e parece ser bastante atual! O preço é um pouco salgado. Você tem ele e acha que vale o investimento? Abraços, Paulo Em 25 de julho de 2014 19:20, Marcos Silva <marcosfs2006@gmail.com> escreveu:
Tem um livro que eu acho bem interessante.
http://www.amazon.com/XML-Web-Technologies-Data-Sciences/dp/1461478995 Em 25/07/2014 13:02, "Paulo Nogueira Starzynski" <paulons@gmail.com> escreveu:
Senhores, como já manifestei em outras mensagens, gosto e acho útil criar algoritmos (spiders, boots, etc... tem muitos nomes) que buscam dados não estruturados na internet e depois organizam esses dados em tabelas para posterior análise.
Não vejo muito o R sendo utilizado com essa finalidade de extrair dados de forma rotineira. Gostaria de aprender mais sobre o curl ( http://curl.haxx.se/), que no R pode ser utilizado através do pacote RCurl. O link acima apresenta um bom conteúdo mas não para leigos, e tenho algumas dificuldades em digerir o material.
Algum de vocês conhece o assunto e pode indicar outros materiais, tutoriais, portais de conhecimento, wikis, etc, envolvendo curl? Não precisa ser necessariamente ligado ao R.
Quem sabe reunindo mais fontes eu possa evoluir o conhecimento atual.
Abraços, Paulo
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Incluindo mais um link com um resumo de pacotes que podem ser úteis para quem se aventura nessa área com o R: http://cran.r-project.org/web/views/WebTechnologies.html abs Paulo Em 29 de julho de 2014 14:35, Paulo Nogueira Starzynski <paulons@gmail.com> escreveu:
Leonardo, conheço as funções e já utilizei algumas vezes. O que tenho um pouco de dificuldade é entender melhor os argumentos da função, que vão além do básico.
Éder, já fiz alguns cursos do Coursera e acho muito legal. Obrigado pela dica.
Marcos, não conhecia esse livro. Esse é recente e parece ser bastante atual! O preço é um pouco salgado. Você tem ele e acha que vale o investimento?
Abraços, Paulo
Em 25 de julho de 2014 19:20, Marcos Silva <marcosfs2006@gmail.com> escreveu:
Tem um livro que eu acho bem interessante.
http://www.amazon.com/XML-Web-Technologies-Data-Sciences/dp/1461478995 Em 25/07/2014 13:02, "Paulo Nogueira Starzynski" <paulons@gmail.com> escreveu:
Senhores, como já manifestei em outras mensagens, gosto e acho útil criar algoritmos (spiders, boots, etc... tem muitos nomes) que buscam dados não estruturados na internet e depois organizam esses dados em tabelas para posterior análise.
Não vejo muito o R sendo utilizado com essa finalidade de extrair dados de forma rotineira. Gostaria de aprender mais sobre o curl ( http://curl.haxx.se/), que no R pode ser utilizado através do pacote RCurl. O link acima apresenta um bom conteúdo mas não para leigos, e tenho algumas dificuldades em digerir o material.
Algum de vocês conhece o assunto e pode indicar outros materiais, tutoriais, portais de conhecimento, wikis, etc, envolvendo curl? Não precisa ser necessariamente ligado ao R.
Quem sabe reunindo mais fontes eu possa evoluir o conhecimento atual.
Abraços, Paulo
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Paulo, eu comprei ele a acho que valeu o investimento. Em 29/07/2014 14:35, "Paulo Nogueira Starzynski" <paulons@gmail.com> escreveu:
Leonardo, conheço as funções e já utilizei algumas vezes. O que tenho um pouco de dificuldade é entender melhor os argumentos da função, que vão além do básico.
Éder, já fiz alguns cursos do Coursera e acho muito legal. Obrigado pela dica.
Marcos, não conhecia esse livro. Esse é recente e parece ser bastante atual! O preço é um pouco salgado. Você tem ele e acha que vale o investimento?
Abraços, Paulo
Em 25 de julho de 2014 19:20, Marcos Silva <marcosfs2006@gmail.com> escreveu:
Tem um livro que eu acho bem interessante.
http://www.amazon.com/XML-Web-Technologies-Data-Sciences/dp/1461478995 Em 25/07/2014 13:02, "Paulo Nogueira Starzynski" <paulons@gmail.com> escreveu:
Senhores, como já manifestei em outras mensagens, gosto e acho útil criar algoritmos (spiders, boots, etc... tem muitos nomes) que buscam dados não estruturados na internet e depois organizam esses dados em tabelas para posterior análise.
Não vejo muito o R sendo utilizado com essa finalidade de extrair dados de forma rotineira. Gostaria de aprender mais sobre o curl ( http://curl.haxx.se/), que no R pode ser utilizado através do pacote RCurl. O link acima apresenta um bom conteúdo mas não para leigos, e tenho algumas dificuldades em digerir o material.
Algum de vocês conhece o assunto e pode indicar outros materiais, tutoriais, portais de conhecimento, wikis, etc, envolvendo curl? Não precisa ser necessariamente ligado ao R.
Quem sabe reunindo mais fontes eu possa evoluir o conhecimento atual.
Abraços, Paulo
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Obrigado Marcos. Farei o mesmo e depois coloco aqui minhas impressões sobre o livro. abs Paulo Em 29 de julho de 2014 23:01, Marcos Silva <marcosfs2006@gmail.com> escreveu:
Paulo, eu comprei ele a acho que valeu o investimento. Em 29/07/2014 14:35, "Paulo Nogueira Starzynski" <paulons@gmail.com> escreveu:
Leonardo,
conheço as funções e já utilizei algumas vezes. O que tenho um pouco de dificuldade é entender melhor os argumentos da função, que vão além do básico.
Éder, já fiz alguns cursos do Coursera e acho muito legal. Obrigado pela dica.
Marcos, não conhecia esse livro. Esse é recente e parece ser bastante atual! O preço é um pouco salgado. Você tem ele e acha que vale o investimento?
Abraços, Paulo
Em 25 de julho de 2014 19:20, Marcos Silva <marcosfs2006@gmail.com> escreveu:
Tem um livro que eu acho bem interessante.
http://www.amazon.com/XML-Web-Technologies-Data-Sciences/dp/1461478995 Em 25/07/2014 13:02, "Paulo Nogueira Starzynski" <paulons@gmail.com> escreveu:
Senhores, como já manifestei em outras mensagens, gosto e acho útil criar algoritmos (spiders, boots, etc... tem muitos nomes) que buscam dados não estruturados na internet e depois organizam esses dados em tabelas para posterior análise.
Não vejo muito o R sendo utilizado com essa finalidade de extrair dados de forma rotineira. Gostaria de aprender mais sobre o curl ( http://curl.haxx.se/), que no R pode ser utilizado através do pacote RCurl. O link acima apresenta um bom conteúdo mas não para leigos, e tenho algumas dificuldades em digerir o material.
Algum de vocês conhece o assunto e pode indicar outros materiais, tutoriais, portais de conhecimento, wikis, etc, envolvendo curl? Não precisa ser necessariamente ligado ao R.
Quem sabe reunindo mais fontes eu possa evoluir o conhecimento atual.
Abraços, Paulo
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
participantes (4)
-
Leonardo Aguirre
-
Marcos Silva
-
Paulo Nogueira Starzynski
-
Éder Comunello