<div dir="ltr"><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">Saudações,<br><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">Preciso ler os dados de uma página mas da forma tradicional, usando XML para o exame e retenção dos dados eu não consigo. Os dados são de altura, idade, peso, enfim, de jogadores de futebol do campeonato brasileiro. Estão disponÃveis nessa página, por exemplo, para o Fluminense<br>
<br><i><a href="http://www.whoscored.com/Teams/1232">http://www.whoscored.com/Teams/1232</a></i><br><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">O que me interessa é a tabela com o nome dos jogadores, dados biométricos e esportivos. Um selecionar e copiar dessa porção que me interessa traz esse conteúdo.<br>
</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br><span style="font-family:courier new,monospace">R       Name    Pos    Age    cm    kg    Apps    Goal    A    Yel    Red    SpG    PS%    AW    MoM    Rt<br>
1      Rafael Sóbis   AM(LR),FW   28   172   67   2   2   -   -   -   3.5   78.8   1.5   -   7.82<br>2      Carlinhos   D(L)   27   176   72   2   -   -   -   -   1   81.1   1   1   7.57<br>
3      Gum   D(C)   28   189   86   2   -   -   -   -   0.5   75.2   2.5   1   7.51<br>4      Wagner   AM(C)   29   172   71   2   -   -   1   -   3   90   -   -   7.43<br>5      Bruno Vieira   D(R)   28   178   69   2   -   -   -   -   -   85.9   1.5   -   7.23<br>
6      DarÃo Conca   M   30   167   58   2   -   -   1   -   3   85.9   -   -   7.21<br>7      Fred   FW   30   185   75   2   1   2   -   -   3   75.6   1.5   -   7.19<br>8      Diguinho   DM(C)   31   171   70   2   -   -   -   -   0.5   84.7   1.5   -   7.14<br>
9      Elivelton   D   21   179   81   2   -   -   -   -   -   74.6   0.5   -   6.86<br>10      Diego Cavalieri   GK   31   191   86   2   -   -   -   -   -   46.2   -   -   6.69<br>11      Jean   DM(C)   27   170   70   2   -   -   -   -   1   88.6   -   -   6.61<br>
12      Biro Biro   AM(L)   19   164   55   0(1)   -   -   -   -   1   60   -   -   6.47<br>13      Edwin Valencia   M   29   181   85   0(2)   -   -   -   -   -   81.8   1   -   6.31<br>14      Rafinha   M(R)   20   177   74   0(1)   -   -   -   -   -   50   -   -   6<br>
15      Walter   FW   24   178   88   0(1)   -   -   -   -   -   60   -   -   5.95<br>16      Felipe   GK   26   193   90   -   -   -   -   -   -   -   -   -   -<br>17      Chiquinho   AM(C)   24   170   69   -   -   -   -   -   -   -   -   -   -<br>
18      Kenedy   FW   18   182   77   -   -   -   -   -   -   -   -   -   -<br>19      Wellington Carvalho   D   21   185   84   -   -   -   -   -   -   -   -   -   -<br>20      Wellington Silva   D   26   177   64   -   -   -   -   -   -   -   -   -   -</span><br>
<br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">Quando eu peço o código fonte da página (acesso pelo botão direito do mouse no navegador firefox), não aparecem esses valores lá. Se aparecessem dava para usar o XML. Pelo jeito os dados são trazidos por uma consulta à uma base de dados on the fly para colocar na página. A única forma que eu sei de pegar é copiando para área de transferência. <br>
</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">Eu tenho feito assim:<br>1. Abro a página de cada time no navegador e dou ctrol+a para selecionar todo o conteúdo;<br>
</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">2. Dou ctrol+c para copiar o conteúdo para área de transferência;<br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">
3. Dou control+v dentro de um arquivo texto;<br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">4. Leio o arquivo texto no R, elimino a sujeira, organizo em colunas até chegar um data.frame.<br>
<br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">O que eu quero é substituir passos gráficos de 1 à 3 por algum comando do teminal linux que pudesse pegar a URL que eu passar e salvar o conteúdo em um aquivo que eu der o nome. Com isso elimino intervenção humana e rapidamente baixo todos os times, de todos os torneios para ter excelentes dados para trabalhar em aula. Se alguém se interessar, os dados da liga européia (56 times) que peguei no braço estão em<br>
<br><i><a href="http://www.leg.ufpr.br/~walmes/data/euro_football_players.txt">http://www.leg.ufpr.br/~walmes/data/euro_football_players.txt</a></i><br><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">
Dei umas googladas e vi alguns comandos que, infelizmente, ainda não trazem o que eu preciso, como<br><br><b><span style="font-family:courier new,monospace"><i>sudo apt-get install lynx</i></span></b><br><b><span style="font-family:courier new,monospace"><i>lynx -dump <a href="http://www.whoscored.com/Teams/1232">http://www.whoscored.com/Teams/1232</a></i></span></b><br>
<br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">O recorte do resultado do comando está abaixo.<br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br><span style="font-family:courier new,monospace">  View:<br>
         [41]Overall<br>         [42]Home<br>         [43]Away<br><br>  R Name Pos Age cm kg Apps Goal A Yel Red SpG PS% AW MoM Rt       <------ a tabela que eu queria era pra estar<br>  *Players shaded are players who are not currently active in team. <------ entre essas duas linhas, mas não.<br>
  (Loaned, sold, etc..)<br><br>  Tournaments:<br>         [44]Brasileirão<br><br>  View:<br>         [45]Overall<br>         [46]Home<br>         [47]Away<br></span><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">
Caso alguém tenha algum caminho a apontar, fico grato.<br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">Walmes.<br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">
<br clear="all"></div><div><div dir="ltr"><span style="font-family:trebuchet ms,sans-serif">==========================================================================</span><br style="font-family:trebuchet ms,sans-serif">
<span style="font-family:trebuchet ms,sans-serif">Walmes Marques Zeviani</span><br style="font-family:trebuchet ms,sans-serif"><span style="font-family:trebuchet ms,sans-serif">LEG (Laboratório de EstatÃstica e Geoinformação, 25.450418 S, 49.231759 W)</span><br style="font-family:trebuchet ms,sans-serif">
<span style="font-family:trebuchet ms,sans-serif">Departamento de EstatÃstica - Universidade Federal do Paraná</span><br style="font-family:trebuchet ms,sans-serif"><span style="font-family:trebuchet ms,sans-serif">fone: (+55) 41 3361 3573</span><br style="font-family:trebuchet ms,sans-serif">
<span style="font-family:trebuchet ms,sans-serif">skype: walmeszeviani<br style="font-family:trebuchet ms,sans-serif"></span><span style="font-family:trebuchet ms,sans-serif">homepage: <a href="http://www.leg.ufpr.br/%7Ewalmes" target="_blank">http://www.leg.ufpr.br/~walmes</a></span><br style="font-family:trebuchet ms,sans-serif">
<span style="font-family:trebuchet ms,sans-serif">linux user number: 531218</span><br style="font-family:trebuchet ms,sans-serif"><span style="font-family:trebuchet ms,sans-serif">==========================================================================</span></div>
</div>
</div>