<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
  <title></title>
</head>
<body bgcolor="#ffffff" text="#000000">
Leandro,<br>
<br>
Não sei se será útil para você. Mas saber quais frases contém
determinado conteúdo pode ser feito da seguinte maneira:<br>
<br>
frases <- c( "Eu tenho um gato", "Meucachorro é legal", "Meu
cachorro é legal", "Meucachorroélegal" );<br>
frases[which( regexpr( "(.)*cachorro(.)*", frases ) == 1)];<br>
<br>
Com esses comandos serão exibidas somente as frases que possuem a
cadeia cachorro.<br>
<br>
Sobre os erros de grafia você pode procurar sobre busca fonética. Isso
é uma técnica utilizada para melhorar a performance de consultas e para
preparar o sistema para buscar dados mesmo quando a entrada possuir
erros. Por exemplo, se eu buscar Tonny, o sistema retornará Toni,
Tonni, Tony e assim por diante. Porém, essa técnica eu não sei se
possui implementação em R (sei que existe em java e php).<br>
<br>
Espero que te ajude.<br>
<br>
Att.<br>
<br>
On 06/07/2011 03:00 PM, Leandro Marino wrote:
<blockquote
 cite="mid:!&!AAAAAAAAAAAYAAAAAAAAAEadxqYXQLlLmuUnwe+aKQfCgAAAEAAAAFY3jSjbs+9AkiFciXEJUfcBAAAAAA==@cesgranrio.org.br"
 type="cite">
  <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  <meta name="Generator" content="Microsoft Word 12 (filtered medium)">
<!--[if !mso]>
<style>
v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style>
<![endif]-->
  <style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:Wingdings;
        panose-1:5 0 0 0 0 0 0 0 0 0;}
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:"Arial Narrow";
        panose-1:2 11 5 6 2 2 2 3 2 4;}
@font-face
        {font-family:Webdings;
        panose-1:5 3 1 2 1 5 9 6 7 3;}
@font-face
        {font-family:Consolas;
        panose-1:2 11 6 9 2 2 4 3 2 4;}
@font-face
        {font-family:"Tw Cen MT";
        panose-1:2 11 6 2 2 1 4 2 6 3;}
@font-face
        {font-family:"Trebuchet MS";
        panose-1:2 11 6 3 2 2 2 2 2 4;}
@font-face
        {font-family:"Palatino Linotype";
        panose-1:2 4 5 2 5 5 5 3 3 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p
        {mso-style-priority:99;
        mso-margin-top-alt:auto;
        margin-right:0cm;
        mso-margin-bottom-alt:auto;
        margin-left:0cm;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
span.EstiloDeEmail18
        {mso-style-type:personal-reply;
        font-family:"Arial Narrow","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page Section1
        {size:612.0pt 792.0pt;
        margin:70.85pt 3.0cm 70.85pt 3.0cm;}
div.Section1
        {page:Section1;}
-->
  </style><!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
  <div class="Section1">
  <p class="MsoNormal"><span
 style="font-size: 11pt; font-family: "Arial Narrow","sans-serif"; color: rgb(31, 73, 125);">Gustavo,
obrigado por ajudar.<o:p></o:p></span></p>
  <p class="MsoNormal"><span
 style="font-size: 11pt; font-family: "Arial Narrow","sans-serif"; color: rgb(31, 73, 125);"><o:p> </o:p></span></p>
  <p class="MsoNormal"><span
 style="font-size: 11pt; font-family: "Arial Narrow","sans-serif"; color: rgb(31, 73, 125);">Aproveitando
a função que estou desenvolvendo, gostaria de saber
como localizar determinado texto no meio de uma frase. Ex.: Quero todos
que
tenham citado a palavra “cachorro” em qualquer posição de uma palavra.
Acredito
que seria possível, mas não sei trabalhar com expressões regulares.<o:p></o:p></span></p>
  <p class="MsoNormal"><span
 style="font-size: 11pt; font-family: "Arial Narrow","sans-serif"; color: rgb(31, 73, 125);"><o:p> </o:p></span></p>
  <p class="MsoNormal"><span
 style="font-size: 11pt; font-family: "Arial Narrow","sans-serif"; color: rgb(31, 73, 125);"><o:p> </o:p></span></p>
  <p class="MsoNormal"><span
 style="font-size: 11pt; font-family: "Arial Narrow","sans-serif"; color: rgb(31, 73, 125);"><o:p> </o:p></span></p>
  <p class="MsoNormal"><span
 style="font-family: "Tw Cen MT","sans-serif"; color: black;">Atenciosamente,<br>
  </span><b><span
 style="font-size: 11pt; font-family: "Tw Cen MT","sans-serif"; color: rgb(0, 0, 64);">Leandro
Lins Marino</span></b><b><span
 style="font-size: 10pt; font-family: "Tw Cen MT","sans-serif"; color: rgb(0, 0, 64);"><br>
  </span></b><i><span
 style="font-size: 10pt; font-family: "Tw Cen MT","sans-serif"; color: gray;">Centro
de Avaliação</span></i><i><span
 style="font-size: 10pt; font-family: "Tw Cen MT","sans-serif"; color: gray;"><br>
  </span></i><i><span
 style="font-size: 10pt; font-family: "Tw Cen MT","sans-serif"; color: gray;">Fundação
CESGRANRIO</span></i><i><span
 style="font-size: 10pt; font-family: "Tw Cen MT","sans-serif"; color: gray;"><br>
  </span></i><i><span
 style="font-size: 10pt; font-family: "Tw Cen MT","sans-serif"; color: gray;">Rua
Santa Alexandrina, 1011 - 2º andar</span></i><i><span
 style="font-size: 10pt; font-family: "Tw Cen MT","sans-serif"; color: gray;"><br>
  </span></i><i><span
 style="font-size: 10pt; font-family: "Tw Cen MT","sans-serif"; color: gray;">Rio
de Janeiro, RJ - CEP: 20261-903</span></i><i><span
 style="font-size: 10pt; font-family: "Tw Cen MT","sans-serif"; color: gray;"><br>
  </span></i><i><span
 style="font-size: 10pt; font-family: Wingdings; color: gray;">(</span></i><i><span
 style="font-size: 10pt; font-family: "Tw Cen MT","sans-serif"; color: gray;"> </span></i><i><span
 style="font-size: 10pt; font-family: "Trebuchet MS","sans-serif"; color: gray;">(21)
2103-9600
R.:236 </span></i><i><span
 style="font-size: 10pt; font-family: "Trebuchet MS","sans-serif"; color: gray;"><br>
  </span></i><i><span
 style="font-size: 11pt; font-family: Wingdings; color: gray;">*</span></i><i><span
 style="font-size: 11pt; font-family: "Tw Cen MT","sans-serif"; color: gray;">
  <a moz-do-not-send="true" href="mailto:leandro@cesgranrio.org.br">leandro@cesgranrio.org.br</a><o:p></o:p></span></i></p>
  <p class="MsoNormal"><span
 style="font-size: 10pt; font-family: "Arial","sans-serif"; color: rgb(0, 102, 102);"><o:p> </o:p></span></p>
  <p class="MsoNormal"><span
 style="font-size: 18pt; font-family: Webdings; color: rgb(118, 146, 60);">P</span><b><span
 style="font-size: 7.5pt; font-family: "Palatino Linotype","serif"; color: rgb(118, 146, 60);">
 </span></b><b><span
 style="font-size: 9pt; font-family: "Calibri","sans-serif"; color: rgb(118, 146, 60);">Antes
de imprimir</span></b><span
 style="font-size: 9pt; font-family: "Calibri","sans-serif"; color: rgb(118, 146, 60);">
  </span><b><span
 style="font-size: 9pt; font-family: "Calibri","sans-serif"; color: rgb(118, 146, 60);">pense
em
sua responsabilidade e compromisso com o</span></b><span
 style="font-size: 9pt; font-family: "Calibri","sans-serif"; color: rgb(118, 146, 60);">
  <b>MEIO AMBIENTE</b></span><span
 style="font-size: 10pt; font-family: "Arial","sans-serif"; color: rgb(0, 102, 102);"> <o:p></o:p></span></p>
  <p class="MsoNormal"><span
 style="font-size: 10pt; font-family: "Arial","sans-serif"; color: rgb(0, 102, 102);"><o:p> </o:p></span></p>
  <p class="MsoNormal"><span
 style="font-size: 10.5pt; font-family: Consolas; color: rgb(31, 73, 125);">Esta
mensagem, incluindo seus anexos, pode conter informacoes
privilegiadas e/ou de carater confidencial, nao podendo ser
retransmitida sem
autorizacao do remetente. Se voce nao e o destinatario ou pessoa
autorizada a
recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento
sao
proibidos. <o:p></o:p></span></p>
  <p class="MsoNormal"><span
 style="font-size: 10.5pt; font-family: Consolas; color: rgb(31, 73, 125);">Portanto,
se você recebeu esta mensagem por engano, por favor,
nos informe respondendo imediatamente a este e-mail e em seguida
apague-a.<o:p></o:p></span></p>
  <p class="MsoNormal"><span
 style="font-size: 11pt; font-family: "Arial Narrow","sans-serif"; color: rgb(31, 73, 125);"><o:p> </o:p></span></p>
  <div
 style="border-style: solid none none; border-color: rgb(181, 196, 223) -moz-use-text-color -moz-use-text-color; border-width: 1pt medium medium; padding: 3pt 0cm 0cm;">
  <p class="MsoNormal"><b><span
 style="font-size: 10pt; font-family: "Tahoma","sans-serif";">De:</span></b><span
 style="font-size: 10pt; font-family: "Tahoma","sans-serif";">
<a class="moz-txt-link-abbreviated" href="mailto:r-br-bounces@listas.c3sl.ufpr.br">r-br-bounces@listas.c3sl.ufpr.br</a>
[<a class="moz-txt-link-freetext" href="mailto:r-br-bounces@listas.c3sl.ufpr.br">mailto:r-br-bounces@listas.c3sl.ufpr.br</a>] <b>Em
nome de </b>Gustavo Henrique de Carvalho<br>
  <b>Enviada em:</b> terça-feira, 7 de junho de 2011 14:29<br>
  <b>Para:</b> <a class="moz-txt-link-abbreviated" href="mailto:r-br@listas.c3sl.ufpr.br">r-br@listas.c3sl.ufpr.br</a><br>
  <b>Assunto:</b> Re: [R-br] Semelhança de textos<o:p></o:p></span></p>
  </div>
  <p class="MsoNormal"><o:p> </o:p></p>
  <p class="MsoNormal">?agrep<o:p></o:p></p>
  <div>
  <p class="MsoNormal"><o:p> </o:p></p>
  </div>
  <div>
  <p class="MsoNormal" style="margin-bottom: 12pt;">Tem uma ferramente
homônima no
Linux/Mac OS X e etc que também é bastante poderosa, especialmente
combinada
com awk, sed, grep, etc.<o:p></o:p></p>
  <div>
  <p class="MsoNormal">2011/6/7 Leandro Marino <<a
 moz-do-not-send="true" href="mailto:leandro@cesgranrio.org.br">leandro@cesgranrio.org.br</a>><o:p></o:p></p>
  <div style="margin-left: 37.5pt; margin-top: 15pt;">
  <p class="MsoNormal"><img id="_x0000_i1025"
 src="cid:part1.09070708.01090607@ourinhos.unesp.br" border="0"
 height="3" width="1600"><o:p></o:p></p>
  <div>
  <p class="MsoNormal" style=""><span
 style="font-size: 10pt; color: rgb(0, 102, 102);">Caros,</span><o:p></o:p></p>
  <p class="MsoNormal" style=""><span
 style="font-size: 10pt; color: rgb(0, 102, 102);">Alguém saberia me
dizer se o R tem
alguma função implementada que forneça um percentual de concordância de
textos
dentro de um determinado data.frame? Preciso testar todos contra todos,
em
geral, são diversos conjuntos de 15 a 20 pequenos textos.</span><o:p></o:p></p>
  <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: rgb(64, 64, 64);">Na realidade estou
preparando uma função
para encontrar registros duplicados que possam ter pequenas diferenças
de
grafia.</span><o:p></o:p></p>
  <div>
  <p class="MsoNormal" style=""><span style="color: black;">Atenciosamente,<br>
  </span><b><span style="font-size: 11pt; color: rgb(0, 0, 64);">Leandro
Lins Marino</span></b><b><span
 style="font-size: 10pt; color: rgb(0, 0, 64);"><br>
  </span></b><i><span style="font-size: 10pt; color: gray;">Centro de
Avaliação<br>
Fundação CESGRANRIO<br>
Rua Santa Alexandrina, 1011 - 2º andar<br>
Rio de Janeiro, RJ - CEP: 20261-903<br>
  </span></i><i><span
 style="font-size: 10pt; font-family: Wingdings; color: gray;">(</span></i><i><span
 style="font-size: 10pt; color: gray;"> (21) 2103-9600 R.:236 <br>
  </span></i><i><span
 style="font-size: 11pt; font-family: Wingdings; color: gray;">*</span></i><i><span
 style="font-size: 11pt; color: gray;"> <a moz-do-not-send="true"
 href="mailto:leandro@cesgranrio.org.br" target="_blank">leandro@cesgranrio.org.br</a></span></i><o:p></o:p></p>
  <p class="MsoNormal"><span
 style="font-size: 10pt; color: rgb(0, 102, 102);"> </span><o:p></o:p></p>
  <p class="MsoNormal"><span
 style="font-size: 18pt; font-family: Webdings; color: rgb(118, 146, 60);">P</span><b><span
 style="font-size: 7.5pt; font-family: "Palatino Linotype","serif"; color: rgb(118, 146, 60);">
 </span></b><b><span style="font-size: 9pt; color: rgb(118, 146, 60);">Antes
de
imprimir</span></b><span
 style="font-size: 9pt; color: rgb(118, 146, 60);"> <b>pense em
sua responsabilidade e compromisso com o</b> <b>MEIO AMBIENTE</b></span><span
 style="font-size: 10pt; color: rgb(0, 102, 102);"> </span><o:p></o:p></p>
  <p class="MsoNormal"><span
 style="font-size: 10pt; color: rgb(0, 102, 102);"> </span><o:p></o:p></p>
  <p class="MsoNormal"><span
 style="font-size: 10.5pt; font-family: Consolas; color: rgb(64, 64, 64);">Esta
mensagem, incluindo seus anexos, pode conter informacoes
privilegiadas e/ou de carater confidencial, nao podendo ser
retransmitida sem
autorizacao do remetente. Se voce nao e o destinatario ou pessoa
autorizada a
recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento
sao
proibidos. </span><o:p></o:p></p>
  <p class="MsoNormal"><span
 style="font-size: 10.5pt; font-family: Consolas; color: rgb(64, 64, 64);">Portanto,
se você recebeu esta mensagem por engano, por favor,
nos informe respondendo imediatamente a este e-mail e em seguida
apague-a.</span><o:p></o:p></p>
  </div>
  <p><span style="font-size: 10pt; color: rgb(0, 102, 102);"> </span><o:p></o:p></p>
  </div>
  </div>
  <p class="MsoNormal" style="margin-bottom: 12pt;"><br>
_______________________________________________<br>
R-br mailing list<br>
  <a moz-do-not-send="true" href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
  <a moz-do-not-send="true"
 href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br"
 target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><o:p></o:p></p>
  </div>
  <p class="MsoNormal"><o:p> </o:p></p>
  </div>
  </div>
  <pre wrap="">
<fieldset class="mimeAttachmentHeader"></fieldset>
_______________________________________________
R-br mailing list
<a class="moz-txt-link-abbreviated" href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a>
<a class="moz-txt-link-freetext" href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a>
  </pre>
</blockquote>
<br>
<br>
<pre class="moz-signature" cols="72">-- 
Lucas Venezian Povoa
URI: <a class="moz-txt-link-freetext" href="http://www.lucasvenezian.orgfree.com">http://www.lucasvenezian.orgfree.com</a></pre>
</body>
</html>