Leandro,

Não sei se será útil para você. Mas saber quais frases contém determinado conteúdo pode ser feito da seguinte maneira:

frases <- c( "Eu tenho um gato", "Meucachorro é legal", "Meu cachorro é legal", "Meucachorroélegal" );
frases[which( regexpr( "(.)*cachorro(.)*", frases ) == 1)];

Com esses comandos serão exibidas somente as frases que possuem a cadeia cachorro.

Sobre os erros de grafia você pode procurar sobre busca fonética. Isso é uma técnica utilizada para melhorar a performance de consultas e para preparar o sistema para buscar dados mesmo quando a entrada possuir erros. Por exemplo, se eu buscar Tonny, o sistema retornará Toni, Tonni, Tony e assim por diante. Porém, essa técnica eu não sei se possui implementação em R (sei que existe em java e php).

Espero que te ajude.

Att.

On 06/07/2011 03:00 PM, Leandro Marino wrote:

Gustavo, obrigado por ajudar.

 

Aproveitando a função que estou desenvolvendo, gostaria de saber como localizar determinado texto no meio de uma frase. Ex.: Quero todos que tenham citado a palavra “cachorro” em qualquer posição de uma palavra. Acredito que seria possível, mas não sei trabalhar com expressões regulares.

 

 

 

Atenciosamente,
Leandro Lins Marino
Centro de Avaliação
Fundação CESGRANRIO
Rua Santa Alexandrina, 1011 - 2º andar
Rio de Janeiro, RJ - CEP: 20261-903
( (21) 2103-9600 R.:236
* leandro@cesgranrio.org.br

 

P  Antes de imprimir pense em sua responsabilidade e compromisso com o MEIO AMBIENTE 

 

Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos.

Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a.

 

De: r-br-bounces@listas.c3sl.ufpr.br [mailto:r-br-bounces@listas.c3sl.ufpr.br] Em nome de Gustavo Henrique de Carvalho
Enviada em: terça-feira, 7 de junho de 2011 14:29
Para: r-br@listas.c3sl.ufpr.br
Assunto: Re: [R-br] Semelhança de textos

 

?agrep

 

Tem uma ferramente homônima no Linux/Mac OS X e etc que também é bastante poderosa, especialmente combinada com awk, sed, grep, etc.

2011/6/7 Leandro Marino <leandro@cesgranrio.org.br>

Caros,

Alguém saberia me dizer se o R tem alguma função implementada que forneça um percentual de concordância de textos dentro de um determinado data.frame? Preciso testar todos contra todos, em geral, são diversos conjuntos de 15 a 20 pequenos textos.

Na realidade estou preparando uma função para encontrar registros duplicados que possam ter pequenas diferenças de grafia.

Atenciosamente,
Leandro Lins Marino
Centro de Avaliação
Fundação CESGRANRIO
Rua Santa Alexandrina, 1011 - 2º andar
Rio de Janeiro, RJ - CEP: 20261-903
( (21) 2103-9600 R.:236
* leandro@cesgranrio.org.br

 

P  Antes de imprimir pense em sua responsabilidade e compromisso com o MEIO AMBIENTE 

 

Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos.

Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a.

 


_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br

 

_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br


-- 
Lucas Venezian Povoa
URI: http://www.lucasvenezian.orgfree.com