[R-br] RES: Semelhança de textos

Pedro Andrade pedro.andrade em inpe.br
Terça Junho 7 15:50:34 BRT 2011


Prezado Leandro,

talvez seja interessante usar algum algoritmo que trabalhe com a 
distancia de Levenshtein para considerar erros de grafia. O pacote vwr 
implementa esta métrica.

um abraço,

Pedro


Em 07/06/2011 15:30, Lucas Venezian Povoa escreveu:
> Leandro,
>
> Não sei se será útil para você. Mas saber quais frases contém
> determinado conteúdo pode ser feito da seguinte maneira:
>
> frases <- c( "Eu tenho um gato", "Meucachorro é legal", "Meu cachorro é
> legal", "Meucachorroélegal" );
> frases[which( regexpr( "(.)*cachorro(.)*", frases ) == 1)];
>
> Com esses comandos serão exibidas somente as frases que possuem a cadeia
> cachorro.
>
> Sobre os erros de grafia você pode procurar sobre busca fonética. Isso é
> uma técnica utilizada para melhorar a performance de consultas e para
> preparar o sistema para buscar dados mesmo quando a entrada possuir
> erros. Por exemplo, se eu buscar Tonny, o sistema retornará Toni, Tonni,
> Tony e assim por diante. Porém, essa técnica eu não sei se possui
> implementação em R (sei que existe em java e php).
>
> Espero que te ajude.
>
> Att.
>
> On 06/07/2011 03:00 PM, Leandro Marino wrote:
>>
>> Gustavo, obrigado por ajudar.
>>
>> Aproveitando a função que estou desenvolvendo, gostaria de saber como
>> localizar determinado texto no meio de uma frase. Ex.: Quero todos que
>> tenham citado a palavra “cachorro” em qualquer posição de uma palavra.
>> Acredito que seria possível, mas não sei trabalhar com expressões
>> regulares.
>>
>> Atenciosamente,
>> *Leandro Lins Marino**
>> */Centro de Avaliação//
>> //Fundação CESGRANRIO//
>> //Rua Santa Alexandrina, 1011 - 2º andar//
>> //Rio de Janeiro, RJ - CEP: 20261-903//
>> //(////(21) 2103-9600 R.:236 //
>> //*//leandro em cesgranrio.org.br <mailto:leandro em cesgranrio.org.br>/
>>
>> P***Antes de imprimir**pense em sua responsabilidade e compromisso com
>> o**MEIO AMBIENTE*
>>
>> Esta mensagem, incluindo seus anexos, pode conter informacoes
>> privilegiadas e/ou de carater confidencial, nao podendo ser
>> retransmitida sem autorizacao do remetente. Se voce nao e o
>> destinatario ou pessoa autorizada a recebe-la, informamos que o seu
>> uso, divulgacao, copia ou arquivamento sao proibidos.
>>
>> Portanto, se você recebeu esta mensagem por engano, por favor, nos
>> informe respondendo imediatamente a este e-mail e em seguida apague-a.
>>
>> *De:*r-br-bounces em listas.c3sl.ufpr.br
>> [mailto:r-br-bounces em listas.c3sl.ufpr.br] *Em nome de *Gustavo
>> Henrique de Carvalho
>> *Enviada em:* terça-feira, 7 de junho de 2011 14:29
>> *Para:* r-br em listas.c3sl.ufpr.br
>> *Assunto:* Re: [R-br] Semelhança de textos
>>
>> ?agrep
>>
>> Tem uma ferramente homônima no Linux/Mac OS X e etc que também é
>> bastante poderosa, especialmente combinada com awk, sed, grep, etc.
>>
>> 2011/6/7 Leandro Marino <leandro em cesgranrio.org.br
>> <mailto:leandro em cesgranrio.org.br>>
>>
>> Caros,
>>
>> Alguém saberia me dizer se o R tem alguma função implementada que
>> forneça um percentual de concordância de textos dentro de um
>> determinado data.frame? Preciso testar todos contra todos, em geral,
>> são diversos conjuntos de 15 a 20 pequenos textos.
>>
>> Na realidade estou preparando uma função para encontrar registros
>> duplicados que possam ter pequenas diferenças de grafia.
>>
>> Atenciosamente,
>> *Leandro Lins Marino**
>> */Centro de Avaliação
>> Fundação CESGRANRIO
>> Rua Santa Alexandrina, 1011 - 2º andar
>> Rio de Janeiro, RJ - CEP: 20261-903
>> //(// (21) 2103-9600 R.:236
>> //*//leandro em cesgranrio.org.br <mailto:leandro em cesgranrio.org.br>/
>>
>> P***Antes de imprimir**pense em sua responsabilidade e compromisso com
>> o* *MEIO AMBIENTE*
>>
>> Esta mensagem, incluindo seus anexos, pode conter informacoes
>> privilegiadas e/ou de carater confidencial, nao podendo ser
>> retransmitida sem autorizacao do remetente. Se voce nao e o
>> destinatario ou pessoa autorizada a recebe-la, informamos que o seu
>> uso, divulgacao, copia ou arquivamento sao proibidos.
>>
>> Portanto, se você recebeu esta mensagem por engano, por favor, nos
>> informe respondendo imediatamente a este e-mail e em seguida apague-a.
>>
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br <mailto:R-br em listas.c3sl.ufpr.br>
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>
>
>
> --
> Lucas Venezian Povoa
> URI:http://www.lucasvenezian.orgfree.com
>
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br

-- 
Pedro Ribeiro de Andrade, Dr.
Earth System Science Center (CCST)
National Institute for Space Research (INPE)
Sao Jose dos Campos, Brazil

voice +55 12 3208 7130
fax   +55 12 3208 6468


Mais detalhes sobre a lista de discussão R-br