[R-br] RES: Semelhança de textos
Lucas Venezian Povoa
lucas em ourinhos.unesp.br
Terça Junho 7 15:30:00 BRT 2011
Leandro,
Não sei se será útil para você. Mas saber quais frases contém
determinado conteúdo pode ser feito da seguinte maneira:
frases <- c( "Eu tenho um gato", "Meucachorro é legal", "Meu cachorro é
legal", "Meucachorroélegal" );
frases[which( regexpr( "(.)*cachorro(.)*", frases ) == 1)];
Com esses comandos serão exibidas somente as frases que possuem a cadeia
cachorro.
Sobre os erros de grafia você pode procurar sobre busca fonética. Isso é
uma técnica utilizada para melhorar a performance de consultas e para
preparar o sistema para buscar dados mesmo quando a entrada possuir
erros. Por exemplo, se eu buscar Tonny, o sistema retornará Toni, Tonni,
Tony e assim por diante. Porém, essa técnica eu não sei se possui
implementação em R (sei que existe em java e php).
Espero que te ajude.
Att.
On 06/07/2011 03:00 PM, Leandro Marino wrote:
>
> Gustavo, obrigado por ajudar.
>
> Aproveitando a função que estou desenvolvendo, gostaria de saber como
> localizar determinado texto no meio de uma frase. Ex.: Quero todos que
> tenham citado a palavra “cachorro” em qualquer posição de uma palavra.
> Acredito que seria possível, mas não sei trabalhar com expressões
> regulares.
>
> Atenciosamente,
> *Leandro Lins Marino**
> */Centro de Avaliação//
> //Fundação CESGRANRIO//
> //Rua Santa Alexandrina, 1011 - 2º andar//
> //Rio de Janeiro, RJ - CEP: 20261-903//
> //(// //(21) 2103-9600 R.:236 //
> //*// leandro em cesgranrio.org.br <mailto:leandro em cesgranrio.org.br>/
>
> P* **Antes de imprimir* *pense em sua responsabilidade e compromisso
> com o* *MEIO AMBIENTE*
>
> Esta mensagem, incluindo seus anexos, pode conter informacoes
> privilegiadas e/ou de carater confidencial, nao podendo ser
> retransmitida sem autorizacao do remetente. Se voce nao e o
> destinatario ou pessoa autorizada a recebe-la, informamos que o seu
> uso, divulgacao, copia ou arquivamento sao proibidos.
>
> Portanto, se você recebeu esta mensagem por engano, por favor, nos
> informe respondendo imediatamente a este e-mail e em seguida apague-a.
>
> *De:* r-br-bounces em listas.c3sl.ufpr.br
> [mailto:r-br-bounces em listas.c3sl.ufpr.br] *Em nome de *Gustavo
> Henrique de Carvalho
> *Enviada em:* terça-feira, 7 de junho de 2011 14:29
> *Para:* r-br em listas.c3sl.ufpr.br
> *Assunto:* Re: [R-br] Semelhança de textos
>
> ?agrep
>
> Tem uma ferramente homônima no Linux/Mac OS X e etc que também é
> bastante poderosa, especialmente combinada com awk, sed, grep, etc.
>
> 2011/6/7 Leandro Marino <leandro em cesgranrio.org.br
> <mailto:leandro em cesgranrio.org.br>>
>
> Caros,
>
> Alguém saberia me dizer se o R tem alguma função implementada que
> forneça um percentual de concordância de textos dentro de um
> determinado data.frame? Preciso testar todos contra todos, em geral,
> são diversos conjuntos de 15 a 20 pequenos textos.
>
> Na realidade estou preparando uma função para encontrar registros
> duplicados que possam ter pequenas diferenças de grafia.
>
> Atenciosamente,
> *Leandro Lins Marino**
> */Centro de Avaliação
> Fundação CESGRANRIO
> Rua Santa Alexandrina, 1011 - 2º andar
> Rio de Janeiro, RJ - CEP: 20261-903
> //(// (21) 2103-9600 R.:236
> //*// leandro em cesgranrio.org.br <mailto:leandro em cesgranrio.org.br>/
>
> P* **Antes de imprimir* *pense em sua responsabilidade e compromisso
> com o* *MEIO AMBIENTE*
>
> Esta mensagem, incluindo seus anexos, pode conter informacoes
> privilegiadas e/ou de carater confidencial, nao podendo ser
> retransmitida sem autorizacao do remetente. Se voce nao e o
> destinatario ou pessoa autorizada a recebe-la, informamos que o seu
> uso, divulgacao, copia ou arquivamento sao proibidos.
>
> Portanto, se você recebeu esta mensagem por engano, por favor, nos
> informe respondendo imediatamente a este e-mail e em seguida apague-a.
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br <mailto:R-br em listas.c3sl.ufpr.br>
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>
--
Lucas Venezian Povoa
URI: http://www.lucasvenezian.orgfree.com
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20110607/ce491fd8/attachment.html>
-------------- Próxima Parte ----------
Um anexo não-texto foi limpo...
Nome: não disponível
Tipo: image/jpeg
Tamanho: 2743 bytes
Descrição: não disponível
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20110607/ce491fd8/attachment.jpe>
Mais detalhes sobre a lista de discussão R-br