Semelhança de textos

Caros, Alguém saberia me dizer se o R tem alguma função implementada que forneça um percentual de concordância de textos dentro de um determinado data.frame? Preciso testar todos contra todos, em geral, são diversos conjuntos de 15 a 20 pequenos textos. Na realidade estou preparando uma função para encontrar registros duplicados que possam ter pequenas diferenças de grafia. Atenciosamente, Leandro Lins Marino Centro de Avaliação Fundação CESGRANRIO Rua Santa Alexandrina, 1011 - 2º andar Rio de Janeiro, RJ - CEP: 20261-903 ( (21) 2103-9600 R.:236 * <mailto:leandro@cesgranrio.org.br> leandro@cesgranrio.org.br P Antes de imprimir pense em sua responsabilidade e compromisso com o MEIO AMBIENTE Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos. Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a.

?agrep Tem uma ferramente homônima no Linux/Mac OS X e etc que também é bastante poderosa, especialmente combinada com awk, sed, grep, etc. 2011/6/7 Leandro Marino <leandro@cesgranrio.org.br>
Caros,
Alguém saberia me dizer se o R tem alguma função implementada que forneça um percentual de concordância de textos dentro de um determinado data.frame? Preciso testar todos contra todos, em geral, são diversos conjuntos de 15 a 20 pequenos textos.
Na realidade estou preparando uma função para encontrar registros duplicados que possam ter pequenas diferenças de grafia.
Atenciosamente, *Leandro Lins Marino** **Centro de Avaliação** **Fundação CESGRANRIO** **Rua Santa Alexandrina, 1011 - 2º andar** **Rio de Janeiro, RJ - CEP: 20261-903** **(** **(21) 2103-9600 R.:236 ** ***** leandro@cesgranrio.org.br*
P* **Antes de imprimir* *pense em sua responsabilidade e compromisso com o* *MEIO AMBIENTE*
Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos.
Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br

Gustavo, obrigado por ajudar. Aproveitando a função que estou desenvolvendo, gostaria de saber como localizar determinado texto no meio de uma frase. Ex.: Quero todos que tenham citado a palavra “cachorro” em qualquer posição de uma palavra. Acredito que seria possível, mas não sei trabalhar com expressões regulares. Atenciosamente, Leandro Lins Marino Centro de Avaliação Fundação CESGRANRIO Rua Santa Alexandrina, 1011 - 2º andar Rio de Janeiro, RJ - CEP: 20261-903 ( (21) 2103-9600 R.:236 * leandro@cesgranrio.org.br P Antes de imprimir pense em sua responsabilidade e compromisso com o MEIO AMBIENTE Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos. Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a. De: r-br-bounces@listas.c3sl.ufpr.br [mailto:r-br-bounces@listas.c3sl.ufpr.br] Em nome de Gustavo Henrique de Carvalho Enviada em: terça-feira, 7 de junho de 2011 14:29 Para: r-br@listas.c3sl.ufpr.br Assunto: Re: [R-br] Semelhança de textos ?agrep Tem uma ferramente homônima no Linux/Mac OS X e etc que também é bastante poderosa, especialmente combinada com awk, sed, grep, etc. 2011/6/7 Leandro Marino <leandro@cesgranrio.org.br> Caros, Alguém saberia me dizer se o R tem alguma função implementada que forneça um percentual de concordância de textos dentro de um determinado data.frame? Preciso testar todos contra todos, em geral, são diversos conjuntos de 15 a 20 pequenos textos. Na realidade estou preparando uma função para encontrar registros duplicados que possam ter pequenas diferenças de grafia. Atenciosamente, Leandro Lins Marino Centro de Avaliação Fundação CESGRANRIO Rua Santa Alexandrina, 1011 - 2º andar Rio de Janeiro, RJ - CEP: 20261-903 ( (21) 2103-9600 R.:236 * leandro@cesgranrio.org.br P Antes de imprimir pense em sua responsabilidade e compromisso com o MEIO AMBIENTE Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos. Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a. _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br

Leandro, Não sei se será útil para você. Mas saber quais frases contém determinado conteúdo pode ser feito da seguinte maneira: frases <- c( "Eu tenho um gato", "Meucachorro é legal", "Meu cachorro é legal", "Meucachorroélegal" ); frases[which( regexpr( "(.)*cachorro(.)*", frases ) == 1)]; Com esses comandos serão exibidas somente as frases que possuem a cadeia cachorro. Sobre os erros de grafia você pode procurar sobre busca fonética. Isso é uma técnica utilizada para melhorar a performance de consultas e para preparar o sistema para buscar dados mesmo quando a entrada possuir erros. Por exemplo, se eu buscar Tonny, o sistema retornará Toni, Tonni, Tony e assim por diante. Porém, essa técnica eu não sei se possui implementação em R (sei que existe em java e php). Espero que te ajude. Att. On 06/07/2011 03:00 PM, Leandro Marino wrote:
Gustavo, obrigado por ajudar.
Aproveitando a função que estou desenvolvendo, gostaria de saber como localizar determinado texto no meio de uma frase. Ex.: Quero todos que tenham citado a palavra “cachorro” em qualquer posição de uma palavra. Acredito que seria possível, mas não sei trabalhar com expressões regulares.
Atenciosamente, *Leandro Lins Marino** */Centro de Avaliação// //Fundação CESGRANRIO// //Rua Santa Alexandrina, 1011 - 2º andar// //Rio de Janeiro, RJ - CEP: 20261-903// //(// //(21) 2103-9600 R.:236 // //*// leandro@cesgranrio.org.br <mailto:leandro@cesgranrio.org.br>/
P* **Antes de imprimir* *pense em sua responsabilidade e compromisso com o* *MEIO AMBIENTE*
Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos.
Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a.
*De:* r-br-bounces@listas.c3sl.ufpr.br [mailto:r-br-bounces@listas.c3sl.ufpr.br] *Em nome de *Gustavo Henrique de Carvalho *Enviada em:* terça-feira, 7 de junho de 2011 14:29 *Para:* r-br@listas.c3sl.ufpr.br *Assunto:* Re: [R-br] Semelhança de textos
?agrep
Tem uma ferramente homônima no Linux/Mac OS X e etc que também é bastante poderosa, especialmente combinada com awk, sed, grep, etc.
2011/6/7 Leandro Marino <leandro@cesgranrio.org.br <mailto:leandro@cesgranrio.org.br>>
Caros,
Alguém saberia me dizer se o R tem alguma função implementada que forneça um percentual de concordância de textos dentro de um determinado data.frame? Preciso testar todos contra todos, em geral, são diversos conjuntos de 15 a 20 pequenos textos.
Na realidade estou preparando uma função para encontrar registros duplicados que possam ter pequenas diferenças de grafia.
Atenciosamente, *Leandro Lins Marino** */Centro de Avaliação Fundação CESGRANRIO Rua Santa Alexandrina, 1011 - 2º andar Rio de Janeiro, RJ - CEP: 20261-903 //(// (21) 2103-9600 R.:236 //*// leandro@cesgranrio.org.br <mailto:leandro@cesgranrio.org.br>/
P* **Antes de imprimir* *pense em sua responsabilidade e compromisso com o* *MEIO AMBIENTE*
Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos.
Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br <mailto:R-br@listas.c3sl.ufpr.br> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-- Lucas Venezian Povoa URI: http://www.lucasvenezian.orgfree.com

Prezado Leandro, talvez seja interessante usar algum algoritmo que trabalhe com a distancia de Levenshtein para considerar erros de grafia. O pacote vwr implementa esta métrica. um abraço, Pedro Em 07/06/2011 15:30, Lucas Venezian Povoa escreveu:
Leandro,
Não sei se será útil para você. Mas saber quais frases contém determinado conteúdo pode ser feito da seguinte maneira:
frases <- c( "Eu tenho um gato", "Meucachorro é legal", "Meu cachorro é legal", "Meucachorroélegal" ); frases[which( regexpr( "(.)*cachorro(.)*", frases ) == 1)];
Com esses comandos serão exibidas somente as frases que possuem a cadeia cachorro.
Sobre os erros de grafia você pode procurar sobre busca fonética. Isso é uma técnica utilizada para melhorar a performance de consultas e para preparar o sistema para buscar dados mesmo quando a entrada possuir erros. Por exemplo, se eu buscar Tonny, o sistema retornará Toni, Tonni, Tony e assim por diante. Porém, essa técnica eu não sei se possui implementação em R (sei que existe em java e php).
Espero que te ajude.
Att.
On 06/07/2011 03:00 PM, Leandro Marino wrote:
Gustavo, obrigado por ajudar.
Aproveitando a função que estou desenvolvendo, gostaria de saber como localizar determinado texto no meio de uma frase. Ex.: Quero todos que tenham citado a palavra “cachorro” em qualquer posição de uma palavra. Acredito que seria possível, mas não sei trabalhar com expressões regulares.
Atenciosamente, *Leandro Lins Marino** */Centro de Avaliação// //Fundação CESGRANRIO// //Rua Santa Alexandrina, 1011 - 2º andar// //Rio de Janeiro, RJ - CEP: 20261-903// //(////(21) 2103-9600 R.:236 // //*//leandro@cesgranrio.org.br <mailto:leandro@cesgranrio.org.br>/
P***Antes de imprimir**pense em sua responsabilidade e compromisso com o**MEIO AMBIENTE*
Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos.
Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a.
*De:*r-br-bounces@listas.c3sl.ufpr.br [mailto:r-br-bounces@listas.c3sl.ufpr.br] *Em nome de *Gustavo Henrique de Carvalho *Enviada em:* terça-feira, 7 de junho de 2011 14:29 *Para:* r-br@listas.c3sl.ufpr.br *Assunto:* Re: [R-br] Semelhança de textos
?agrep
Tem uma ferramente homônima no Linux/Mac OS X e etc que também é bastante poderosa, especialmente combinada com awk, sed, grep, etc.
2011/6/7 Leandro Marino <leandro@cesgranrio.org.br <mailto:leandro@cesgranrio.org.br>>
Caros,
Alguém saberia me dizer se o R tem alguma função implementada que forneça um percentual de concordância de textos dentro de um determinado data.frame? Preciso testar todos contra todos, em geral, são diversos conjuntos de 15 a 20 pequenos textos.
Na realidade estou preparando uma função para encontrar registros duplicados que possam ter pequenas diferenças de grafia.
Atenciosamente, *Leandro Lins Marino** */Centro de Avaliação Fundação CESGRANRIO Rua Santa Alexandrina, 1011 - 2º andar Rio de Janeiro, RJ - CEP: 20261-903 //(// (21) 2103-9600 R.:236 //*//leandro@cesgranrio.org.br <mailto:leandro@cesgranrio.org.br>/
P***Antes de imprimir**pense em sua responsabilidade e compromisso com o* *MEIO AMBIENTE*
Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos.
Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br <mailto:R-br@listas.c3sl.ufpr.br> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-- Lucas Venezian Povoa URI:http://www.lucasvenezian.orgfree.com
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-- Pedro Ribeiro de Andrade, Dr. Earth System Science Center (CCST) National Institute for Space Research (INPE) Sao Jose dos Campos, Brazil voice +55 12 3208 7130 fax +55 12 3208 6468

x = c('o rato roeu a roupa do rei de roma', 'o cachorro eh preto', 'eu nao tenho cachoro', 'o caxoro dele eh mau', 'o passarinho canta') comCachorro = grep("cachorro", x, value=TRUE) comQuaseCachorro = agrep("cachorro", x, value=TRUE) comQuaseCachorro2 = agrep("cachorro", x, value=TRUE, max.distance=.3) b 2011/6/7 Leandro Marino <leandro@cesgranrio.org.br>
Gustavo, obrigado por ajudar.
Aproveitando a função que estou desenvolvendo, gostaria de saber como localizar determinado texto no meio de uma frase. Ex.: Quero todos que tenham citado a palavra “cachorro” em qualquer posição de uma palavra. Acredito que seria possível, mas não sei trabalhar com expressões regulares.
Atenciosamente, *Leandro Lins Marino** **Centro de Avaliação** **Fundação CESGRANRIO** **Rua Santa Alexandrina, 1011 - 2º andar** **Rio de Janeiro, RJ - CEP: 20261-903** **(** **(21) 2103-9600 R.:236 ** ***** leandro@cesgranrio.org.br*
P* **Antes de imprimir* *pense em sua responsabilidade e compromisso com o* *MEIO AMBIENTE*
Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos.
Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a.
*De:* r-br-bounces@listas.c3sl.ufpr.br [mailto: r-br-bounces@listas.c3sl.ufpr.br] *Em nome de *Gustavo Henrique de Carvalho *Enviada em:* terça-feira, 7 de junho de 2011 14:29 *Para:* r-br@listas.c3sl.ufpr.br *Assunto:* Re: [R-br] Semelhança de textos
?agrep
Tem uma ferramente homônima no Linux/Mac OS X e etc que também é bastante poderosa, especialmente combinada com awk, sed, grep, etc.
2011/6/7 Leandro Marino <leandro@cesgranrio.org.br>
Caros,
Alguém saberia me dizer se o R tem alguma função implementada que forneça um percentual de concordância de textos dentro de um determinado data.frame? Preciso testar todos contra todos, em geral, são diversos conjuntos de 15 a 20 pequenos textos.
Na realidade estou preparando uma função para encontrar registros duplicados que possam ter pequenas diferenças de grafia.
Atenciosamente, *Leandro Lins Marino** **Centro de Avaliação Fundação CESGRANRIO Rua Santa Alexandrina, 1011 - 2º andar Rio de Janeiro, RJ - CEP: 20261-903 **(** (21) 2103-9600 R.:236 ***** leandro@cesgranrio.org.br*
P* **Antes de imprimir* *pense em sua responsabilidade e compromisso com o* *MEIO AMBIENTE*
Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos.
Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-- Successful people ask better questions, and as a result, they get better answers. (Tony Robbins)

@Benilton, @Pedro e @Lucas obrigado pelas sugestões! Quando a função ficar pronta vai ser show de bola!! Vocês ajudaram e muito... Atenciosamente, Leandro Lins Marino Centro de Avaliação Fundação CESGRANRIO Rua Santa Alexandrina, 1011 - 2º andar Rio de Janeiro, RJ - CEP: 20261-903 ( (21) 2103-9600 R.:236 * leandro@cesgranrio.org.br P Antes de imprimir pense em sua responsabilidade e compromisso com o MEIO AMBIENTE Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos. Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a. De: r-br-bounces@listas.c3sl.ufpr.br [mailto:r-br-bounces@listas.c3sl.ufpr.br] Em nome de Benilton Carvalho Enviada em: terça-feira, 7 de junho de 2011 16:18 Para: r-br@listas.c3sl.ufpr.br Assunto: Re: [R-br] RES: Semelhança de textos x = c('o rato roeu a roupa do rei de roma', 'o cachorro eh preto', 'eu nao tenho cachoro', 'o caxoro dele eh mau', 'o passarinho canta') comCachorro = grep("cachorro", x, value=TRUE) comQuaseCachorro = agrep("cachorro", x, value=TRUE) comQuaseCachorro2 = agrep("cachorro", x, value=TRUE, max.distance=.3) b 2011/6/7 Leandro Marino <leandro@cesgranrio.org.br> Gustavo, obrigado por ajudar. Aproveitando a função que estou desenvolvendo, gostaria de saber como localizar determinado texto no meio de uma frase. Ex.: Quero todos que tenham citado a palavra cachorro em qualquer posição de uma palavra. Acredito que seria possível, mas não sei trabalhar com expressões regulares. Atenciosamente, Leandro Lins Marino Centro de Avaliação Fundação CESGRANRIO Rua Santa Alexandrina, 1011 - 2º andar Rio de Janeiro, RJ - CEP: 20261-903 ( (21) 2103-9600 R.:236 * leandro@cesgranrio.org.br P Antes de imprimir pense em sua responsabilidade e compromisso com o MEIO AMBIENTE Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos. Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a. De: r-br-bounces@listas.c3sl.ufpr.br [mailto:r-br-bounces@listas.c3sl.ufpr.br] Em nome de Gustavo Henrique de Carvalho Enviada em: terça-feira, 7 de junho de 2011 14:29 Para: r-br@listas.c3sl.ufpr.br Assunto: Re: [R-br] Semelhança de textos ?agrep Tem uma ferramente homônima no Linux/Mac OS X e etc que também é bastante poderosa, especialmente combinada com awk, sed, grep, etc. 2011/6/7 Leandro Marino <leandro@cesgranrio.org.br> Caros, Alguém saberia me dizer se o R tem alguma função implementada que forneça um percentual de concordância de textos dentro de um determinado data.frame? Preciso testar todos contra todos, em geral, são diversos conjuntos de 15 a 20 pequenos textos. Na realidade estou preparando uma função para encontrar registros duplicados que possam ter pequenas diferenças de grafia. Atenciosamente, Leandro Lins Marino Centro de Avaliação Fundação CESGRANRIO Rua Santa Alexandrina, 1011 - 2º andar Rio de Janeiro, RJ - CEP: 20261-903 ( (21) 2103-9600 R.:236 * leandro@cesgranrio.org.br P Antes de imprimir pense em sua responsabilidade e compromisso com o MEIO AMBIENTE Esta mensagem, incluindo seus anexos, pode conter informacoes privilegiadas e/ou de carater confidencial, nao podendo ser retransmitida sem autorizacao do remetente. Se voce nao e o destinatario ou pessoa autorizada a recebe-la, informamos que o seu uso, divulgacao, copia ou arquivamento sao proibidos. Portanto, se você recebeu esta mensagem por engano, por favor, nos informe respondendo imediatamente a este e-mail e em seguida apague-a. _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br -- Successful people ask better questions, and as a result, they get better answers. (Tony Robbins)

Olá todos, estou tentando converter uma coluna em uma sequência ex: coluna1 "A" "C" "A" "A" "A" "A" para "ACAAAA" com o paste () eu teria que escrever paste(x[1],x[2],x[3],x[4],x[5]) mas como eu faria isso em apenas um range desejado? Diego Trindade de Souza Biólogo Pesquisador Aluno de Mestrado em Biotecnologia pelo PPGBiotecnologia - CCS Universidade Federal do Espírito Santo - UFES Av. Marechal Campos, 1468 29043-910, Vitória, ES, Brasil Tel/Fax. 55.27. 3335-7348

paste(x, collapse='') 2011/6/7 Diego Trindade de Souza <diegotsouza@hotmail.com>:
Olá todos, estou tentando converter uma coluna em uma sequência
ex: coluna1 "A" "C" "A" "A" "A" "A"
para "ACAAAA"
com o paste () eu teria que escrever paste(x[1],x[2],x[3],x[4],x[5]) mas como eu faria isso em apenas um range desejado?
Diego Trindade de Souza Biólogo Pesquisador Aluno de Mestrado em Biotecnologia pelo PPGBiotecnologia - CCS Universidade Federal do Espírito Santo - UFES Av. Marechal Campos, 1468 29043-910, Vitória, ES, Brasil Tel/Fax. 55.27. 3335-7348
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-- Successful people ask better questions, and as a result, they get better answers. (Tony Robbins)

FYI: existem melhores maneiras de armazenar sequencias em IUPAC, alinhamento, etc... 2011/6/7 Benilton Carvalho <beniltoncarvalho@gmail.com>:
paste(x, collapse='')
2011/6/7 Diego Trindade de Souza <diegotsouza@hotmail.com>:
Olá todos, estou tentando converter uma coluna em uma sequência
ex: coluna1 "A" "C" "A" "A" "A" "A"
para "ACAAAA"
com o paste () eu teria que escrever paste(x[1],x[2],x[3],x[4],x[5]) mas como eu faria isso em apenas um range desejado?
Diego Trindade de Souza Biólogo Pesquisador Aluno de Mestrado em Biotecnologia pelo PPGBiotecnologia - CCS Universidade Federal do Espírito Santo - UFES Av. Marechal Campos, 1468 29043-910, Vitória, ES, Brasil Tel/Fax. 55.27. 3335-7348
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-- Successful people ask better questions, and as a result, they get better answers. (Tony Robbins)
-- Successful people ask better questions, and as a result, they get better answers. (Tony Robbins)

Obrigado, isso ajudou bastante. Diego Trindade de Souza Biólogo Pesquisador Aluno de Mestrado em Biotecnologia pelo PPGBiotecnologia - CCS Universidade Federal do Espírito Santo - UFES Av. Marechal Campos, 1468 29043-910, Vitória, ES, Brasil Tel/Fax. 55.27. 3335-7348
From: beniltoncarvalho@gmail.com Date: Tue, 7 Jun 2011 23:11:46 +0100 To: r-br@listas.c3sl.ufpr.br Subject: Re: [R-br] Converter coluna em sequencia de única vetor
FYI: existem melhores maneiras de armazenar sequencias em IUPAC, alinhamento, etc...
2011/6/7 Benilton Carvalho <beniltoncarvalho@gmail.com>:
paste(x, collapse='')
2011/6/7 Diego Trindade de Souza <diegotsouza@hotmail.com>:
Olá todos, estou tentando converter uma coluna em uma sequência
ex: coluna1 "A" "C" "A" "A" "A" "A"
para "ACAAAA"
com o paste () eu teria que escrever paste(x[1],x[2],x[3],x[4],x[5]) mas como eu faria isso em apenas um range desejado?
Diego Trindade de Souza Biólogo Pesquisador Aluno de Mestrado em Biotecnologia pelo PPGBiotecnologia - CCS Universidade Federal do Espírito Santo - UFES Av. Marechal Campos, 1468 29043-910, Vitória, ES, Brasil Tel/Fax. 55.27. 3335-7348
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
-- Successful people ask better questions, and as a result, they get better answers. (Tony Robbins)
-- Successful people ask better questions, and as a result, they get better answers. (Tony Robbins) _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br

On Tue, 2011-06-07 at 14:23 -0300, Leandro Marino wrote:
Caros,
Alguém saberia me dizer se o R tem alguma função implementada que forneça um percentual de concordância de textos dentro de um determinado data.frame? Preciso testar todos contra todos, em geral, são diversos conjuntos de 15 a 20 pequenos textos.
Na realidade estou preparando uma função para encontrar registros duplicados que possam ter pequenas diferenças de grafia.
Atenciosamente, Leandro Lins Marino Centro de Avaliação Fundação CESGRANRIO Rua Santa Alexandrina, 1011 - 2º andar Rio de Janeiro, RJ - CEP: 20261-903 ( (21) 2103-9600 R.:236 * leandro@cesgranrio.org.br
Leandro existe o paco tm (text mining) que permite tratar um conjunto de textos e calcular a matrix de coocorrências... Será que serve? -- []s Tura
participantes (7)
-
Benilton Carvalho
-
Bernardo Rangel Tura
-
Diego Trindade de Souza
-
Gustavo Henrique de Carvalho
-
Leandro Marino
-
Lucas Venezian Povoa
-
Pedro Andrade