[R-br] Extração Parcial de Texto

Cesar Rabak cesar.rabak em gmail.com
Sexta Abril 8 14:41:30 BRT 2016


A coisa mais funcional que um "for" é usar expressões regulares *regexp*s.

Embora o R tenha suporte via algumas funções para regexps, o embasamento
teórico para seu uso e as linguagens que permitem que essa tarefa seja
feita de maneira mais "direta e reta"¹ sejam outras que o R e podemos
incorrem em cair em discussão fora de tópico aqui.

No seu ambiente de R veja os documentos:
?regexp
?grep

http://www.regular-expressions.info/rlanguage.html (Olho que esse site
embora mostre informações interessantes, tem um "peixe" que quer vender!).

Esta palestra pode lhe interessar também:
http://biostat.mc.vanderbilt.edu/wiki/pub/Main/SvetlanaEdenRFiles/regExprTalk.pdf

HTH
--
Cesar Rabak


[1] gosto dessa expressão inglesa "straighforward"!

2016-04-08 9:14 GMT-03:00 Elias Carvalho <ecacarva em gmail.com>:

> Bom dia Pessoal
>
> Eu tenho uma planilha com vários abstracts de artigos científicos e
>  gostaria de poder identificar o objetivo de cada um, como no exemplo
> abaixo começando em "To address" até "image segmentation":
>
> Image segmentation plays an important role in many medical applications.
> ... However, it is disadvantageous in high complexity, poor real time
> capability and premature convergence and etc. *To address these issues,
> an improved evolution strategy is proposed for medical image segmentation*.
> There are 2 populations...
>
>
> Eu sei que tenho que verificar vários termos como "The aim of this study",
> "The objective", etc, mas no caso acima eu gostaria de identificar por
> exemplo "To address" e capturar o texto após o ponto inicial em "etc." até
> o ponto final "segmentation.".
>
> Eu tenho que extrair o objetivo de 1808 artigos e por isso quero
> automatizar.
>
> Posso fazer um for que lê letra a letra da string em busca de termos chave
> e quando achar marca a posição do ponto inicial e final e depois extrai o
> texto, mas tem algo mais funcional que for ?
>
> Obrigado e um excelente dia
>
> --
> Best regards... 8^)
>
> “The mind that is open to new ideas never come back
> to its original size”  *Albert Einstein*
>
>
> _____________________________________________
> Prof. Elias César Araújo de Carvalho
> CV: http://lattes.cnpq.br/4248328961021251
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20160408/6a18bee4/attachment.html>


Mais detalhes sobre a lista de discussão R-br