[R-br] Codificação

Edson Lira edinhoestat em yahoo.com.br
Quarta Setembro 3 12:21:15 BRT 2014


Gisele, na lista foi adotado a rotina de não anexar arquivos aos emails e sim postar os arquivos, por exemplo, no site 

http://www.datafilehost.com/

Busque no Google "Avaliar dados de genética no software R"

Olha o que eu achei: http://geneticapopulacional.blogspot.com.br/

fastStructure 
fastStructure é um algoritmo para inferir a estrutura da população a 
partir de grandes volumes de dados genótipo SNP. Baseia-se em um quadro 
Bayesian variacional para posterior inferência e é escrito em python2.x. Aqui, resumimos como configurar este pacote de software, compilar os 
scripts de C e Cython e executar o algoritmo em um teste simulado 
dataset genótipo.


Boa sorte!

 
Edson Lira
Estatístico
Manaus-Amazonas


Em Quarta-feira, 3 de Setembro de 2014 10:45, Giselle Davi <giselle_davi em yahoo.com.br> escreveu:
 


Prezados Colaboradores,


Tenho um arquivo com uma matriz formada por letras ( SNP: bases nitrogenadas: A, C, T, G)  e preciso codificá-la para números,  onde as letras A e T recebam 1 e as letras C e G recebam 0, formando assim uma matriz de genótipos Gn x m = {0;1;2} onde n é o número de indivíduos e m  o número de SNPs. Anexado a este e-mail encontra-se parte dessa matriz com dimensão 6 x 30 ( Facilitando, portanto, o envio) que necessita dessa codificação.

Matematicamente, a sequência de SNP é atribuída ( A qual eu não precisei construir, pois  a sequência foi originada por  genotipagem ) como:

Dado um valor para PA (probabilidade de ocorrer a base A) e para PC (probabilidade de C), de modo que PA= PT, PC = PG e PA+PC = 0; 5, então as bases são geradas do seguinte modo:
Se y existe (E virado para direita) [0;PA), a base é  A;
Se y existe [PA;0:5), a base é C;
Se y existe [0:5; (0:5+PC)), a base é G;
Se y existe [(0:5+PC);1], a base é T.

Cada indivíduo possui um par de cromossomos homólogos, que se mantêm juntos por
ligações entre as bases A e T e ligações entre as bases C e G. A codificação das sequências ( SNPs)
deve ser feita, portanto, do seguinte modo: Contando o alelo de interesse (no caso, A) e seu correspondente
no pareamento (T) em cada fita numa posição do genótipo, e atribuir 1 quando um dos dois (A ou T) ocorre  e 0 se não ocorrem. Esta codificação resulta em:

0 - CC, CG, GC, GG)P(0) = 4*PC elevado a 2
1 - AC, AG, TC, TG, CA, GA, CT, GT)P(1) = 8*PA*PC
2 - AA, AT, TA, TT )P(2) = 4*PA elevado a 2

Sendo assim, preciso utilizar estas informações matemáticas no R de modo a proceder a codificação. Alguém poderia me ajudar ? Desde já agradeço.


Att,

Giselle


_______________________________________________
R-br mailing list
R-br em listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20140903/f3597552/attachment.html>


Mais detalhes sobre a lista de discussão R-br