
Gisele, na lista foi adotado a rotina de não anexar arquivos aos emails e sim postar os arquivos, por exemplo, no site http://www.datafilehost.com/ Busque no Google "Avaliar dados de genética no software R" Olha o que eu achei: http://geneticapopulacional.blogspot.com.br/ fastStructure fastStructure é um algoritmo para inferir a estrutura da população a partir de grandes volumes de dados genótipo SNP. Baseia-se em um quadro Bayesian variacional para posterior inferência e é escrito em python2.x. Aqui, resumimos como configurar este pacote de software, compilar os scripts de C e Cython e executar o algoritmo em um teste simulado dataset genótipo. Boa sorte! Edson Lira Estatístico Manaus-Amazonas Em Quarta-feira, 3 de Setembro de 2014 10:45, Giselle Davi <giselle_davi@yahoo.com.br> escreveu: Prezados Colaboradores, Tenho um arquivo com uma matriz formada por letras ( SNP: bases nitrogenadas: A, C, T, G) e preciso codificá-la para números, onde as letras A e T recebam 1 e as letras C e G recebam 0, formando assim uma matriz de genótipos Gn x m = {0;1;2} onde n é o número de indivíduos e m o número de SNPs. Anexado a este e-mail encontra-se parte dessa matriz com dimensão 6 x 30 ( Facilitando, portanto, o envio) que necessita dessa codificação. Matematicamente, a sequência de SNP é atribuída ( A qual eu não precisei construir, pois a sequência foi originada por genotipagem ) como: Dado um valor para PA (probabilidade de ocorrer a base A) e para PC (probabilidade de C), de modo que PA= PT, PC = PG e PA+PC = 0; 5, então as bases são geradas do seguinte modo: Se y existe (E virado para direita) [0;PA), a base é A; Se y existe [PA;0:5), a base é C; Se y existe [0:5; (0:5+PC)), a base é G; Se y existe [(0:5+PC);1], a base é T. Cada indivíduo possui um par de cromossomos homólogos, que se mantêm juntos por ligações entre as bases A e T e ligações entre as bases C e G. A codificação das sequências ( SNPs) deve ser feita, portanto, do seguinte modo: Contando o alelo de interesse (no caso, A) e seu correspondente no pareamento (T) em cada fita numa posição do genótipo, e atribuir 1 quando um dos dois (A ou T) ocorre e 0 se não ocorrem. Esta codificação resulta em: 0 - CC, CG, GC, GG)P(0) = 4*PC elevado a 2 1 - AC, AG, TC, TG, CA, GA, CT, GT)P(1) = 8*PA*PC 2 - AA, AT, TA, TT )P(2) = 4*PA elevado a 2 Sendo assim, preciso utilizar estas informações matemáticas no R de modo a proceder a codificação. Alguém poderia me ajudar ? Desde já agradeço. Att, Giselle _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.