[R-br] Codificação
Leonardo Ferreira Fontenelle
leonardof em leonardof.med.br
Quarta Setembro 3 14:22:12 BRT 2014
Obrigado pelo aviso.
Eu sabia que isso é convenção em algumas listas, mas eu não
sabia especificamente nesta.
[1]Leonardo Ferreira Fontenelle
Em Qua 3 set. 2014, às 12:21, Edson Lira escreveu:
Gisele, na lista foi adotado a rotina de não anexar arquivos
aos emails e sim postar os arquivos, por exemplo, no site
http://www.datafilehost.com/
Busque no Google "Avaliar dados de genética no software R"
Olha o que eu achei:
http://geneticapopulacional.blogspot.com.br/
[2]fastStructure
fastStructure é um algoritmo para inferir a estrutura da
população a partir de grandes volumes de dados genótipo SNP.
Baseia-se em um quadro Bayesian variacional para posterior
inferência e é escrito em python2.x. Aqui, resumimos como
configurar este pacote de software, compilar os scripts de C e
Cython e executar o algoritmo em um teste simulado dataset
genótipo.
Boa sorte!
Edson Lira
Estatístico
Manaus-Amazonas
Em Quarta-feira, 3 de Setembro de 2014 10:45, Giselle Davi
<giselle_davi em yahoo.com.br> escreveu:
Prezados Colaboradores,
Tenho um arquivo com uma matriz formada por letras ( SNP:
bases nitrogenadas: A, C, T, G) e preciso codificá-la para
números, onde as letras A e T recebam 1 e as letras C e G
recebam 0, formando assim uma matriz de genótipos Gn x m =
{0;1;2} onde n é o número de indivíduos e m o número de SNPs.
Anexado a este e-mail encontra-se parte dessa matriz com
dimensão 6 x 30 ( Facilitando, portanto, o envio) que necessita
dessa codificação.
Matematicamente, a sequência de SNP é atribuída ( A qual eu não
precisei construir, pois a sequência foi originada por
genotipagem ) como:
Dado um valor para PA (probabilidade de ocorrer a base A) e
para PC (probabilidade de C), de modo que PA= PT, PC = PG e
PA+PC = 0; 5, então as bases são geradas do seguinte modo:
Se y existe (E virado para direita) [0;PA), a base é A;
Se y existe [PA;0:5), a base é C;
Se y existe [0:5; (0:5+PC)), a base é G;
Se y existe [(0:5+PC);1], a base é T.
Cada indivíduo possui um par de cromossomos homólogos, que se
mantêm juntos por
ligações entre as bases A e T e ligações entre as bases C e G.
A codificação das sequências ( SNPs)
deve ser feita, portanto, do seguinte modo: Contando o alelo de
interesse (no caso, A) e seu correspondente
no pareamento (T) em cada fita numa posição do genótipo, e
atribuir 1 quando um dos dois (A ou T) ocorre e 0 se não
ocorrem. Esta codificação resulta em:
0 - CC, CG, GC, GG)P(0) = 4*PC elevado a 2
1 - AC, AG, TC, TG, CA, GA, CT, GT)P(1) = 8*PA*PC
2 - AA, AT, TA, TT )P(2) = 4*PA elevado a 2
Sendo assim, preciso utilizar estas informações matemáticas no
R de modo a proceder a codificação. Alguém poderia me ajudar ?
Desde já agradeço.
Att,
Giselle
_______________________________________________
R-br mailing list
[3]R-br em listas.c3sl.ufpr.br
[4]https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem ([5]http://www.leg.ufpr.br/r-br-guia) e
forneça código mínimo reproduzível.
_______________________________________________
R-br mailing list
[6]R-br em listas.c3sl.ufpr.br
[7]https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem ([8]http://www.leg.ufpr.br/r-br-guia) e
forneça código mínimo reproduzível.
References
1. http://lattes.cnpq.br/9234772336296638
2. http://geneticapopulacional.blogspot.com.br/2014/08/faststructure.html
3. mailto:R-br em listas.c3sl.ufpr.br
4. https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
5. http://www.leg.ufpr.br/r-br-guia
6. mailto:R-br em listas.c3sl.ufpr.br
7. https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
8. http://www.leg.ufpr.br/r-br-guia
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20140903/bd30b3ae/attachment.html>
Mais detalhes sobre a lista de discussão R-br