[R-br] Codificação

Leonardo Ferreira Fontenelle leonardof em leonardof.med.br
Quarta Setembro 3 14:22:12 BRT 2014


Obrigado pelo aviso.



Eu sabia que isso é convenção em algumas listas, mas eu não
sabia especificamente nesta.



[1]Leonardo Ferreira Fontenelle





Em Qua 3 set. 2014, às 12:21, Edson Lira escreveu:

Gisele, na lista foi adotado a rotina de não anexar arquivos
aos emails e sim postar os arquivos, por exemplo, no site
http://www.datafilehost.com/

Busque no Google "Avaliar dados de genética no software R"
Olha o que eu achei:
http://geneticapopulacional.blogspot.com.br/

[2]fastStructure


fastStructure é um algoritmo para inferir a estrutura da
população a partir de grandes volumes de dados genótipo SNP.
Baseia-se em um quadro Bayesian variacional para posterior
inferência e é escrito em python2.x. Aqui, resumimos como
configurar este pacote de software, compilar os scripts de C e
Cython e executar o algoritmo em um teste simulado dataset
genótipo.


Boa sorte!

Edson Lira
Estatístico
Manaus-Amazonas


Em Quarta-feira, 3 de Setembro de 2014 10:45, Giselle Davi
<giselle_davi em yahoo.com.br> escreveu:


Prezados Colaboradores,


Tenho um arquivo com uma matriz formada por letras ( SNP:
bases nitrogenadas: A, C, T, G)  e preciso codificá-la para
números,  onde as letras A e T recebam 1 e as letras C e G
recebam 0, formando assim uma matriz de genótipos Gn x m =
{0;1;2} onde n é o número de indivíduos e m  o número de SNPs.
Anexado a este e-mail encontra-se parte dessa matriz com
dimensão 6 x 30 ( Facilitando, portanto, o envio) que necessita
dessa codificação.

Matematicamente, a sequência de SNP é atribuída ( A qual eu não
precisei construir, pois  a sequência foi originada por
genotipagem ) como:

Dado um valor para PA (probabilidade de ocorrer a base A) e
para PC (probabilidade de C), de modo que PA= PT, PC = PG e
PA+PC = 0; 5, então as bases são geradas do seguinte modo:
Se y existe (E virado para direita) [0;PA), a base é  A;
Se y existe [PA;0:5), a base é C;
Se y existe [0:5; (0:5+PC)), a base é G;

Se y existe [(0:5+PC);1], a base é T.

Cada indivíduo possui um par de cromossomos homólogos, que se
mantêm juntos por
ligações entre as bases A e T e ligações entre as bases C e G.
A codificação das sequências ( SNPs)
deve ser feita, portanto, do seguinte modo: Contando o alelo de
interesse (no caso, A) e seu correspondente
no pareamento (T) em cada fita numa posição do genótipo, e
atribuir 1 quando um dos dois (A ou T) ocorre  e 0 se não
ocorrem. Esta codificação resulta em:

0 - CC, CG, GC, GG)P(0) = 4*PC elevado a 2
1 - AC, AG, TC, TG, CA, GA, CT, GT)P(1) = 8*PA*PC

2 - AA, AT, TA, TT )P(2) = 4*PA elevado a 2

Sendo assim, preciso utilizar estas informações matemáticas no
R de modo a proceder a codificação. Alguém poderia me ajudar ?
Desde já agradeço.


Att,

Giselle



_______________________________________________
R-br mailing list
[3]R-br em listas.c3sl.ufpr.br
[4]https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem ([5]http://www.leg.ufpr.br/r-br-guia) e
forneça código mínimo reproduzível.

_______________________________________________

R-br mailing list

[6]R-br em listas.c3sl.ufpr.br

[7]https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br

Leia o guia de postagem ([8]http://www.leg.ufpr.br/r-br-guia) e
forneça código mínimo reproduzível.

References

1. http://lattes.cnpq.br/9234772336296638
2. http://geneticapopulacional.blogspot.com.br/2014/08/faststructure.html
3. mailto:R-br em listas.c3sl.ufpr.br
4. https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
5. http://www.leg.ufpr.br/r-br-guia
6. mailto:R-br em listas.c3sl.ufpr.br
7. https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
8. http://www.leg.ufpr.br/r-br-guia
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20140903/bd30b3ae/attachment.html>


Mais detalhes sobre a lista de discussão R-br