[R-br] Codificação

Benilton Carvalho beniltoncarvalho em gmail.com
Quarta Setembro 3 14:07:47 BRT 2014


Giselle,

adoraria ajudar, mas sua explicacao nao esta' clara. O que vc quer
exatamente? Apenas converter A e T para 1 e o remanescente para zero?

O arquivo que vc enviou (por favor, use a recomendacao do Edson) nao contem
as informacoes que eu em geral uso para genotipagem... Vc informa-nos os
alelos para cada locus (assumindo diploidia de milho), mas nao ha' muito o
que fazer com esta informacao... Voce poderia obter frequencias alelilas
para cada marcador, mas dai' para genotipos e' um passo que existe mais
informacao do que vc nos passou.

Se eu tiver entendido errado, por favor, envie-nos um email que contenha,
de forma resumida, a teoria necessaria e tambem exemplos dos calculos que
vc precisa.

b


Em 3 de setembro de 2014 11:44, Giselle Davi <giselle_davi em yahoo.com.br>
escreveu:

> Prezados Colaboradores,
>
>
> Tenho um arquivo com uma matriz formada por letras ( SNP: bases nitrogenadas:
> A, C, T, G)  e preciso codificá-la para números,  onde as letras A e T
> recebam 1 e as letras C e G recebam 0, formando assim uma matriz de
> genótipos Gn x m = {0;1;2} onde n é o número de indivíduos e m  o número
> de SNPs. Anexado a este e-mail encontra-se parte dessa matriz com dimensão
> 6 x 30 ( Facilitando, portanto, o envio) que necessita dessa codificação.
>
> Matematicamente, a sequência de SNP é atribuída ( A qual eu não precisei
> construir, pois  a sequência foi originada por  genotipagem ) como:
>
> Dado um valor para PA (probabilidade de ocorrer a base A) e para PC
> (probabilidade de C), de modo que PA= PT, PC = PG e PA+PC = 0; 5, então
> as bases são geradas do seguinte modo:
>  Se y existe (E virado para direita) [0;PA), a base é  A;
> Se y existe [PA;0:5), a base é C;
> Se y existe [0:5; (0:5+PC)), a base é G;
>  Se y existe [(0:5+PC);1], a base é T.
>
> Cada indivíduo possui um par de cromossomos homólogos, que se mantêm
> juntos por
> ligações entre as bases A e T e ligações entre as bases C e G. A
> codificação das sequências ( SNPs)
> deve ser feita, portanto, do seguinte modo: Contando o alelo de interesse
> (no caso, A) e seu correspondente
> no pareamento (T) em cada fita numa posição do genótipo, e atribuir 1
> quando um dos dois (A ou T) ocorre  e 0 se não ocorrem. Esta codificação
> resulta em:
>
>  0 - CC, CG, GC, GG)P(0) = 4*PC elevado a 2
> 1 - AC, AG, TC, TG, CA, GA, CT, GT)P(1) = 8*PA*PC
>  2 - AA, AT, TA, TT )P(2) = 4*PA elevado a 2
>
> Sendo assim, preciso utilizar estas informações matemáticas no R de modo a
> proceder a codificação. Alguém poderia me ajudar ? Desde já agradeço.
>
>
> Att,
>
> Giselle
>
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20140903/affab279/attachment.html>


Mais detalhes sobre a lista de discussão R-br