
Prezados Colaboradores, Tenho um arquivo com uma matriz formada por letras ( SNP: bases nitrogenadas: A, C, T, G) e preciso codificá-la para números, onde as letras A e T recebam 1 e as letras C e G recebam 0, formando assim uma matriz de genótipos Gn x m = {0;1;2} onde n é o número de indivíduos e m o número de SNPs. Anexado a este e-mail encontra-se parte dessa matriz com dimensão 6 x 30 ( Facilitando, portanto, o envio) que necessita dessa codificação. Matematicamente, a sequência de SNP é atribuída ( A qual eu não precisei construir, pois a sequência foi originada por genotipagem ) como: Dado um valor para PA (probabilidade de ocorrer a base A) e para PC (probabilidade de C), de modo que PA= PT, PC = PG e PA+PC = 0; 5, então as bases são geradas do seguinte modo: Se y existe (E virado para direita) [0;PA), a base é A; Se y existe [PA;0:5), a base é C; Se y existe [0:5; (0:5+PC)), a base é G; Se y existe [(0:5+PC);1], a base é T. Cada indivíduo possui um par de cromossomos homólogos, que se mantêm juntos por ligações entre as bases A e T e ligações entre as bases C e G. A codificação das sequências ( SNPs) deve ser feita, portanto, do seguinte modo: Contando o alelo de interesse (no caso, A) e seu correspondente no pareamento (T) em cada fita numa posição do genótipo, e atribuir 1 quando um dos dois (A ou T) ocorre e 0 se não ocorrem. Esta codificação resulta em: 0 - CC, CG, GC, GG)P(0) = 4*PC elevado a 2 1 - AC, AG, TC, TG, CA, GA, CT, GT)P(1) = 8*PA*PC 2 - AA, AT, TA, TT )P(2) = 4*PA elevado a 2 Sendo assim, preciso utilizar estas informações matemáticas no R de modo a proceder a codificação. Alguém poderia me ajudar ? Desde já agradeço. Att, Giselle

Gisele, na lista foi adotado a rotina de não anexar arquivos aos emails e sim postar os arquivos, por exemplo, no site http://www.datafilehost.com/ Busque no Google "Avaliar dados de genética no software R" Olha o que eu achei: http://geneticapopulacional.blogspot.com.br/ fastStructure fastStructure é um algoritmo para inferir a estrutura da população a partir de grandes volumes de dados genótipo SNP. Baseia-se em um quadro Bayesian variacional para posterior inferência e é escrito em python2.x. Aqui, resumimos como configurar este pacote de software, compilar os scripts de C e Cython e executar o algoritmo em um teste simulado dataset genótipo. Boa sorte! Edson Lira Estatístico Manaus-Amazonas Em Quarta-feira, 3 de Setembro de 2014 10:45, Giselle Davi <giselle_davi@yahoo.com.br> escreveu: Prezados Colaboradores, Tenho um arquivo com uma matriz formada por letras ( SNP: bases nitrogenadas: A, C, T, G) e preciso codificá-la para números, onde as letras A e T recebam 1 e as letras C e G recebam 0, formando assim uma matriz de genótipos Gn x m = {0;1;2} onde n é o número de indivíduos e m o número de SNPs. Anexado a este e-mail encontra-se parte dessa matriz com dimensão 6 x 30 ( Facilitando, portanto, o envio) que necessita dessa codificação. Matematicamente, a sequência de SNP é atribuída ( A qual eu não precisei construir, pois a sequência foi originada por genotipagem ) como: Dado um valor para PA (probabilidade de ocorrer a base A) e para PC (probabilidade de C), de modo que PA= PT, PC = PG e PA+PC = 0; 5, então as bases são geradas do seguinte modo: Se y existe (E virado para direita) [0;PA), a base é A; Se y existe [PA;0:5), a base é C; Se y existe [0:5; (0:5+PC)), a base é G; Se y existe [(0:5+PC);1], a base é T. Cada indivíduo possui um par de cromossomos homólogos, que se mantêm juntos por ligações entre as bases A e T e ligações entre as bases C e G. A codificação das sequências ( SNPs) deve ser feita, portanto, do seguinte modo: Contando o alelo de interesse (no caso, A) e seu correspondente no pareamento (T) em cada fita numa posição do genótipo, e atribuir 1 quando um dos dois (A ou T) ocorre e 0 se não ocorrem. Esta codificação resulta em: 0 - CC, CG, GC, GG)P(0) = 4*PC elevado a 2 1 - AC, AG, TC, TG, CA, GA, CT, GT)P(1) = 8*PA*PC 2 - AA, AT, TA, TT )P(2) = 4*PA elevado a 2 Sendo assim, preciso utilizar estas informações matemáticas no R de modo a proceder a codificação. Alguém poderia me ajudar ? Desde já agradeço. Att, Giselle _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Obrigado pelo aviso. Eu sabia que isso é convenção em algumas listas, mas eu não sabia especificamente nesta. [1]Leonardo Ferreira Fontenelle Em Qua 3 set. 2014, às 12:21, Edson Lira escreveu: Gisele, na lista foi adotado a rotina de não anexar arquivos aos emails e sim postar os arquivos, por exemplo, no site http://www.datafilehost.com/ Busque no Google "Avaliar dados de genética no software R" Olha o que eu achei: http://geneticapopulacional.blogspot.com.br/ [2]fastStructure fastStructure é um algoritmo para inferir a estrutura da população a partir de grandes volumes de dados genótipo SNP. Baseia-se em um quadro Bayesian variacional para posterior inferência e é escrito em python2.x. Aqui, resumimos como configurar este pacote de software, compilar os scripts de C e Cython e executar o algoritmo em um teste simulado dataset genótipo. Boa sorte! Edson Lira Estatístico Manaus-Amazonas Em Quarta-feira, 3 de Setembro de 2014 10:45, Giselle Davi <giselle_davi@yahoo.com.br> escreveu: Prezados Colaboradores, Tenho um arquivo com uma matriz formada por letras ( SNP: bases nitrogenadas: A, C, T, G) e preciso codificá-la para números, onde as letras A e T recebam 1 e as letras C e G recebam 0, formando assim uma matriz de genótipos Gn x m = {0;1;2} onde n é o número de indivíduos e m o número de SNPs. Anexado a este e-mail encontra-se parte dessa matriz com dimensão 6 x 30 ( Facilitando, portanto, o envio) que necessita dessa codificação. Matematicamente, a sequência de SNP é atribuída ( A qual eu não precisei construir, pois a sequência foi originada por genotipagem ) como: Dado um valor para PA (probabilidade de ocorrer a base A) e para PC (probabilidade de C), de modo que PA= PT, PC = PG e PA+PC = 0; 5, então as bases são geradas do seguinte modo: Se y existe (E virado para direita) [0;PA), a base é A; Se y existe [PA;0:5), a base é C; Se y existe [0:5; (0:5+PC)), a base é G; Se y existe [(0:5+PC);1], a base é T. Cada indivíduo possui um par de cromossomos homólogos, que se mantêm juntos por ligações entre as bases A e T e ligações entre as bases C e G. A codificação das sequências ( SNPs) deve ser feita, portanto, do seguinte modo: Contando o alelo de interesse (no caso, A) e seu correspondente no pareamento (T) em cada fita numa posição do genótipo, e atribuir 1 quando um dos dois (A ou T) ocorre e 0 se não ocorrem. Esta codificação resulta em: 0 - CC, CG, GC, GG)P(0) = 4*PC elevado a 2 1 - AC, AG, TC, TG, CA, GA, CT, GT)P(1) = 8*PA*PC 2 - AA, AT, TA, TT )P(2) = 4*PA elevado a 2 Sendo assim, preciso utilizar estas informações matemáticas no R de modo a proceder a codificação. Alguém poderia me ajudar ? Desde já agradeço. Att, Giselle _______________________________________________ R-br mailing list [3]R-br@listas.c3sl.ufpr.br [4]https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem ([5]http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível. _______________________________________________ R-br mailing list [6]R-br@listas.c3sl.ufpr.br [7]https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem ([8]http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível. References 1. http://lattes.cnpq.br/9234772336296638 2. http://geneticapopulacional.blogspot.com.br/2014/08/faststructure.html 3. mailto:R-br@listas.c3sl.ufpr.br 4. https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br 5. http://www.leg.ufpr.br/r-br-guia 6. mailto:R-br@listas.c3sl.ufpr.br 7. https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br 8. http://www.leg.ufpr.br/r-br-guia

Giselle, adoraria ajudar, mas sua explicacao nao esta' clara. O que vc quer exatamente? Apenas converter A e T para 1 e o remanescente para zero? O arquivo que vc enviou (por favor, use a recomendacao do Edson) nao contem as informacoes que eu em geral uso para genotipagem... Vc informa-nos os alelos para cada locus (assumindo diploidia de milho), mas nao ha' muito o que fazer com esta informacao... Voce poderia obter frequencias alelilas para cada marcador, mas dai' para genotipos e' um passo que existe mais informacao do que vc nos passou. Se eu tiver entendido errado, por favor, envie-nos um email que contenha, de forma resumida, a teoria necessaria e tambem exemplos dos calculos que vc precisa. b Em 3 de setembro de 2014 11:44, Giselle Davi <giselle_davi@yahoo.com.br> escreveu:
Prezados Colaboradores,
Tenho um arquivo com uma matriz formada por letras ( SNP: bases nitrogenadas: A, C, T, G) e preciso codificá-la para números, onde as letras A e T recebam 1 e as letras C e G recebam 0, formando assim uma matriz de genótipos Gn x m = {0;1;2} onde n é o número de indivíduos e m o número de SNPs. Anexado a este e-mail encontra-se parte dessa matriz com dimensão 6 x 30 ( Facilitando, portanto, o envio) que necessita dessa codificação.
Matematicamente, a sequência de SNP é atribuída ( A qual eu não precisei construir, pois a sequência foi originada por genotipagem ) como:
Dado um valor para PA (probabilidade de ocorrer a base A) e para PC (probabilidade de C), de modo que PA= PT, PC = PG e PA+PC = 0; 5, então as bases são geradas do seguinte modo: Se y existe (E virado para direita) [0;PA), a base é A; Se y existe [PA;0:5), a base é C; Se y existe [0:5; (0:5+PC)), a base é G; Se y existe [(0:5+PC);1], a base é T.
Cada indivíduo possui um par de cromossomos homólogos, que se mantêm juntos por ligações entre as bases A e T e ligações entre as bases C e G. A codificação das sequências ( SNPs) deve ser feita, portanto, do seguinte modo: Contando o alelo de interesse (no caso, A) e seu correspondente no pareamento (T) em cada fita numa posição do genótipo, e atribuir 1 quando um dos dois (A ou T) ocorre e 0 se não ocorrem. Esta codificação resulta em:
0 - CC, CG, GC, GG)P(0) = 4*PC elevado a 2 1 - AC, AG, TC, TG, CA, GA, CT, GT)P(1) = 8*PA*PC 2 - AA, AT, TA, TT )P(2) = 4*PA elevado a 2
Sendo assim, preciso utilizar estas informações matemáticas no R de modo a proceder a codificação. Alguém poderia me ajudar ? Desde já agradeço.
Att,
Giselle
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
participantes (4)
-
Benilton Carvalho
-
Edson Lira
-
Giselle Davi
-
Leonardo Ferreira Fontenelle