Uma proposta de algoritmo para o Modelo AB de dobramento de proteínas

Autor: Rafael Castro Couto Orientador: Prof. Karina dos Santos Machado Co-orientador: Prof. Leonardo Emmendorfer Rio Grande, 2014

Sumário

Objetivo
Bionformática
Proteínas
Modelo AB
Cadeias Primárias no Modelo AB
Simulated Annealing
Algoritmos de Distribuição Estimada
Trabalhos Relacionados
Aprendizagem de Máquina
Algoritmo ANN
Algoritmo ELA
Aplicação para execução de experimentos
Resultados

Objetivo

O objetivo deste trabalho é propor um novo algoritmo para o dobramento de proteínas utilizando o Modelo AB.

Bionformática

Bioinformática tem como objetivo principal a análise de dados biológicos. Nessa área, computadores são usados para resolver problemas na área de ciências biológicas, envolvendo a manipulação de bancos de dados.
Um dos problemas mais importantes dentro da área de Bioinformática e Biologia computacional que continua em aberto é a predição do dobramento de proteínas.

Proteínas

Uma proteína pode ser definida como um polímero linear composto por aminoácidos.

Os aminoácidos são moléculas constituídas por um átomo de carbono alpha central, um átomo de hidrogênio, um grupo carboxilo, um grupo amino e uma cadeia lateral ou grupo R.

Moléculas que compõem um aminoácido.

Estrutura Primária

A sequência de aminoácidos ao longo da cadeia polipeptídica é denominada estrutura primária.

Existe a hipótese de a estrutura primária específica de cada proteína conter a informação que indica a sua conformação final e o caminho para atingir esse estado.

Sequência primária da proteína PTB ID 1AHO.

Estrutura Secundária

A estrutura secundária é determinada pelo relacionamento estrutural de curta distância e se caracteriza por duas formações principais: as alfa-hélices e as folhas-beta, além de estruturas de ligação chamadas alças.

Representação tridimencional de alfa-hélices

Representação tridimencional de folhas-beta.

Estrutura Terciária

A estrutura terciária caracterizada pelas interações de longa distância entre aminoácidos, denominadas interações hidrofóbicas, pelas interações eletrostáticas, pontes de hidrogênio e de sulfeto. É nesta forma que a proteína exerce sua função.

Estrutura terciária da proteína PDB ID 1AHO.

Estrutura Quaternária

As proteínas podem ter duas ou mais cadeias polipeptídicas, a conformação dessas cadeias em estruturas tridimensionais é a estrutura quaternária.

Estrutura quaternária da proteína PDB ID 1BVR.

Dobramento de Proteínas

A sequência de aminoácidos específica de uma proteína, também denominada estrutura primária, dobra-se para formar a sua configuração nativa. A dobra muda de acordo com as moléculas que as rodeiam, incluindo enzimas, concentração dos sais, a pressão, a temperatura, enfim de infinitos elementos.
De acordo com Anfinsen, a conformação nativa de uma proteína, é a configuração termodinamicamente mais estável. Assim, o problema de predição de dobramento pode ser visto como um problema de otimização NP-completo.

Modelo AB

No Modelo AB, a proteína é descrita como uma sequência de aminoácidos hidrofóbicos (A) e hidrófilos (B). Muitas propriedades como massa, volume e carga eletromagnética também não são consideradas.
Nesse modelo, os ângulos são restritos entre -180º e + 180º.

Estrutura de proteína bidimensional no Modelo AB.

Cálculo da Energia no Modelo AB

Onde E representa a energia, N corresponde ao comprimento da sequência de aminoácidos, a é o tipo do aminoácido (A ou B), C são as cargas dadas, theta é o ângulo entre os aminoácidos e d a distância entre os aminoácidos.

Cadeias Primárias inspiradas na série Fibonacci

Foram geradas cadeias de acordo com a sequência de Fibonacci, onde o próximo elemento é resultado da concatenação dos últimos dois elementos de acordo com a função: f(0) = A; f(1) = B; f(n) = f(n-2) + f(n-1).

FIBO6(13) ABBABBABABBAB
FIBO7(21) BABABBABABBABBABABBAB
FIBO8(34) ABBABBABABBABBABABBABABBABBABABBAB
FIBO9(55) BABABBABABBABBABABBABABBABBABABBABBABABBABABBABBABABBAB

Cadeias Primárias inspiradas na proteínas reais

Foram utilizadas duas sequências inspiradas em proteínas reais. Para obter as cadeias, os aminoácidos tipo I, V, L, P, C, M, A e G são considerados hidrofóbicos e representados pela letra A e os resíduos D, E, F, H, K, N, Q, R, S, T, W e Y considerados hidrófilos e representados pela letra B.

1AGT(34) AAAABABABABABAABAABBAAABBABAABBBABABAB
1AHO(64) ABBABAABBABABBBAABBABABBBABBABABBABABBABABABAABABBAABBABBBAAABAB

Mapeamento do espaço de busca

Foi desenvolvida uma aplicação calcular a energia em todas as conformações possíveis de uma proteína simplificada de acordo com o Modelo AB.
Com o objetivo de gerar gráficos bidimensionais, foram utilizados tetrâmeros, ou seja, cadeias com quatro aminoácidos. O primeiro e o último ângulo não mudam a conformação do modelo de proteína, pois sua alteração não gera uma dobra. Mudar os ângulos das extremidades significa girar toda a proteína. Portanto, o conjunto de todas as possíveis soluções para os tetrâmeros pode ser repesentado como um vetor bidimensional.

Resultado do Mapeamento

A geração de um único gráfico com a resolução da Figura, com 20 faixas de ângulos, ou seja, com uma discretização de (180º)/20 em cada eixo, resulta na computação de 400 modelos. É possível encontrar este valor através da equação abaixo, onde P é o número de modelos de proteínas possíveis, R é a quantidade de faixas de ângulos, ou seja, a resolução do gráfico e N é o comprimento da cadeia primária.

P = R ^{(N - 2)}

Supondo a geração de um gráfico multidimensional com a mesma resolução para uma proteína de somente 12 aminoácidos, seriam calculadas 20¹⁰ modelos de proteínas. Mesmo se o cálculo de um único modelo demorasse apenas um milésimo de segundo, a suposta geração do gráfico demoraria centenas de anos.

Simulated Annealing

Simulated Annealing (SA) é uma meta heurística genérica para problemas de otimização global que consiste em uma técnica de busca local probabilística. É usada normalmente em grandes espaços de busca e se fundamenta numa analogia com a segunda lei da termodinâmica. Seu nome é inspirado no processo de recozimento, utilizado em metalurgia para obtenção de estados de baixa energia num sólido. Neste processo, o metal é inicialmente aquecido à altas temperaturas e, em seguida, é resfriado lentamente e seu resfriamento é acompanhado e controlado de acordo com funções específicas.

O método utiliza portanto um valor T que é corresponde à temperatura. Inicialmente é gerada uma solução aleatória, nesse momento, a temperatura T assume um valor elevado. Para cada nova solução gerada ocorre a comparação entre o resultado encontrado e a melhor solução encontrada. Se a solução encontrada for melhor que a anterior, esta é substituída pela nova solução. Caso contrário, ultiliza-se uma função onde pode ser aplicado o Fator de Boltzmann, para determinar se a solução será aceita.

EDAs

EDAs utilizam uma distribuição de probabilidade, que pode ser codificada por uma rede Bayesiana, uma distribuição normal multivariada, ou outra classe de modelo e consideram as relações entre as conexões.

EDAs iniciam a busca criando um conjunto de soluções. Inicia-se então um ciclo de análise dos resultados, seleção de bons resultados e geração de novo conjunto de soluções. O critério de parada que interrompe o ciclo pode ser de acordo com o número de etapas, o tempo de execução, entre outros.

Aprendizagem de Máquina

O conceito de Aprendizagem de Máquina pode ser descrito como um processo cujo objetivo é melhorar a performance na solução de um problema através da experiência acumulada nas soluções anteriores.

Trabalhos Relacionados

A hipótese de Anfisen levanta dois principais problemas. O primeiro é desenvolver uma fórmula que defina a energia de uma proteína real. O segundo problema é desenvolver os métodos computacionais de otimização para busca da energia mínima através dessa fórmula.
Em 1993, Stillinger, Head-Gordon e Hirshfeld publicam o Modelo AB.
Em um artigo posterior, Stillinger ressalta a importância das sequências de aminoácidos para o modelo e analisa proteínas de até 55 aminoácidos: Center Doped (An-B-An) e inspiradas na série de Fibonacci.

Trabalhos Relacionados - Resultados

ACMC (Annealing Contour Monte Carlo) é uma versão acelerada do algoritmo CMC. O CMC é uma generalização do algoritmo Wang-Landau e do algoritmo 1/k-ensemble.
STMD (Statistical Temperature Molecular Dynamics) utiliza dados estatísticos relacionados à temperatura no lugar das densidades dos estados em uma distribuição Wang-Landau.
HTS (Heuristic-based Tabu Search) integra mecanismos de conformação heurística e o método TS tradicional.
CSA (Conformational Space Annealing) estreita a busca para regiões menores de acordo com uma distância determinada.

Proposta de algoritmo
para o Modelo AB

Neste trabalho são propostos dois algoritmos para o Modelo AB. O primeiro algoritmo, chamado de algoritmo ANN é inspirado no Simulated Annealing. Devido à sua simplicidade, este algoritmo converge sempre para um ótimo local.

Por esse motivo foi desenvolvido um algoritmo mais complexo denominado ELA, capaz de explorar o espaço de busca de forma inteligente. O segundo algoritmo proposto é baseado nos algoritmos EDAs e nos conceitos de aprendizagem de máquina.

Algoritmo ANN

De forma análoga ao método Simulated Annealing, porém de forma simplificada, foi desenvolvido o algoritmo ANN que substitui a solução atual por uma solução próxima, escolhida de acordo com uma função objetivo e com uma variável que representa a temperatura.

Esse algoritmo não possui nenhuma função específica que torne possível a aceitação de soluções inferiores às encontradas anteriormente e não utiliza nenhum tipo de aleatoriedade.

O valor inicial a dos ângulos é determinado pelo usuário. A cada etapa, cada ângulo do modelo é alterado nas duas direções, positiva e negativa, calculando a energia de ambas conformações. É escolhida então a conformação mais estável entre as três conformações calculadas (direção positiva +a, direção negativa -a e não alterar o ângulo). Após o cálculo do último ângulo da cadeia é decrementado o valor de a através do parâmetro delta.

Algoritmo ELA
Estimated Learning Algorithm

O conceito de aprendizagem de máquina foi incorporado ao algoritmo de forma que, a cada dobramento, um conjunto de dados proveniente da busca pela solução fosse armazenado, guardando a experiência do algoritmo. Ao gerar novos dobramentos o algoritmo usa essa experiência para obter melhores soluções.

A inspiração proveniente dos EDAs para o algoritmo proposto foi a de utilizar fatores de aleatoriedade sempre guiados por valores específicos que estabelecem relação com as conexões entre os dados do problema.

Gera-se um conjunto inicial de soluções lineares e são inicializados os parâmetros de Rigidez e Eficiência. A partir daí, a cada etapa, são selecionados os resultados que servirão de referência para a geração de novas soluções, em seguida, é feita uma seleção multinomial através da Eficiência. É então realizada a alteração dos ângulos aleatoriamente através de uma função Gaussiana que considera o inverso da Rigidez como eficiência. Por fim, o conjunto é ordenado por energia de forma crescente.

A Eficiência é inicializada com valor um para todos os aminoácidos sendo este o valor mínimo aceitável, isso significa que, no início da execução, todos aminoácidos têm a mesma chance de serem selecionados. Existem dois parâmetros que determinam como serão alterados os valores de Eficiência, um parâmetro para os casos de sucesso e outro para os de falha. O número de ângulos selecionados por vez é determinado pelo usuário.

A Rigidez influencia diretamente no valor do incremento do ângulo gerado em cada novo dobramento, sendo que quanto mais rígido menor provavelmente será o novo ângulo gerado. Dessa forma, no início da busca as mudanças são maiores e, na medida em que a proteína se dobra, aumenta a probabilidade de gerar ângulos mais agudos, provocando assim um ajuste cada vez mais fino dos ângulos. É possível alterar o valor da Rigidez dos ângulos vizinhos sempre que existe uma alteração dos parâmetros. Com isso é possível tornar uma determinada parcela da cadeia mais rígida, conservando assim trechos onde a dobra foi bem sucedida.

Aplicação para execução de experimentos

Com o objetivo de executar os algoritmos ANN e ELA, auxiliar a calibragem dos parâmetros e demonstrar os resultados obtidos, foi desenvolvida uma aplicação com interface de usuário amigável capaz de serializar os testes e armazenar os dados em disco para posterior análise.

Cada conjunto de testes é realizado repetidamente com os mesmos parâmetros para a mesma cadeia por um número de vezes previamente determinado. Uma tabela é preenchida em tempo real com os ângulos e energias do melhor modelo encontrado em cada teste. Ao fim de cada conjunto de testes, um gráfico é gerado demonstrando a performance dos modelos gerados.

Após diversos conjuntos de testes, ao fim da execução, um novo gráfico interativo onde são exibidos os valores de enegia obtidos pelos melhores modelos de cada conjuntos teste e sua média.

Resultados

Após uma calibragem inicial manual através da análise individual dos dados, partiu-se para a análise devida dos parâmetros que foram considerados mais relevantes para esta contribuição. Foram realizados 30 testes para cada conjunto de parâmetros analizados utilizando a cadeia Fibonacci(7) com 21 aminoácidos na cadeia.

Observa-se, pela média, que todos os conceitos contribuem para melhorar os resultados obtidos, porém nem sempre o mínimo encontrado em cada conjunto de testes acompanha a média dos resultados dos testes.

Um valor positivo para a Eficiência em caso de sucesso, significa que, caso uma dobra naquele ângulo resulte em um modelo mais estável, a chance de selecionar novamente o mesmo ângulo será maior. No caso desse mesmo valor ser negativo, a chance de voltarmos à este aminoácido será menor.

O valor ideal para essa sequência é de 1 para os casos de sucesso e de 0,0000005 para os casos de falha.

Quando é realizada uma alteração no valor da Rigidez de um ângulo, também são alterados um número determinado de vizinhos. Foi utilizada uma expressão linear para distribuir essa alteração. Para a sequência testada, de acordo com a média, o valor ideal de vizinhos é de três.

Cadeia	ACMC	STMD	HTS	CSA	ELA+ANN
FIBO6(13)	-3.2941	-3.2941	-3.2941	-3.2941	-3.27562491074513
FIBO7(21)	-6.1976	-6.1980	-6.1680	-6.1980	-6.0578768984653
FIBO8(34)	-10.8060	-10.8060	-10.8060	-10.8060	-9.23852675468751
FIBO9(55)	-18.7407	-18.9202	-19.257	-18.9296	-13.441023912647
1AGT(34)	-	-	-23.0575	-	-23.2433303926769
1AHO(64)	-	-	-22.7554	-	-21.7818222352442

Resultados

Conclusão

O trabalho aponta diversas áreas para pesquisas futuras que podem tornar a proposta mais abrangente.
Apesar dos resultados serem muito importantes para a proposta, o que se espera é validar as técnicas propostas e no futuro combiná-las com outras, gerando heurísticas de alto nível que possam ser utilizadas em outros problemas complexos.

Uma proposta de algoritmo para o Modelo AB de dobramento de proteínas

Sumário

Objetivo

Bionformática

Proteínas

Estrutura Primária

Estrutura Secundária

Estrutura Terciária

Estrutura Quaternária

Dobramento de Proteínas

Modelo AB

Cálculo da Energia no Modelo AB

Cadeias Primárias inspiradas na série Fibonacci

Cadeias Primárias inspiradas na proteínas reais

Mapeamento do espaço de busca

Resultado do Mapeamento

Simulated Annealing

EDAs

Aprendizagem de Máquina

Trabalhos Relacionados

Trabalhos Relacionados - Resultados

Proposta de algoritmo para o Modelo AB

Algoritmo ANN

Algoritmo ELAEstimated Learning Algorithm

Aplicação para execução de experimentos

Resultados

Resultados

Conclusão

Obrigado a todos!

Proposta de algoritmo
para o Modelo AB

Algoritmo ELA
Estimated Learning Algorithm