Uma proposta de algoritmo para o Modelo AB de dobramento de proteínas
Autor: Rafael Castro Couto
Orientador: Prof. Karina dos Santos Machado
Co-orientador: Prof. Leonardo Emmendorfer
Rio Grande, 2014
Sumário
- Objetivo
- Bionformática
- Proteínas
- Modelo AB
- Cadeias Primárias no Modelo AB
- Simulated Annealing
- Algoritmos de Distribuição Estimada
- Trabalhos Relacionados
- Aprendizagem de Máquina
- Algoritmo ANN
- Algoritmo ELA
- Aplicação para execução de experimentos
- Resultados
Objetivo
O objetivo deste trabalho é propor um novo algoritmo para o dobramento de proteínas utilizando o Modelo AB.
Bionformática
Bioinformática tem como objetivo principal a análise de dados biológicos. Nessa área, computadores são usados para resolver problemas na área de ciências biológicas, envolvendo a manipulação de bancos de dados.
Um dos problemas mais importantes dentro da área de Bioinformática e Biologia computacional que continua em aberto é a predição do dobramento de proteínas.
Proteínas
Uma proteína pode ser definida como um polímero linear composto por aminoácidos.
Os aminoácidos são moléculas constituídas por um átomo de carbono alpha central, um átomo de hidrogênio, um grupo carboxilo, um grupo amino e uma cadeia lateral ou grupo R.
Moléculas que compõem um aminoácido.
Estrutura Primária
A sequência de aminoácidos ao longo da cadeia polipeptídica é denominada estrutura primária.
Existe a hipótese de a estrutura primária específica de cada proteína conter a informação que indica a sua conformação final e o caminho para atingir esse estado.
Sequência primária da proteína PTB ID 1AHO.
Estrutura Secundária
A estrutura secundária é determinada pelo relacionamento estrutural de curta distância e se caracteriza por duas formações principais: as alfa-hélices e as folhas-beta, além de estruturas de ligação chamadas alças.
Representação tridimencional de alfa-hélices
Representação tridimencional de folhas-beta.
Estrutura Terciária
A estrutura terciária caracterizada pelas interações de longa distância entre aminoácidos, denominadas interações hidrofóbicas, pelas interações eletrostáticas, pontes de hidrogênio e de sulfeto. É nesta forma que a proteína exerce sua função.
Estrutura terciária da proteína PDB ID 1AHO.
Estrutura Quaternária
As proteínas podem ter duas ou mais cadeias polipeptídicas, a conformação dessas cadeias em estruturas tridimensionais é a estrutura quaternária.
Estrutura quaternária da proteína PDB ID 1BVR.
Dobramento de Proteínas
A sequência de aminoácidos específica de uma proteína, também denominada estrutura primária, dobra-se para formar a sua configuração nativa. A dobra muda de acordo com as moléculas que as rodeiam, incluindo enzimas, concentração dos sais, a pressão, a temperatura, enfim de infinitos elementos.
De acordo com Anfinsen, a conformação nativa de uma proteína, é a configuração termodinamicamente mais estável. Assim, o problema de predição de dobramento pode ser visto como um problema de otimização NP-completo.
Modelo AB
No Modelo AB, a proteína é descrita como uma sequência de aminoácidos hidrofóbicos (A) e hidrófilos (B). Muitas propriedades como massa, volume e carga eletromagnética também não são consideradas.
Nesse modelo, os ângulos são restritos entre -180º e + 180º.
Estrutura de proteína bidimensional no Modelo AB.
Cálculo da Energia no Modelo AB
Onde E representa a energia, N corresponde ao comprimento da sequência de aminoácidos, a é o tipo do aminoácido (A ou B), C são as cargas dadas, theta é o ângulo entre os aminoácidos e d a distância entre os aminoácidos.
Cadeias Primárias inspiradas na série Fibonacci
Foram geradas cadeias de acordo com a sequência de Fibonacci, onde o próximo elemento é resultado da concatenação dos últimos dois elementos de acordo com a função: f(0) = A; f(1) = B; f(n) = f(n-2) + f(n-1).
- FIBO6(13) ABBABBABABBAB
- FIBO7(21) BABABBABABBABBABABBAB
- FIBO8(34) ABBABBABABBABBABABBABABBABBABABBAB
- FIBO9(55) BABABBABABBABBABABBABABBABBABABBABBABABBABABBABBABABBAB
Cadeias Primárias inspiradas na proteínas reais
Foram utilizadas duas sequências inspiradas em proteínas reais. Para obter as cadeias, os aminoácidos tipo I, V, L, P, C, M, A e G são considerados hidrofóbicos e representados pela letra A e os resíduos D, E, F, H, K, N, Q, R, S, T, W e Y considerados hidrófilos e representados pela letra =b>B.
- 1AGT(34) AAAABABABABABAABAABBAAABBABAABBBABABAB
- 1AHO(64) ABBABAABBABABBBAABBABABBBABBABABBABABBABABABAABABBAABBABBBAAABAB
Mapeamento do espaço de busca
Foi desenvolvida uma aplicação calcular a energia em todas as conformações possíveis de uma proteína simplificada de acordo com o Modelo AB.
Com o objetivo de gerar gráficos bidimensionais, foram utilizados tetrâmeros, ou seja, cadeias com quatro aminoácidos. O primeiro e o último ângulo não mudam a conformação do modelo de proteína, pois sua alteração não gera uma dobra. Mudar os ângulos das extremidades significa girar toda a proteína. Portanto, o conjunto de todas as possíveis soluções para os tetrâmeros pode ser repesentado como um vetor bidimensional.
Resultado do Mapeamento
A geração de um único gráfico com a resolução da Figura, com 20 faixas de ângulos, ou seja, com uma discretização de (180º)/20 em cada eixo, resulta na computação de 400 modelos. É possível encontrar este valor através da equação abaixo, onde P é o número de modelos de proteínas possíveis, R é a quantidade de faixas de ângulos, ou seja, a resolução do gráfico e N é o comprimento da cadeia primária.
P = R (N - 2)
Supondo a geração de um gráfico multidimensional com a mesma resolução para uma proteína de somente 12 aminoácidos, seriam calculadas 2010 modelos de proteínas. Mesmo se o cálculo de um único modelo demorasse apenas um milésimo de segundo, a suposta geração do gráfico demoraria centenas de anos.
Simulated Annealing
Simulated Annealing (SA) é uma meta heurística genérica para problemas de otimização global que consiste em uma técnica de busca local probabilística. É usada normalmente em grandes espaços de busca e se fundamenta numa analogia com a segunda lei da termodinâmica. Seu nome é inspirado no processo de recozimento, utilizado em metalurgia para obtenção de estados de baixa energia num sólido. Neste processo, o metal é inicialmente aquecido à altas temperaturas e, em seguida, é resfriado lentamente e seu resfriamento é acompanhado e controlado de acordo com funções específicas.
O método utiliza portanto um valor T que é corresponde à temperatura. Inicialmente é gerada uma solução aleatória, nesse momento, a temperatura T assume um valor elevado. Para cada nova solução gerada ocorre a comparação entre o resultado encontrado e a melhor solução encontrada. Se a solução encontrada for melhor que a anterior, esta é substituída pela nova solução. Caso contrário, ultiliza-se uma função onde pode ser aplicado o Fator de Boltzmann, para determinar se a solução será aceita.
EDAs
EDAs utilizam uma distribuição de probabilidade, que pode ser codificada por uma rede Bayesiana, uma distribuição normal multivariada, ou outra classe de modelo e consideram as relações entre as conexões.
EDAs iniciam a busca criando um conjunto de soluções. Inicia-se então um ciclo de análise dos resultados, seleção de bons resultados e geração de novo conjunto de soluções. O critério de parada que interrompe o ciclo pode ser de acordo com o número de etapas, o tempo de execução, entre outros.
Aprendizagem de Máquina
O conceito de Aprendizagem de Máquina pode ser descrito como um processo cujo objetivo é melhorar a performance na solução de um problema através da experiência acumulada nas soluções anteriores.
Trabalhos Relacionados
A hipótese de Anfisen levanta dois principais problemas. O primeiro é desenvolver uma fórmula que defina a energia de uma proteína real. O segundo problema é desenvolver os métodos computacionais de otimização para busca da energia mínima através dessa fórmula.
Em 1993, Stillinger, Head-Gordon e Hirshfeld publicam o Modelo AB.
Em um artigo posterior, Stillinger ressalta a importância das sequências de aminoácidos para o modelo e analisa proteínas de até 55 aminoácidos: Center Doped (An-B-An) e inspiradas na série de Fibonacci.
Trabalhos Relacionados - Resultados
- ACMC (Annealing Contour Monte Carlo) é uma versão acelerada do algoritmo CMC. O CMC é uma generalização do algoritmo Wang-Landau e do algoritmo 1/k-ensemble.
- STMD (Statistical Temperature Molecular Dynamics) utiliza dados estatísticos relacionados à temperatura no lugar das densidades dos estados em uma distribuição Wang-Landau.
- HTS (Heuristic-based Tabu Search) integra mecanismos de conformação heurística e o método TS tradicional.
- CSA (Conformational Space Annealing) estreita a busca para regiões menores de acordo com uma distância determinada.
Proposta de algoritmo
para o Modelo AB
Neste trabalho são propostos dois algoritmos para o Modelo AB. O primeiro algoritmo, chamado de algoritmo ANN é inspirado no Simulated Annealing. Devido à sua simplicidade, este algoritmo converge sempre para um ótimo local.
Por esse motivo foi desenvolvido um algoritmo mais complexo denominado ELA, capaz de explorar o espaço de busca de forma inteligente. O segundo algoritmo proposto é baseado nos algoritmos EDAs e nos conceitos de aprendizagem de máquina.
Algoritmo ANN
De forma análoga ao método Simulated Annealing, porém de forma simplificada, foi desenvolvido o algoritmo ANN que substitui a solução atual por uma solução próxima, escolhida de acordo com uma função objetivo e com uma variável que representa a temperatura.
Esse algoritmo não possui nenhuma função específica que torne possível a aceitação de soluções inferiores às encontradas anteriormente e não utiliza nenhum tipo de aleatoriedade.
O valor inicial a dos ângulos é determinado pelo usuário. A cada etapa, cada ângulo do modelo é alterado nas duas direções, positiva e negativa, calculando a energia de ambas conformações. É escolhida então a conformação mais estável entre as três conformações calculadas (direção positiva +a, direção negativa -a e não alterar o ângulo). Após o cálculo do último ângulo da cadeia é decrementado o valor de a através do parâmetro delta.
Algoritmo ELA
Estimated Learning Algorithm
O conceito de aprendizagem de máquina foi incorporado ao algoritmo de forma que, a cada dobramento, um conjunto de dados proveniente da busca pela solução fosse armazenado, guardando a experiência do algoritmo. Ao gerar novos dobramentos o algoritmo usa essa experiência para obter melhores soluções.
A inspiração proveniente dos EDAs para o algoritmo proposto foi a de utilizar fatores de aleatoriedade sempre guiados por valores específicos que estabelecem relação com as conexões entre os dados do problema.
Gera-se um conjunto inicial de soluções lineares e são inicializados os parâmetros de Rigidez e Eficiência. A partir daí, a cada etapa, são selecionados os resultados que servirão de referência para a geração de novas soluções, em seguida, é feita uma seleção multinomial através da Eficiência. É então realizada a alteração dos ângulos aleatoriamente através de uma função Gaussiana que considera o inverso da Rigidez como eficiência. Por fim, o conjunto é ordenado por energia de forma crescente.
A Eficiência é inicializada com valor um para todos os aminoácidos sendo este o valor mínimo aceitável, isso significa que, no início da execução, todos aminoácidos têm a mesma chance de serem selecionados. Existem dois parâmetros que determinam como serão alterados os valores de Eficiência, um parâmetro para os casos de sucesso e outro para os de falha. O número de ângulos selecionados por vez é determinado pelo usuário.
A Rigidez influencia diretamente no valor do incremento do ângulo gerado em cada novo dobramento, sendo que quanto mais rígido menor provavelmente será o novo ângulo gerado. Dessa forma, no início da busca as mudanças são maiores e, na medida em que a proteína se dobra, aumenta a probabilidade de gerar ângulos mais agudos, provocando assim um ajuste cada vez mais fino dos ângulos. É possível alterar o valor da Rigidez dos ângulos vizinhos sempre que existe uma alteração dos parâmetros. Com isso é possível tornar uma determinada parcela da cadeia mais rígida, conservando assim trechos onde a dobra foi bem sucedida.
Aplicação para execução de experimentos
Com o objetivo de executar os algoritmos ANN e ELA, auxiliar a calibragem dos parâmetros e demonstrar os resultados obtidos, foi desenvolvida uma aplicação com interface de usuário amigável capaz de serializar os testes e armazenar os dados em disco para posterior análise.
Cada conjunto de testes é realizado repetidamente com os mesmos parâmetros para a mesma cadeia por um número de vezes previamente determinado. Uma tabela é preenchida em tempo real com os ângulos e energias do melhor modelo encontrado em cada teste. Ao fim de cada conjunto de testes, um gráfico é gerado demonstrando a performance dos modelos gerados.
Após diversos conjuntos de testes, ao fim da execução, um novo gráfico interativo onde são exibidos os valores de enegia obtidos pelos melhores modelos de cada conjuntos teste e sua média.
Resultados
Após uma calibragem inicial manual através da análise individual dos dados, partiu-se para a análise devida dos parâmetros que foram considerados mais relevantes para esta contribuição. Foram realizados 30 testes para cada conjunto de parâmetros analizados utilizando a cadeia Fibonacci(7) com 21 aminoácidos na cadeia.
Observa-se, pela média, que todos os conceitos contribuem para melhorar os resultados obtidos, porém nem sempre o mínimo encontrado em cada conjunto de testes acompanha a média dos resultados dos testes.
Um valor positivo para a Eficiência em caso de sucesso, significa que, caso uma dobra naquele ângulo resulte em um modelo mais estável, a chance de selecionar novamente o mesmo ângulo será maior. No caso desse mesmo valor ser negativo, a chance de voltarmos à este aminoácido será menor.
O valor ideal para essa sequência é de 1 para os casos de sucesso e de 0,0000005 para os casos de falha.
Quando é realizada uma alteração no valor da Rigidez de um ângulo, também são alterados um número determinado de vizinhos. Foi utilizada uma expressão linear para distribuir essa alteração. Para a sequência testada, de acordo com a média, o valor ideal de vizinhos é de três.
Cadeia | ACMC | STMD | HTS | CSA | ELA+ANN |
FIBO6(13) | -3.2941 | -3.2941 | -3.2941 | -3.2941 | -3.27562491074513 |
FIBO7(21) | -6.1976 | -6.1980 | -6.1680 | -6.1980 | -6.0578768984653 |
FIBO8(34) | -10.8060 | -10.8060 | -10.8060 | -10.8060 | -9.23852675468751 |
FIBO9(55) | -18.7407 | -18.9202 | -19.257 | -18.9296 | -13.441023912647 |
1AGT(34) | - | - | -23.0575 | - | -23.2433303926769 |
1AHO(64) | - | - | -22.7554 | - | -21.7818222352442 |
Resultados
Conclusão
O trabalho aponta diversas áreas para pesquisas futuras que podem tornar a proposta mais abrangente.
Apesar dos resultados serem muito importantes para a proposta, o que se espera é validar as técnicas propostas e no futuro combiná-las com outras, gerando heurísticas de alto nível que possam ser utilizadas em outros problemas complexos.