O Primeiro Software de Bioinformática



Os primórdios da bioinformática se deu há mais de 50 anos, quando os computadores desktop ainda eram uma hipótese e nem se sonhava em sequenciar o DNA . O COMPROTEIN, foi o primeiro software de bioinformática, desenvolvido por Margareth Dayhoff (1925-1983) e Robert Ledley . O programa rodava num mainframe IBM 7090 e usava um cartão perfurado contendo uma linha de código FORTRAN (o idioma com o qual COMPROTEIN foi escrito). Na figura( C ) vemos o código-fonte de um programa inteiro escrito em cartões perfurados (Fonte: Gauthier et al., 2019)


Estudantes e pesquisadores de hoje acreditam piamente que a bioinformática moderna surgiu recentemente para auxiliar a análise de dados de sequenciamento de última geração (mais conhecido pela sigla NGS). No entanto, poucos sabem que os primórdios da bioinformática se deu há mais de 50 anos, quando os computadores desktop ainda eram uma hipótese e nem se sonhava em sequenciar  o DNA. Para se ter uma ideia, as bases da bioinformática foram lançadas no início dos anos 1960 com a aplicação de métodos computacionais para análise de sequências de proteínas (notavelmente, montagem de novo de sequências, bases de dados de sequências biológicas e modelos de substituição).
No início da década de 1950, pouco se sabia sobre o DNA (ácido desoxirribonucleico) e o seu protagonismo como a molécula transportadora de informação genética ainda não estava bem definido. Por conta disso, o uso da bioinformática na análise de DNA ficou quase duas décadas atrás da análise de proteínas, cuja natureza química já era melhor compreendida do que o DNA.
"No final da década de 1950, além de grandes avanços na determinação de estruturas de proteínas através da cristalografia, foi publicada a primeira sequência (ou seja, o arranjo da cadeia de aminoácidos) de uma proteína, a insulina . Este grande acontecimento não só  resolveu o debate sobre o arranjo da cadeia polipeptídica das proteínas como estimulou o desenvolvimento de métodos mais eficientes para obtenção de sequências de proteínas. O método de degradação de Edman surgiu nesse contexto. O método de degradação de Edman surgiu como um método simples que permitia o sequenciamento de proteínas, um aminoácido de cada vez a partir do N-terminal. Juntamente com a automação, mais de 15 famílias de proteínas diferentes foram sequenciadas nos 10 anos seguintes.
Um grande problema com o sequenciamento de Edman foi a obtenção de grandes sequências de proteínas. O sequenciamento de Edman funciona através da clivagem um a um de resíduos de aminoácidos N-terminais com fenilisotiocianato. No entanto, o rendimento desta reação nunca é completo. Por causa disso, um máximo teórico de 50-60 aminoácidos pode ser sequenciado em uma única reação de Edman . Proteínas maiores devem ser clivadas em fragmentos menores, que são então separados e sequenciados individualmente.
A questão não era sequenciar uma proteína em si, mas sim montar toda a sequência proteica a partir de centenas de pequenas sequências peptídicas de Edman. Para proteínas grandes feitas de várias centenas (se não milhares) de resíduos, recuperar a sequência final era complicado. No início da década de 1960, um dos primeiros softwares de bioinformática conhecidos foi desenvolvido para resolver esse problema.
Margaret Dayhoff (1925-1983) foi uma físico-química americana pioneira na aplicação de métodos computacionais no campo da bioquímica. A contribuição de Dayhoff para este campo é tão importante que David J. Lipman, ex-diretor do Centro Nacional de Informações sobre Biotecnologia (NCBI), a chamou de 'a mãe e o pai da bioinformática'.
Dayhoff usou métodos computacionais extensivamente para sua tese de doutorado em eletroquímica e viu o potencial dos computadores nas áreas de biologia e medicina. Em 1960, tornou-se Diretora Associada da National Biomedical Resource Foundation. Lá, ela começou a trabalhar com Robert S. Ledley, físico que também buscava trazer recursos computacionais para problemas biomédicos . De 1958 a 1962, ambos combinaram seus conhecimentos e desenvolveram o COMPROTEIN, 'um programa de computador completo para o IBM 7090' projetado para determinar a estrutura primária de proteínas usando dados de sequenciamento de peptídeos de Edman . Este software, totalmente codificado em FORTRAN em cartões perfurados, é a primeira ocorrência do que chamaríamos hoje de um montador de sequência de novo.
No software COMPROTEIN, as sequências de aminoácidos de entrada e saída foram representadas em abreviaturas de três letras (por exemplo, Lys para lisina, Ser para serina). Em um esforço para simplificar o manuseio de dados de sequência de proteínas, Dayhoff desenvolveu posteriormente o código de aminoácidos de uma letra que ainda está em uso hoje . Este código de uma letra foi usado pela primeira vez no Atlas de Sequência e Estrutura de Proteínas de Dayhoff e Eck de 1965 , o primeiro banco de dados de sequências biológicas. A primeira edição do Atlas continha 65 sequências de proteínas, a maioria das quais eram variantes interespecíficas de um punhado de proteínas. Por isso, o primeiro Atlas passou a ser um conjunto de dados ideal para dois pesquisadores (Zuckerkandl e Pauling) que levantaram a hipótese de que as sequências de proteínas refletem a história evolutiva das espécies". Mais isso já é uma outra história. 
 
Texto desenvolvido com base no artigo de Jeff Gauthier, Antony T Vincent, Steve J Charette, Nicolas Derome, A brief history of bioinformatics, Briefings in Bioinformatics, Volume 20, Issue 6, November 2019, Pages 1981–1996, https://doi.org/10.1093/bib/bby063

Comentários

Postagens mais visitadas deste blog

A Mariposa da Morte

Ilustrações da Mitose

Adeus ao Passarinho