Skip to content

Nobel de Química e IA

O prêmio do Nobel de Química de 2024 foi bem polêmico porque foi para um grupo de 3 cientistas que usaram IA para desvendarmais sobre as proteínas, sendo 2 deles do Google DeepMind! Foi o segundo prêmio anunciado para algo envolvido com IA (o primeiro foi o de física).

Isso despertou uma enxurrada de comentários (a favor e contra). Não é a primeira vez que eu vejo o assunto proteína associada com IA, e, por isso, resolvi trazer aqui pro blog.

Dei uma lida no artigo do prêmio original, fiz algumas pesquisas e montei esse post para tentar contextualizar a grandeza disso. Também, no final tem uma lista de papers, spaces e modelos no Hugging Face relacionados a esse mundo das proteínas.

O motivo do prêmio

Metade do prêmio foi para os 2 cientistas do Google DeepMind, chamados DEMIS HASSABIS (quem criou a DeepMind e depois vendeu pro Google) e JOHN M. JUMPER (cientista que trabalhou com simuladores de proteínas e depois foi trabalhar na DeepMind).

A outra metade foi para um outro cientista chamado DAVID BAKER.

Prêmio do DeepMind

Primeiro, vamos entender o que os caras do DeepMind fizeram! Tem 50 anos que a comunidade científica tenta achar um método eficiente de mapear a estrutura tridimensional das proteínas. Existe um método bem caro e lento que é usando Raio-X, e não se aplica em todos os casos.

As proteínas são formadas por blocos menores, chamados aminoácidos. Existe um numero finito deles (se minha pesquisa foi correta, são 20). Eles se combinam em uma sequência para formar uma proteína que pode ser de 10 aminoácidos, ou milhares. E alem dessa quantidade variável, eles podem formar estruturas diferentes. Por exemplo, elas pode formar uma estrutura quadrada, circular, etc… Por que isso é importante? Simples, a estrutura da proteína define suas funcionalidades e propriedades… E uma descoberta de muitos anos atrás: Essa sequência gere sempre a mesma forma… Isto é, se sabemos a sequência de aminoácidos que uma proteína compõe, então, conseguimos prever a sua estrutura tridimensional.

E é aqui onde o Google DeepMind aparece. Esses 2 cientistas criaram um modelo chamado de IAa chamado AlphaFold, que, a partir e uma dada sequência de aminoácidos, ele consegue desenhar a estrutura dimensional da proteína. Note que até antes desse modelo, o melhor método para descobrir isso era usando o Raio-X.

Tem um projeto/competição chamado CASP (Critical Assessment of Protein Structure Prediction), e desde 1994 tem cientista do mundo inteiro apresentando métodos para achar a estrutura da proteína. Eles recebem uma sequência de aminoácidos e precisam dizer qual a estrutura (que já era determinada, mas não divulgada no evento) a partir do que conhecem… Até antes do AlphaFold, eles tinham uma precisão de 40%… Na primeira versão do AlphaFold, onde somente o Demis e seu time atuava, ele acertou 60%. Na segunda versão, o AlphaFold2, que teve incluído os trabalhos do John, e que incorporou a arquitetura transformers (a mesma dos LLMs), o modelo acertou quase igual ao método do Raio-X.

Basicamente, os caras conseguiram fazer um trabalho que demorava anos, ser executados em alguns minutos. Eles mapearam a estrutura de 200 milhões proteínas dos mais variados organismos da Terra. E o mais legal é que tudo isso tá online e gratuito: AlphaFold Protein Structure Database (ebi.ac.uk). Por exemplo, para os fãs de academia, olha algumas proteínas que encontrei:

BCAA
(a parte em azul indica que o AlphaFold2 tem muita confiança que essa é a estrutura correta)
Essa aqui é famosa hein… É beta-lactoglobulina, que é um dos principais presente no Whey Protein
(a parte em amarelo indica que o AlphaFold2 não tem muita confiança que é isso mesmo)

Prêmio do DAVID BAKER

O outro cara que ganhou o prêmio foi mais ousado ainda. Ele criou um software chamado Rosetta em que, partir de uma estrutura desejada de proteínas, ele retornava a sequência de aminoácidos para formar essa estrutura. Ou seja, ele criou um jeito de criar proteínas. E isso, ao mesmo tempo que é incrível, é assustador e bizarro!

Já prepara ai o seu kit sobrevivência em apocalipse zumbi, pois a merda tá feita. Brincadeiras a parte, esse cara e o seu time fizeram algo incrível ao conseguir criar um software que consegue fazer isso. E é confirmado: Eles testam isso em bactérias, células, etc., e confirma que a estrutura formada realmente está correta. Uma dessas proteínas se chama Top7.

Ele também viu o potencial da arquitetura Transformers e adicionou no Rosetta, o que deixou o software ainda mais poderoso.

Proteínas no mundo da IA

Eu resolvi trazer esse post porque lembrei que, ao iniciar os estudos de IA e entrar no Discord do Hugging Face, eu vejo constantemente alguma coisa relacionado a proteínas… Eu nunca parei para ler a fundo e entender (até porque, já tenho muito assunto pra estudar)…

Eu resolvi trazer alguns links que talvez ajudem aí quem é da área a conhecer esses estudos, ou até os modelos de IA que foram treinados para alguma coisa relacionada a isso. Por exemplo, já existe o que chamam de Protein Language Model (PLM), que são modelos para gerar informações sobre a estrutura de proteínas e suas funções.. SINISTRO isso!!!

Todos os conteúdos estão em inglês, portanto, caso não tenha prática de ler, pode usar algum tradutor para te ajudar. Segue:

E tem muito mais… Busque no Google por protein site:HuggingFace.co e verá o quanto de coisas tem!

Essa história me lembrou muito a história das expressões regulares… Pra quem não conhece, expressão regular é um jeito muito poderoso de encontrar padrões no texto! Praticamente, todo sistema de tecnologia no mundo usa isso em algum momento, e até na IA, isso é usado (na hora de preparar,por exemplo, os datasets). A expressões regulares surgiram com cientistas estudando o sistema nervoso… E cá estamos com elas aqui sendo usadas bastante no dia dia! Quem sabe esses avanços na química também, de alguma forma, não possam ser reaproveitados um dia para o mundo da IA? Veremos…

Ahh, se você quiser aprender TUDO sobre as expressões regulares de um jeito leve, recomendo muito esse livro ONLINE e gratuito do Aurélio. É simplesmente um dos melhores conteúdos que eu já li na minha vida.

Leave a Reply

Your email address will not be published. Required fields are marked *