30/11/21 13h25

Estudo permite aprimorar programas de machine learning para predição de propriedades de materiais

FAPESP

Os programas computacionais de aprendizado de máquina (machine learning) se destacam de todos os outros por terem a capacidade de aprender a partir da experiência, ou seja, a partir da interação com um conjunto de dados. Quanto maior a experiência, melhor é o desempenho desses programas ou modelos na tarefa para a qual foram criados. Contudo, erros acontecem e poder detectá-los e resolvê-los é essencial. 

Uma equipe de pesquisadores do Centro de Inovação em Novas Energias (CINE) – um Centro de Pesquisa em Engenharia (CPE) constituído por FAPESP e Shell – realizou um estudo sistemático dos erros cometidos por um modelo de aprendizado de máquina que tinha sido criado para predizer propriedades físico-químicas de um grupo de materiais. O trabalho, publicado no Journal of Chemical Information and Modeling, aumentou o entendimento dos erros e propôs soluções para tornar modelos desse tipo mais precisos. 

“Os resultados apresentados podem tornar o uso de métodos de aprendizado de máquina na ciência de materiais mais assertivo e menos custoso”, diz Luis Cesar de Azevedo, um dos autores do artigo que reporta o estudo, que teve apoio da FAPESP. 

De fato, existe um interesse crescente no uso de ferramentas de aprendizado de máquina com o objetivo de encontrar materiais ou moléculas que tenham as propriedades desejadas e, portanto, possam cumprir com eficiência determinadas funções em dispositivos ou sistemas. No programa de Ciência Computacional de Materiais e Química (CMSC) do CINE, trabalhos sobre aprendizado de máquina vêm sendo realizados com o objetivo de enfrentar a necessidade de desenvolver ou encontrar materiais eficientes para a geração e o armazenamento de energia. 

Para explorar o conjunto praticamente infinito de moléculas possíveis, métodos experimentais, nos quais é necessário sintetizar e caracterizar cada molécula, são impensáveis. Por outro lado, métodos computacionais tradicionais, apesar de serem menos custosos e demorados, tampouco são viáveis em alguns casos. Para ter uma ideia, enquanto simular uma única molécula por um método convencional como a Teoria do Funcional da Densidade pode levar alguns dias, analisar dezenas de milhares de compostos usando um programa de aprendizado de máquina pode tomar poucos segundos. 

Para isso, é necessário desenvolver um algoritmo (um conjunto de instruções computacionais) e utilizar uma base de dados previamente obtida pela comunidade científica por meio de métodos experimentais ou teóricos. O algoritmo deve, então, fazer seu treinamento, interagindo com os dados e reconhecendo padrões. O resultado dessa experiência é um modelo que será capaz de predizer as propriedades de materiais e moléculas que não constavam na base de dados inicial. 

“Apesar de existirem modelos com uma alta acurácia média em alguns domínios, esses modelos podem cometer erros discrepantes [outliers] para algumas moléculas”, explica Azevedo, que é membro do CMSC no CINE. “Este trabalho demonstrou que uma visão detalhada do erro, decompondo-o em erros sistemáticos [viés] e aleatórios [variância], pode mostrar características específicas do desempenho de predição.” 

O trabalho também identificou que a maioria dessas imprecisões acontece com moléculas planares (aquelas que possuem ângulos mais abertos e maior distância entre seus átomos). 

Felizmente, o artigo mostrou que é possível reduzir os erros utilizando uma combinação de modelos de aprendizado de máquina (ensemble) para predizer as propriedades dos materiais. Além disso, segundo os autores, ao preparar o treinamento do algoritmo é necessário realizar uma seleção mais criteriosa dos dados e dos descritores (os valores computacionais usados para descrever as moléculas do banco de dados). 

O estudo foi realizado no âmbito da pesquisa de mestrado em ciência da computação que Azevedo está realizando na Universidade Federal do ABC (UFABC), com a orientação do professor Ronaldo Prati. O trabalho contou com a colaboração de outros membros do CINE: os professores Juarez L. F. Da Silva (IQSC-USP) e Marcos Quiles (Unifesp), e o doutorando Gabriel A. Pinheiro (Unifesp). 

O artigo Systematic Investigation of Error Distribution in Machine Learning Algorithms Applied to the Quantum-Chemistry QM9 Data Set Using the Bias and Variance Decomposition pode ser lido em: https://pubs.acs.org/doi/10.1021/acs.jcim.1c00503. 

* Com informações da Assessoria de Comunicação do CINE. 

fonte: https://agencia.fapesp.br/estudo-permite-aprimorar-programas-de-imachine-learning-i-para-predicao-de-propriedades-de-materiais/37436/