Pesquisadores da USP melhoram performance de modelos de previsão do câncer de mama

Método, que trabalha com algoritmos baseados em aprendizado de máquina, registrou uma redução de 99% dos diagnósticos falsos negativos.

Cópia de Cópia de i (6)Método desenvolvido pela USP é capaz de diminuir o número de falsos negativos nos resultados. (Foto: Canva)

O câncer de mama é o tipo de câncer que mais atinge mulheres no Brasil, sendo também o câncer que causa o maior número de mortes neste mesmo grupo. Segundo informações do Instituto Nacional de Câncer (Inca), estima-se que 73.610 novos casos da doença sejam registrados em 2025. Considerando a importância do diagnóstico e do tratamento precoce, pesquisadores da Escola de Engenharia de São Carlos (EESC) da USP desenvolveram um método capaz de melhorar a performance de modelos de previsão do câncer de mama e diminuir o número de falsos negativos nos resultados. O estudo, que trabalhou com algoritmos que realizam diagnósticos de alta precisão, registrou uma redução de 99,41% dos falsos negativos presentes nas bases de dados utilizadas.

Algoritmos de aprendizado de máquina (machine learning) são muito úteis na área médica por aprenderem a identificar anormalidades com a análise de grandes quantidades de dados. Porém, João Pinheiro, mestrando na área de Inteligência Artificial na EESC, comenta ao Jornal da USP que problemas complexos, como o diagnóstico correto de uma doença grave, requerem que muitas métricas sejam avaliadas além da acurácia – proporção dos acertos do modelo pelo número de previsões realizadas. “Tem outras métricas que são mais importantes. (…) É um problema complexo de se tratar porque as métricas são correlacionadas. Se eu apenas focar no falso negativo também, vou deixar outras métricas muito baixas e o modelo vai perder a qualidade.”

A escolha em trabalhar com diagnósticos de câncer de mama também não foi por acaso. “É uma área muito rica em coleção de dados que podemos utilizar. Atendia às necessidades de provar quais seriam os modelos com melhor desempenho e tinha uma quantidade de dados suficiente e de boa qualidade”, declara Marcelo Becker, professor no Departamento de Engenharia Mecânica da EESC e coautor do estudo. Outra vantagem do enfoque escolhido foi a facilidade de comparação com outros modelos, justamente pela vasta disponibilidade de dados e pesquisas anteriores sobre o assunto.

João Pinheiro e Marcelo Becker optaram por lidar com algoritmos baseados em árvores de decisão, modelos simples e fáceis de serem interpretados, pois são estruturados em sequências de perguntas com respostas de sim ou não. A depender das respostas obtidas, o programa percorre diferentes ramos até chegar em um veredito. O diferencial do estudo foi a utilização da técnica de boosting, que vem da ideia de combinar um modelo básico com outros mais complexos e eficientes, gerando uma otimização do processo. “É como se a gente fosse treinar um monte de árvores sequencialmente”, afirma Pinheiro.

Os dados de alimentação para esses modelos de boosting são puramente numéricos. “Alguém realizou uma tomografia, e a partir dela você obtém algumas métricas numéricas”, continua o pesquisador. Marcelo destaca que os dados são disponibilizados para todos, de forma que diferentes pessoas podem testar programas e realizar melhorias em processos de diagnósticos.

“A escolha está, de fato, na performance desses modelos. Eles funcionam, são muito rápidos para treinar, são muito rápidos para inferir, e nesse exemplo que já temos os dados tabulados, eles têm performance às vezes superior a redes neurais” – João Pinheiro

Ao treinar os modelos de árvore de decisão com métricas específicas – como a chamada F1-Score, especializada em considerar falsos negativos e falsos positivos –, os pesquisadores conseguiram desenvolver um framework. Em outras palavras, eles foram capazes de criar um mecanismo de treino e melhoria que é aplicável, de forma genérica, nos diversos modelos de aprendizado de máquina que lidam com a previsão do câncer.

Testes realizados no estudo verificaram uma redução de 99,41% dos falsos negativos previstos nos bancos de dados utilizados. “Os modelos já têm uma performance relativamente satisfatória no aspecto dos dados. O que conseguimos mostrar é que podemos focar em falsos negativos e confiar o suficiente para gerar uma métrica robusta”, diz João Pinheiro ao Jornal da USP. Ele menciona que o alto poder de generalização também é um sinal positivo, já que é uma garantia de que o modelo será eficiente em lidar com novos dados posteriormente.

O potencial do método desenvolvido é que ele possa ser aplicado em outros tipos de algoritmos e, futuramente, em melhorias de identificação de falsos negativos. A pesquisa, associada ao trabalho de conclusão de curso (TCC) de Pinheiro, colabora para a formação de novas metodologias de otimização, tornando esse campo de estudo de machine learning mais robusto e fundamentando métricas confiáveis de problemas que podem, inclusive, ir além da predição do câncer de mama. Para Marcelo Becker, o interessante seria estimular parcerias com o campo da medicina, de forma que profissionais de diferentes áreas possam dar prosseguimento à linha de pesquisa.