TOWARDS AUTOMATING LUNG-RADS CLASSIFICATION IN CLINICAL ROUTINE: INSIGHTS FROM PORTUGUESE RADIOLOGY REPORTS
Processamento de linguagem natural, Large Language Models, Extração de Informação, câncer de pulmão, Lung-RADS,
O câncer de pulmão tem a maior taxa de mortalidade entre todos os tipos de câncer, tanto para homens quanto para mulheres. Estima-se que o câncer de pulmão seja responsável por 21% das mortes por câncer em cada gênero. Essa estatística alarmante destaca o impacto significativo do câncer de pulmão na mortalidade geral por câncer, sublinhando a necessidade urgente de estratégias eficazes de prevenção, detecção precoce e tratamento para combater essa doença. O rastreamento do câncer de pulmão é um processo projetado para detectar o câncer de pulmão em indivíduos em risco, particularmente aqueles com histórico de tabagismo. Envolve tomografias computadorizadas de baixa dose anuais, interpretação cuidadosa dos resultados e acompanhamento oportuno para garantir a detecção e o tratamento precoces. Várias sociedades profissionais, incluindo a ACR e a Sociedade Fleischner, publicaram diretrizes para o manejo de pacientes com nódulos pulmonares detectados durante o rastreamento de câncer de pulmão. As diretrizes são uma ferramenta importante em programas de rastreamento que visam reduzir a incidência de exames de acompanhamento desnecessários e orientar o manejo ideal do paciente. Lung CT Screening Reporting & Data System (Lung-RADS) é um sistema de classificação padronizado para nódulos pulmonares detectados em exames de imagem, como tomografias computadorizadas. O Lung-RADS avalia o risco de malignidade (câncer) nesses nódulos e orienta as decisões de manejo subsequentes. Neste contexto, este trabalho visa analisar a eficácia de modelos de aprendizado profundo e LLM na extração de características de nódulos pulmonares de laudos de TC em português para permitir a classificação automatizada Lung-RADS. Este trabalho avaliou a eficácia de BiLSTM-CRF, BioBERTpt, Gemini 1.5 Flash, GPT-4-o e Llama-3 70B. Nossas descobertas indicam que o GPT-4-o emergiu como o melhor modelo, atingindo as métricas de avaliação mais altas em quatro das cinco classificações Lung-RADS no conjunto de teste, com um F1-score macro-médio de 0,73 e um F1-score ponderado de 0,96, destacando sua eficácia e confiabilidade na avaliação precisa de nódulos pulmonares em vários cenários de classificação.