Um Benchmark Multifacetado para Avaliação de Viés e Equidade em Modelos de Linguagem de Grande Escala
Benchmark, linguagem de modelos, enviesamento
Este trabalho apresenta um estudo sobre avaliação de preconceito e justiça em grandes modelos de linguagem (LLMs). O avanço da inteligência artificial (IA) levantou sérias preocupações sobre preconceitos, como a discriminação e a estigmatização, nos conjuntos de dados utilizados para treinar estes modelos. Conjuntos de dados de referência têm sido usados com sucesso em inúmeras avaliações de parcialidade e imparcialidade de modelos de aprendizado de máquina. No entanto, estes conjuntos de dados universais são frequentemente tratados como uma solução única, na qual os dados são acoplados às métricas que utilizam para as avaliações, e a relação entre conjuntos de dados e métricas é muitas vezes confundida. Apesar dos seus benefícios, estes conjuntos de dados também podem obscurecer e descontextualizar dimensões subtis de preconceito, que podem, ao permanecerem implícitos, prejudicar ainda mais os grupos marginalizados. Para lidar com estes problemas e apoiar a natureza contextual do preconceito, apresentamos um método de referência multifacetado para avaliar o preconceito e a justiça em modelos LLM. Ao introduzir um novo método baseado num método de referência multifacetado, este trabalho irá avançar o estado da arte na avaliação de preconceitos e justiça nos modelos e, em geral, contribuir para o fornecimento de abordagens mais inclusivas e responsáveis para o desenvolvimento. de modelos de IA justos e éticos.