Inteligência artificial e aprendizado de máquinas requerem uso de grandes conjuntos de dados tanto na concepção de projetos como no próprio desenvolvimento dos recursos. O problema é quando esses conjuntos de dados contém erros que podem influenciar nossa própria concepção de quão boa uma inteligência artificial pode ser.
Segundo um estudo do Massachusetts Institute of Technology (MIT), cerca de 10 dos mais importantes bancos de dados possuem erro de rotulação, o que pode comprometer nossa régua de progresso no assunto. Dentre esses importantes conjuntos de dados estão o ImageNet, para reconhecimento facial, e MNIST, que trabalha com reconhecimento de imagens de números entre 0 e 9 escritos à mão.
No ImageNet, por exemplo, encontra-se erros de rotulação na casa dos 6% (5,8 para ser mais exato). Há terminologias racistas e sexistas e até mesmo uso de imagens de rostos sem qualquer consentimento (e que nos faz lembrar que seu rosto não é mais seu). Há, também, erros ainda mais básicos e tão graves quanto, como quando um cogumelo é rotulado como uma colher.
O texto da Technology Review detalha ainda como essa mensuração foi feita e o motivo de isso ser tão importante. Se uma inteligência artificial é construída com base em bancos de dados viciados e com erros de rotulação há uma grande chance de replicarmos problemas ao invés de solucioná-los. Um exemplo disso é quando a inteligência artificial apenas replica posicionamentos machistas ou reproduz estereótipos racistas.
Vale, e muito, a reflexão sobre datasets limpos, seja na origem, na manipulação ou na aplicação.