históricamente la literatura académica sobre la evaluación de sistemas de inteligencia artificial fue basada sobre modelos cuyos parámetros, datos y metodologías de desarrollo son abiertamente compartidos con la comunidad científica.
en los últimos años, los desarrolladores más prominentes de state-of-the-art AI empezaron a adoptar políticas más prohibitivas sobre los detalles de los modelos.
definiciones
regulaciones
evaluaciones confiables de riesgos
por ejemplo, tests para garantizar la ausencia de sesgo discriminatorio, como en una ley newyorkina de 2021 donde se requerían los mismos antes de la implementación de una herramienta automatizada de reclutamiento. además de los ejemplos más triviales como evaluaciones de calidad y/o performance.
explicaciones certeras de los comportamientos del modelo
sobre todo en la Unión Europea las regulaciones vigentes exigen que cuando un sistema automatizado de toma de decisiones afecta a un individuo, este último puede reclamar una explicación (y esta explicación puede concederle derecho a resarcimiento)
no son adecuados para desarrollar entendimiento generalizable
el espacio de inputs es inmanejable. esto fuerza a los auditores a desarrollar heurísticas para generar inputs relevantes para la evaluación.
impide que los componentes del sistema se estudien por separado
analizar componentes de un sistema por separado es el método estrella de la ingeniería y la ciencia. con sólo black-box access, no podemos saber siquiera qué componentes tiene el sistema, ni hablemos de analizarlos.
puede producir resultados engañosos
las auditorías black-box están sesgadas a cómo los auditores diseñan inputs. esto puede llevar a evaluaciones erróneas sobre las características o riesgos del sistema.
producen explicaciones poco confiables
las explicaciones que pueden producir las auditorías black-box son, en el mejor de los casos, contrafácticas ya que no pueden identificar relaciones causales entre el input y el output.
además, preguntarle a un LLM sobre la justificación de sus respuestas suele producir explicaciones falsas.
ofrecen poca información sobre los problemas que detectan
el accionable principal ofrecido por éstos métodos es agregar los inputs problemáticos al dataset para entrenar con ellos, pero esta estrategia no ataca los problemas de raíz (ya que no son conocidos) y puede introducir nuevos problemas.