📽️ presentación

LeviMarino-slides.pdf

📝 notas

introducción

históricamente la literatura académica sobre la evaluación de sistemas de inteligencia artificial fue basada sobre modelos cuyos parámetros, datos y metodologías de desarrollo son abiertamente compartidos con la comunidad científica.

en los últimos años, los desarrolladores más prominentes de state-of-the-art AI empezaron a adoptar políticas más prohibitivas sobre los detalles de los modelos.

background

limitaciones de los métodos black-box

  1. no son adecuados para desarrollar entendimiento generalizable

    el espacio de inputs es inmanejable. esto fuerza a los auditores a desarrollar heurísticas para generar inputs relevantes para la evaluación.

  2. impide que los componentes del sistema se estudien por separado

    analizar componentes de un sistema por separado es el método estrella de la ingeniería y la ciencia. con sólo black-box access, no podemos saber siquiera qué componentes tiene el sistema, ni hablemos de analizarlos.

  3. puede producir resultados engañosos

    las auditorías black-box están sesgadas a cómo los auditores diseñan inputs. esto puede llevar a evaluaciones erróneas sobre las características o riesgos del sistema.

  4. producen explicaciones poco confiables

    las explicaciones que pueden producir las auditorías black-box son, en el mejor de los casos, contrafácticas ya que no pueden identificar relaciones causales entre el input y el output.

    además, preguntarle a un LLM sobre la justificación de sus respuestas suele producir explicaciones falsas.

  5. ofrecen poca información sobre los problemas que detectan

    el accionable principal ofrecido por éstos métodos es agregar los inputs problemáticos al dataset para entrenar con ellos, pero esta estrategia no ataca los problemas de raíz (ya que no son conocidos) y puede introducir nuevos problemas.

ventajas de los métodos white-box