• Hay un total de recursos sinápticos disponibles y las unidades de salida compiten para activarse (winner-takes-all)

  • Objetivo: agrupar (clusterizar) los datos de entrada → encontrar clases a partir de las correlaciones de los datos → esto requiere cierto grado de redundancia en los datos

    Untitled

  • La unidad ganadora $i^*$ maximiza ($\xi$ es el vector de entrada)

    $$ h_i = \sum_{j = 0}^n w_{ij}~\xi_j = w_i~\xi $$

    se cumple que

    $$ w_{i^*}\xi \geq w_i~\xi ~~\forall i $$

    o equivalentemente si los pesos están normalizados

    $$ |w_{i^*} - \xi| \geq |w_i - \xi| ~~\forall i $$

  • ¿Cómo aprende este tipo de modelo?

    • Regla general (caso binario $O_i \in \{0, 1\}$)

      $$ \Delta w_{i^*j} = \eta~O_i~(\xi_j^\mu - w_{ij}) $$

      $\mu$ representa una instancia particular de $\xi$. Notar que sólo se actualizan los pesos de la entrada ganadora.

    • Algoritmo

      1. Inicializar $w$ aleatoriamente con valores pequeños

      2. Elegir un patrón de entrada $\xi^\mu$ y presentarlo a la red

      3. Hallar la $i^*$ ganadora y actualizar $w_{i^*j}$

        Esto acerca el $w_{i^}$ a la entrada $\xi^\mu$ actual, incrementando la posibilidad de que $i^$ sea la unidad ganadora al presentarle a la red entradas parecidas.

      4. Repetir desde el paso 2.

      Untitled

    • Para que se alcance el equilibrio la muestra debe ser representativa

    • Funciones de costo

  • El problema de las unidades muertas: neuronas con $w$ lejos de cualquier entrada

    • Soluciones:
      • Inicializar $w$ con muestras de los datos de entrada
      • Actualizar los pesos de las unidades perdedoras con un $\eta$ menor
      • Si tenemos una métrica actualizar en forma decreciente según cercanía al ganador
  • Desventajas con respecto a perceptrones multicapa

    • Acá cada clase está representada por una unidad de salida → hay $n$ clases.
    • No son robustas → la pérdida de una neurona implica la pérdida de toda la clase
    • No pueden representar conocimiento jerárquico