Modelos en los cuales la forma en la que se ajustan los parámetros de la red depende fuertemente de la información que reciben de conjuntos de pares entrada-salida. Es decir, para cada elemento de la entrada se provee la salida esperada, y en base a estos datos se actualizan los parámetros.
El más clásico de estos modelos es el perceptrón, y en su versión más sencilla el perceptrón simple.
Tiene una capa de entrada y una capa de salida. Es decir, no hay capas ocultas o intermedias.
Supongamos un perceptrón con $n$ neuronas de entrada y $m$ de salida.
Cada neurona de entrada $k$ se conecta con todas las salidas.
El espacio de entrada está compuesto de vectores de $n$ dimensiones y el de salida de vectores de $m$ dimensiones.
Cada neurona de salida $i$ recibe la suma total de los aportes de las neuronas de entrada, moduladas por la fuerza sináptica (peso) de la conexión particular.
$$ h_i = \sum_{k = 0}^{n - 1} w_{ik} \cdot \xi_k $$
Esta suma se utiliza como argumento de una función no lineal $g$ que determina si alcanza el umbral de disparo de la neurona para activarse. Al valor de activación lo llamaremos $\Omicron_i$.
$$ \Omicron_i = g(h_i) = g\bigg(\sum_{k = 0}^{n - 1} w_{ik} \cdot \xi_k\bigg) $$
La matriz de pesos sinápticos $W$ será de tamaño $m \times n$.
Por convención los umbrales de activación $\theta_i$ (biases) los tratamos como si fueran la neurona extra $\xi_0 = -1$ cuyos pesos $w_{i0} = \theta_i$:
$$ \Omicron_i = g\bigg(\sum_{k = 0}^{n - 1} w_{ik} \cdot \xi_k\bigg) = g\bigg(\sum_{k = 1}^{n} w_{ik} \cdot \xi_k - \theta_i\bigg) $$
Supongamos que nuestros datos son un conjunto de $P$ vectores $\xi_\mu$ y $\zeta_\mu$ que representan respectivamente la entrada y la salida esperada de la instancia $\mu$.