Aprendizaje supervisado
El aprendizaje supervisado consiste en entrenar un modelo a partir de un conjunto de datos etiquetados. Datos etiquetados significa que los datos de entrada se emparejan con la salida correcta. El objetivo es que el modelo aprenda la relación entre los datos de entrada y los de salida para poder hacer predicciones o clasificar con precisión datos nuevos y desconocidos. Hay dos tipos principales de aprendizaje supervisado:
-
Clasificación: Consiste en predecir una etiqueta categórica. Por ejemplo, determinar si un correo electrónico es spam o no en función de ciertas características (como las palabras utilizadas, el remitente, etc.). Para la clasificación se utilizan algoritmos como las máquinas de vectores soporte (SVM), los árboles de decisión y las redes neuronales.
-
Regresión: Consiste en predecir un valor continuo. Por ejemplo, predecir el precio de una casa basándose en sus características, como la superficie, el número de dormitorios, etc. Para las tareas de regresión se utilizan algoritmos como Linear Regression, Random Forest y Gradient Boosting.
Aprendizaje no supervisado
El aprendizaje no supervisado consiste en entrenar un modelo a partir de un conjunto de datos no etiquetados. En este caso, el algoritmo intenta encontrar patrones ocultos o estructuras intrínsecas en los datos sin ninguna supervisión explícita. El objetivo es explorar los datos, comprender su estructura y extraer conclusiones significativas. Entre los tipos más comunes de aprendizaje no supervisado se incluyen:
-
Agrupación: Agrupación de puntos de datos similares en función de determinadas características o similitudes. Por ejemplo, la agrupación de segmentos de clientes en función de su comportamiento de compra mediante algoritmos como K-Means o la agrupación jerárquica.
-
Reducción de la dimensionalidad: Reducir el número de características conservando la información esencial. El análisis de componentes principales (ACP) y la incrustación estocástica de vecinos distribuida (t-SNE) se utilizan para visualizar datos de alta dimensión en un espacio de menor dimensión.
Cuándo utilizar cada uno
-
El aprendizaje supervisado se utiliza cuando se dispone de datos etiquetados y se desea predecir o clasificar instancias futuras basándose en esos datos etiquetados. Por ejemplo, si dispone de datos históricos sobre compras de clientes y desea predecir compras futuras, el aprendizaje supervisado resulta adecuado.
-
El aprendizaje no supervisado se utiliza cuando no se dispone de datos etiquetados o cuando se desea explorar y comprender la estructura subyacente de los datos. Por ejemplo, en la detección de anomalías o la búsqueda de patrones ocultos en grandes conjuntos de datos.
A veces, puede emplearse una combinación de ambos tipos de aprendizaje, conocida como aprendizaje semisupervisado, cuando se dispone de una pequeña cantidad de datos etiquetados y una gran cantidad de datos sin etiquetar, lo que permite a los modelos beneficiarse de ambas fuentes de información.