Aprendizaje Automático No Supervisado: Algoritmos, Tipos con Ejemplo

Updated on:

¿Qué es el aprendizaje no supervisado?

El aprendizaje no supervisado es una técnica fundamental en el campo del aprendizaje automático. A diferencia del aprendizaje supervisado, en el que se utilizan datos etiquetados, el aprendizaje no supervisado se basa en datos no etiquetados, lo que significa que los usuarios no necesitan supervisar directamente el modelo. En lugar de eso, el modelo trabaja de manera autónoma para descubrir patrones y obtener información oculta en los datos. Esta capacidad de explorar y encontrar estructuras intrínsecas en los datos no etiquetados es una de las principales fortalezas del aprendizaje no supervisado.

Algoritmos de aprendizaje no supervisado

Los algoritmos de aprendizaje no supervisado son herramientas poderosas para realizar tareas de procesamiento más complejas y descubrir conocimientos valiosos a partir de datos no etiquetados. Aunque el aprendizaje no supervisado puede ser más impredecible en comparación con otros métodos de aprendizaje automático, ofrece una amplia gama de algoritmos y enfoques que se adaptan a diferentes escenarios y tipos de datos. Algunos de los algoritmos de aprendizaje no supervisado más comunes incluyen el agrupamiento (clustering), la detección de anomalías, las redes neuronales no supervisadas, entre otros.

En esta guía, exploraremos diversos aspectos del aprendizaje no supervisado, incluyendo:

  • Ejemplo de aprendizaje automático no supervisado.
  • ¿Por qué el aprendizaje no supervisado?
  • Tipos de agrupamiento de algoritmos de aprendizaje no supervisados.
  • Agrupación.
  • Tipos de agrupamiento.
  • Asociación.
  • Aprendizaje automático supervisado y no supervisado.
  • Aplicaciones del aprendizaje automático no supervisado.
  • Desventajas del aprendizaje no supervisado.

Cada sección te proporcionará información valiosa sobre el aprendizaje no supervisado y cómo se aplica en diferentes contextos. Prepárate para sumergirte en estos temas y expandir tus conocimientos en el campo del aprendizaje automático no supervisado.

Ejemplo de aprendizaje automático no supervisado

Para ilustrar el concepto de aprendizaje no supervisado, consideremos un ejemplo con un bebé y el perro de su familia.

El bebé está familiarizado y puede identificar a este perro en particular. Sin embargo, unas semanas más tarde, un amigo de la familia trae consigo otro perro e intenta jugar con el bebé.

El bebé nunca ha visto a este nuevo perro antes, pero rápidamente reconoce que comparte muchas características con su perro mascota: tiene dos orejas, ojos y camina sobre cuatro patas. Basándose en estas similitudes, el bebé identifica al nuevo animal como un perro. Este proceso de reconocimiento y clasificación sin instrucción explícita es un ejemplo de aprendizaje no supervisado, donde el bebé aprende de los datos disponibles (en este caso, información sobre un perro).

En contraste, si este hubiera sido un caso de aprendizaje supervisado, el amigo de la familia habría dicho directamente al bebé que el nuevo animal es un perro, como se muestra en la imagen anterior. Este ejemplo ilustra la diferencia entre el aprendizaje no supervisado y el aprendizaje supervisado, donde en este último caso, se proporciona información etiquetada para guiar el proceso de aprendizaje.

Mira Tambien«La Inteligencia Artificial en la Vida Cotidiana: 13 Casos de Uso»

«¿Por qué el aprendizaje no supervisado?

El aprendizaje no supervisado se utiliza en el campo del aprendizaje automático por varias razones:

  1. Descubrimiento de patrones: Permite encontrar patrones y estructuras ocultas en los datos sin la necesidad de etiquetas. Esto es especialmente útil en conjuntos de datos complejos.
  2. Extracción de características: Ayuda a identificar características relevantes en los datos, lo cual puede ser utilizado en tareas de clasificación o predicción.
  3. Análisis exploratorio de datos: Proporciona una forma de explorar y comprender los datos sin suposiciones previas, permitiendo descubrir nuevas perspectivas y relaciones.
  4. Eficiencia en la recopilación de datos: Obtener grandes cantidades de datos no etiquetados es más fácil que obtener datos etiquetados. El aprendizaje no supervisado aprovecha esta disponibilidad para extraer información valiosa.

En este contexto, se abordan diferentes tipos de algoritmos de agrupamiento, que se utilizan para organizar los datos en grupos o clústeres.

A continuación, exploraremos el concepto de agrupación con más detalle.

Agrupación

El proceso de agrupación desempeña un papel fundamental en el aprendizaje no supervisado. Consiste en descubrir estructuras o patrones en conjuntos de datos no categorizados. Los algoritmos de agrupación en el aprendizaje no supervisado analizan los datos y encuentran agrupaciones naturales, si las hay. Además, tienes la capacidad de ajustar el número de clústeres que deseas identificar, lo que te permite controlar la granularidad de los grupos.

Existen diferentes tipos de agrupación que puedes utilizar:

  1. Agrupación exclusiva (particionamiento): En este método de agrupación, los datos se asignan a un solo grupo. Cada punto de datos pertenece a un único clúster.

K-medias

  1. Agrupación aglomerativa: En esta técnica de agrupación, cada dato se considera un grupo individual al principio. Luego, se realizan fusiones iterativas entre los dos clústeres más cercanos para reducir el número total de clústeres.

Agrupamiento jerárquico

  1. Agrupación por superposición: En esta técnica, se utilizan conjuntos borrosos para agrupar los datos. Cada punto de datos puede pertenecer a dos o más grupos con distintos grados de pertenencia. Se asocia un valor de membresía apropiado a cada dato.

Medias C difusas

  1. Agrupación probabilística: Esta técnica se basa en la distribución de probabilidad para crear los grupos. Los datos se asignan a los grupos en función de la probabilidad de pertenecer a cada uno de ellos.

Palabras clave siguientes

  • «zapato de hombre»
  • «zapato de mujer»
  • «guante de mujer»
  • «guante de hombre»

En este caso, los datos pueden agruparse en dos categorías: «zapato» y «guante», o bien «hombre» y «mujer».

Es importante tener en cuenta que la elección del algoritmo de agrupación depende de la naturaleza de los datos y del objetivo del análisis. Cada tipo de agrupación tiene sus ventajas y desventajas, y es fundamental seleccionar el enfoque adecuado para obtener resultados precisos y significativos.

Mira TambienAprendizaje Profundo vs Aprendizaje Automático : ¿Cuál es la Diferencia?

Tipos de agrupamiento

Los siguientes son los tipos de agrupamiento de aprendizaje automático:

  1. Agrupación jerárquica
  2. Agrupamiento de K-medias
  3. K-NN (k vecinos más cercanos)
  4. Análisis de componentes principales
  5. Valor singular de descomposición
  6. Análisis de componentes independientes

Agrupación jerárquica

El agrupamiento jerárquico es un algoritmo que construye una jerarquía de clústeres. Comienza con todos los datos asignados a un grupo propio. Aquí, dos grupos cercanos van a estar en el mismo grupo. Este algoritmo finaliza cuando solo queda un clúster.

Clúster de K-medias K

Clúster de K-medias K significa que es un algoritmo de agrupamiento iterativo que lo ayuda a encontrar el valor más alto para cada iteración. Inicialmente, se selecciona el número deseado de grupos. En este método de agrupación, debe agrupar los puntos de datos en k grupos. Una k más grande significa grupos más pequeños con más granularidad de la misma manera. Una k más baja significa grupos más grandes con menos granularidad.

La salida del algoritmo es un grupo de «etiquetas». Asigna puntos de datos a uno de los k grupos. En el agrupamiento de k-medias, cada grupo se define mediante la creación de un centroide para cada grupo. Los centroides son como el corazón del clúster, que captura los puntos más cercanos a ellos y los agrega al clúster.

El agrupamiento de K-media define además dos subgrupos:

Agrupación aglomerativa

Dendograma

Agrupación aglomerativa

Agrupación aglomerativa es un tipo de agrupamiento dentro del clúster de K-medias. Comienza con un número fijo de agrupaciones, asignando todos los datos al número exacto de grupos. Este método de agrupamiento no requiere el número de conglomerados K como entrada. El proceso de aglomeración comienza formando cada dato como un solo grupo y, luego, reduce el número de clústeres en cada iteración mediante el proceso de fusión. Al final, se obtiene un gran grupo que contiene todos los objetos.

Dendograma

Dendograma es un método de agrupamiento jerárquico en el cual cada nivel del dendrograma representa un posible agrupamiento. La altura del dendrograma muestra el nivel de similitud entre dos grupos que se unen. Cuanto más cerca de la parte inferior del proceso, más similares son los grupos fusionados. El dendrograma es una representación visual útil para comprender la estructura de los clústeres y analizar los resultados.

Mira TambienAprendizaje profundo vs aprendizaje automatico cual es la diferencia

K-Vecinos más cercanos

El algoritmo de K-Vecinos más cercanos (K-NN) es uno de los clasificadores más simples en el campo del aprendizaje automático. A diferencia de otras técnicas, no genera un modelo durante la fase de entrenamiento. En cambio, se basa en almacenar todos los casos disponibles en el conjunto de entrenamiento y clasificar nuevas instancias en función de su similitud con los casos existentes.

El funcionamiento del algoritmo se destaca especialmente en situaciones donde la distancia entre los ejemplos es un factor relevante. Sin embargo, es importante tener en cuenta que la velocidad de aprendizaje puede disminuir en conjuntos de entrenamiento grandes, ya que el cálculo de la distancia puede volverse más complejo y requerir más tiempo de procesamiento.

Análisis de componentes principales

En el análisis de componentes principales, si deseas trabajar en un espacio de mayor dimensión, debes seleccionar una base para ese espacio y utilizar solo las 200 puntuaciones más importantes de esa base. Estas puntuaciones, conocidas como componentes principales, constituyen un nuevo espacio que es considerablemente más pequeño en comparación con el espacio original, pero aún mantiene la mayor complejidad posible de los datos.

Asociación

Por otro lado, las reglas de asociación te permiten descubrir asociaciones entre objetos de datos en grandes bases de datos. Esta técnica no supervisada consiste en identificar relaciones interesantes entre variables en conjuntos de datos extensos. Por ejemplo, puede revelar que las personas que compran una casa nueva probablemente también adquieran muebles nuevos.

Otros ejemplos de aplicación incluyen:

  • Agrupación de subgrupos de pacientes con cáncer en función de sus medidas de expresión génica.
  • Agrupación de compradores según sus historiales de navegación y compras.
  • Agrupación de películas en base a las calificaciones otorgadas por los espectadores.

Aprendizaje automático supervisado y no supervisado

Esta es la principal diferencia entre el aprendizaje supervisado y no supervisado :

ParámetrosTécnica de aprendizaje automático supervisadoTécnica de aprendizaje automático no supervisado
Datos de entradaLos algoritmos se entrenan utilizando datos etiquetados.Los algoritmos se utilizan contra datos que no están etiquetados.
Complejidad computacionalEl aprendizaje supervisado es un método más simple.El aprendizaje no supervisado es computacionalmente complejo.
ExactitudMétodo altamente preciso y confiable.Método menos preciso y confiable.

Aplicaciones del aprendizaje automático no supervisado

Las técnicas de aprendizaje no supervisado tienen diversas aplicaciones, entre las cuales se destacan:

  1. Agrupación en clúster: esta técnica divide automáticamente un conjunto de datos en grupos basados en sus similitudes.
  2. Detección de anomalías: permite descubrir puntos de datos inusuales en un conjunto de datos, lo que resulta útil para detectar transacciones fraudulentas u otros comportamientos atípicos.
  3. Minería de asociaciones: identifica conjuntos de elementos que tienden a ocurrir juntos en un conjunto de datos, lo que ayuda a descubrir patrones y relaciones entre variables.
  4. Modelos de variables latentes: se utilizan ampliamente en el preprocesamiento de datos, como la reducción de la dimensionalidad de un conjunto de datos o la descomposición del conjunto de datos en componentes múltiples.

Estas aplicaciones demuestran la versatilidad y utilidad del aprendizaje automático no supervisado en diversas áreas de estudio y problemas de análisis de datos.

Desventajas del aprendizaje no supervisado:

  • No puede obtener información precisa sobre la clasificación de datos, ya que los datos utilizados en el aprendizaje no supervisado no están etiquetados ni se conocen de antemano.
  • La menor precisión de los resultados se debe a que los datos de entrada no están etiquetados previamente. Esto significa que la máquina necesita realizar la clasificación por sí misma.
  • Las clases espectrales no siempre corresponden a clases informativas, lo que puede dificultar la interpretación de los resultados.
  • El usuario necesita dedicar tiempo a interpretar y etiquetar las clases resultantes del proceso de clasificación.
  • Las propiedades espectrales de las clases también pueden cambiar con el tiempo, lo que significa que la información de clase puede variar al pasar de una imagen a otra.

Resumen:

El aprendizaje no supervisado es una técnica de aprendizaje automático en la que no se requiere supervisar el modelo. Permite descubrir patrones desconocidos en los datos. La agrupación y la asociación son tipos comunes de aprendizaje no supervisado. Los métodos de agrupamiento incluyen el exclusivo, aglomerativo, superpuesto y probabilístico. Algunos métodos importantes son el agrupamiento jerárquico, el agrupamiento de K-medias, el K-NN, el análisis de componentes principales, la descomposición de valores singulares y el análisis de componentes independientes. Las reglas de asociación permiten establecer relaciones entre objetos de datos en grandes bases de datos. En el aprendizaje supervisado, se utilizan datos etiquetados para entrenar los algoritmos, mientras que en el aprendizaje no supervisado se utilizan datos no etiquetados. La detección de anomalías puede identificar puntos de datos importantes, como transacciones fraudulentas. La principal desventaja del aprendizaje no supervisado es la dificultad para obtener información precisa sobre la clasificación de datos.

Mira TambienTensorFlow vs Theano vs Torch vs Keras: Biblioteca de aprendizaje profundo

Lecciones anteriores:

siguiente lección

LECCION 8) Red Neuronal de Retropropagación: Cómo Funciona el Algoritmo de Retropropagación

Deja un comentario