Hay un rumor en todas partes – ¡Aprendizaje Automático!
Entonces, ¿qué es este «Aprendizaje Automático(ML)?»
Consideremos un ejemplo práctico. Si pudieras imaginar la probabilidad del resultado de una tarea realizada por primera vez, digamos que el trabajo es aprender a montar en coche. Es decir, ¿cómo te retroalimentarías? Con incertidumbre?
Por otro lado, ¿cómo te gustaría darte una palmadita por la misma tarea después de un par de años de práctica? Probablemente tendrías tu mentalidad transicionada desde el parámetro de la incertidumbre o uno más certero. Entonces, ¿cómo has conseguido esa experiencia en la tarea?
Lo más probable es que hayas conseguido experiencia ajustando algunos parámetros, y tu rendimiento haya mejorado. ¿Verdad? Esto es Aprendizaje Automático.
Se dice que un programa informático aprende de la experiencia(E) en algunas tareas (T)para dar el resultado de mejor rendimiento(P).
En la misma línea, las máquinas aprenden mediante algunos conceptos matemáticos complejos, y todos los datos para ellas están en forma de 0 y 1. Como resultado, no codificamos la lógica para nuestro programa; en su lugar, queremos que una máquina descubra la lógica a partir de los datos por sí misma.
Además, si quieres encontrar la relación entre la experiencia, el nivel de trabajo, la habilidad rara y el salario, entonces necesitas enseñar algoritmos de aprendizaje automático.
De acuerdo con este caso de estudio, necesitas ajustar las características para obtener las etiquetas. Pero, no codificas el Algoritmo, y tu enfoque debe ser en los datos.
Por lo tanto, el concepto es Datos + Algoritmo = Insights. En segundo lugar, los Algoritmos ya están desarrollados para nosotros, y necesitamos saber qué algoritmo utilizar para resolver nuestros problemas. Echemos un vistazo al problema de regresión y a la mejor manera de elegir un algoritmo.
La visión general del aprendizaje automático
Según Andreybu, un científico alemán con más de 5 años de experiencia en el aprendizaje automático, «si puedes entender si la tarea de aprendizaje automático es un problema de regresión o de clasificación, entonces elegir el algoritmo adecuado es pan comido.»
Para enumerar, la principal diferencia entre ellas es que la variable de salida en la regresión es numérica (o continua) mientras que la de clasificación es categórica (o discreta).
Regresión en el aprendizaje automático
Para empezar, los algoritmos de regresión intentan estimar la función de mapeo (f) de las variables de entrada (x) a las variables de salida numéricas o continuas (y). Ahora, la variable de salida puede ser un valor real, que puede ser un entero o un valor de punto flotante. Por lo tanto, los problemas de predicción de regresión suelen ser cantidades o tamaños.
Por ejemplo, si se le proporciona un conjunto de datos sobre casas, y se le pide que prediga sus precios, esa es una tarea de regresión porque el precio será una salida continua.
Ejemplos de los algoritmos de regresión comunes incluyen la regresión lineal, la regresión de vectores de soporte (SVR) y los árboles de regresión.
Clasificación en el aprendizaje automático
Por el contrario, en el caso de los algoritmos de clasificación, y es una categoría que la función de mapeo predice. Para elaborar, para una o varias variables de entrada, un modelo de clasificación intentará predecir el valor de una o varias conclusiones.
Por ejemplo, si se le proporciona un conjunto de datos sobre casas, un algoritmo de clasificación puede intentar predecir si los precios de las casas «se venden más o menos que el precio de venta recomendado.» Aquí las dos categorías discretas: por encima o por debajo de dicho precio.
Ejemplos de los algoritmos de clasificación comunes incluyen la regresión logística, Naïve Bayes, árboles de decisión y K Nearest Neighbors.
Elegir los algoritmos adecuados
Entender sus datos
- Echar un vistazo a las estadísticas de resumen
- Utilizar el parámetro ‘Percentil’ para identificar los rangos de los datos
- Los promedios y las medianas describen la tendencia central
- Las correlaciones pueden indicar relaciones fuertes
Visualice los datos
- Los gráficos de caja pueden indicar excepciones.
- Los gráficos de densidad y los histogramas muestran la dispersión de los datos
- Los gráficos de dispersión pueden describir las relaciones de cantidad
- Tratar con un valor perdido. El resultado está sujeto a dar resultados sensibles en el caso (los datos faltantes para ciertas variables pueden dar lugar a predicciones inexactas)
- Aunque los modelos de árbol son menos sensibles a la presencia de valores atípicos, los modelos regresivos u otros modelos que utilizan ecuaciones son más sensibles a las excepciones
- Básicamente, los valores atípicos pueden ser el resultado de una mala recogida de datos, o pueden ser valores extremos legítimos
- Hacer que los datos sean más fáciles de interpretar.
- Capturar datos más complejos.
- Centrarse en reducir la redundancia y la dimensionalidad de los datos.
- Normalizar los valores de las variables.
- Si tienes datos etiquetados, es un problema de aprendizaje supervisado.
- Si tienes datos sin etiquetar y quieres encontrar una estructura, es un problema de aprendizaje no supervisado.
- En caso de que quieras optimizar una función objetivo interactuando con un entorno, es un problema de aprendizaje por refuerzo.
- La salida de su modelo es un número; es un problema de regresión.
- Cuando la salida de su modelo es una clase, entonces es un problema de clasificación.
- Cuando la salida de su modelo es un conjunto de grupos de entrada, se trata de un problema de agrupación.
- Tome nota de la capacidad de almacenamiento, ya que varía para varios modelos.
- ¿La predicción tiene que ser rápida? Por ejemplo, en escenarios en tiempo real como la clasificación de señales de tráfico ser lo más rápido posible para evitar accidentes.
- Ver si el modelo se alinea con su objetivo de negocio
- Cuánto preprocesamiento requiere el modelo
- Comprobar la precisión del modelo
- Qué tan explicable es el modelo
- Qué tan rápido es el modelo: Cuánto se tarda en construir un modelo y cuánto tarda el modelo en hacer predicciones
- La escalabilidad del modelo
- Cuando requiere dos o más de diez características para aprender y predecir el objetivo
- Se basa en una ingeniería de características más compleja (por ejemplo, utilizando términos polinómicos, interacciones o componentes principales)
- Cuando el escenario tiene más sobrecarga computacional (por ejemplo, un único árbol de decisión frente a un bosque aleatorio de 100 árboles)
- Predecir las ventas de un determinado producto el próximo mes
- Impacto de la tasa de alcohol en sangre en la coordinación
- Predecir las ventas mensuales de tarjetas regalo y mejorar las proyecciones de ingresos anuales
- Prediciendo el churning de los clientes.
- El caso particular de la puntuación de crédito o la detección del fraude.
- Medir la eficacia de las campañas de marketing.
- Decisiones de inversión
- Créditos bancarios
- Calificación de clientes potenciales
- Reconocimiento de caras
- Para marcar un correo electrónico como spam o no.
- Análisis de sentimiento y clasificación de texto.
Limpiar los datos
Curar los datos
Además, mientras se convierten los datos brutos a uno pulido que cumpla con los modelos, hay que cuidar lo siguiente :
Categorizar el problema a través de la variable de entrada
Categorice el problema a través de la variable de salida
El factor de restricción
Finalmente, encuentra el algoritmo
Ahora que tienes una imagen clara de tus datos, podrías implementar herramientas adecuadas para elegir el algoritmo correcto.
Mientras tanto, para una mejor decisión, aquí hay una lista de verificación de los factores para usted:
Para añadir, hay que prestar atención a la complejidad del algoritmo mientras se elige.
En general, se podría medir la complejidad del modelo mediante los parámetros:
Además, el mismo algoritmo puede hacerse más complejo manualmente. Depende puramente del número de parámetros que se consientan y del escenario que se considere. Por ejemplo, podría diseñar un modelo de regresión con más características o términos polinómicos y términos de interacción. O bien, podría diseñar un árbol de decisión con menos profundidad.
Los algoritmos comunes de aprendizaje automático
Regresión lineal
Estos son probablemente los más simples.
Pocos son los ejemplos en los que se utiliza la regresión lineal:
Regresión Logística
Aparentemente, hay muchas ventajas en este algoritmo-integración de más características con una buena facilidad de interpretación, facilidad de actualización para anexar nuevos datos.
Por decirlo de otra manera, se podría utilizar para:
Árboles de decisión
Aparentemente, los árboles individuales se utilizan poco, pero en composición, con muchos otros, construyen algoritmos eficientes como Random Forest o Gradient Tree Boosting. Sin embargo, una de las desventajas es que no soportan el aprendizaje online, por lo que hay que reconstruir el árbol cuando aparecen nuevos ejemplos.
Los árboles son excelentes para:
Naive Bayes
Por encima de todo, Naive Bayes es una opción correcta cuando los recursos de CPU y memoria son un factor limitante. Sin embargo, su principal desventaja es que no puede aprender las interacciones entre las características.
Se puede utilizar para:
Conclusión
Por lo tanto, en general, en un escenario en tiempo real, es algo difícil bajo el algoritmo de aprendizaje automático adecuado para el propósito. Sin embargo, podría utilizar esta lista de comprobación para preseleccionar algunos algoritmos a su conveniencia.
Además, optar por la solución correcta para un problema de la vida real requiere una comprensión empresarial experta junto con el algoritmo adecuado. Por lo tanto, enseñe sus datos a los algoritmos adecuados, ejecútelos todos en paralelo o en serie y, al final, evalúe el rendimiento de los algoritmos para seleccionar el mejor.
Si está buscando especializarse en el aprendizaje profundo, entonces puede consultar este curso de aprendizaje profundo.