Cómo elegir algoritmos de ML para problemas de regresión?

11Ene 2021 por admin No hay comentarios

Hay un rumor en todas partes – ¡Aprendizaje Automático!

Entonces, ¿qué es este «Aprendizaje Automático(ML)?»

Consideremos un ejemplo práctico. Si pudieras imaginar la probabilidad del resultado de una tarea realizada por primera vez, digamos que el trabajo es aprender a montar en coche. Es decir, ¿cómo te retroalimentarías? Con incertidumbre?

Por otro lado, ¿cómo te gustaría darte una palmadita por la misma tarea después de un par de años de práctica? Probablemente tendrías tu mentalidad transicionada desde el parámetro de la incertidumbre o uno más certero. Entonces, ¿cómo has conseguido esa experiencia en la tarea?

Lo más probable es que hayas conseguido experiencia ajustando algunos parámetros, y tu rendimiento haya mejorado. ¿Verdad? Esto es Aprendizaje Automático.

Se dice que un programa informático aprende de la experiencia(E) en algunas tareas (T)para dar el resultado de mejor rendimiento(P).

En la misma línea, las máquinas aprenden mediante algunos conceptos matemáticos complejos, y todos los datos para ellas están en forma de 0 y 1. Como resultado, no codificamos la lógica para nuestro programa; en su lugar, queremos que una máquina descubra la lógica a partir de los datos por sí misma.

Además, si quieres encontrar la relación entre la experiencia, el nivel de trabajo, la habilidad rara y el salario, entonces necesitas enseñar algoritmos de aprendizaje automático.

Conjunto de datos complejo con más características

De acuerdo con este caso de estudio, necesitas ajustar las características para obtener las etiquetas. Pero, no codificas el Algoritmo, y tu enfoque debe ser en los datos.

Por lo tanto, el concepto es Datos + Algoritmo = Insights. En segundo lugar, los Algoritmos ya están desarrollados para nosotros, y necesitamos saber qué algoritmo utilizar para resolver nuestros problemas. Echemos un vistazo al problema de regresión y a la mejor manera de elegir un algoritmo.

La visión general del aprendizaje automático

Según Andreybu, un científico alemán con más de 5 años de experiencia en el aprendizaje automático, «si puedes entender si la tarea de aprendizaje automático es un problema de regresión o de clasificación, entonces elegir el algoritmo adecuado es pan comido.»

Las diferentes agrupaciones del aprendizaje automático

Para enumerar, la principal diferencia entre ellas es que la variable de salida en la regresión es numérica (o continua) mientras que la de clasificación es categórica (o discreta).

Regresión en el aprendizaje automático

Para empezar, los algoritmos de regresión intentan estimar la función de mapeo (f) de las variables de entrada (x) a las variables de salida numéricas o continuas (y). Ahora, la variable de salida puede ser un valor real, que puede ser un entero o un valor de punto flotante. Por lo tanto, los problemas de predicción de regresión suelen ser cantidades o tamaños.

Por ejemplo, si se le proporciona un conjunto de datos sobre casas, y se le pide que prediga sus precios, esa es una tarea de regresión porque el precio será una salida continua.

Ejemplos de los algoritmos de regresión comunes incluyen la regresión lineal, la regresión de vectores de soporte (SVR) y los árboles de regresión.

Clasificación en el aprendizaje automático

Por el contrario, en el caso de los algoritmos de clasificación, y es una categoría que la función de mapeo predice. Para elaborar, para una o varias variables de entrada, un modelo de clasificación intentará predecir el valor de una o varias conclusiones.

Por ejemplo, si se le proporciona un conjunto de datos sobre casas, un algoritmo de clasificación puede intentar predecir si los precios de las casas «se venden más o menos que el precio de venta recomendado.» Aquí las dos categorías discretas: por encima o por debajo de dicho precio.

Ejemplos de los algoritmos de clasificación comunes incluyen la regresión logística, Naïve Bayes, árboles de decisión y K Nearest Neighbors.

Elegir los algoritmos adecuados

La meticulosa excavación de datos para una correcta evaluación de ML

Entender sus datos

Echar un vistazo a las estadísticas de resumen
Utilizar el parámetro ‘Percentil’ para identificar los rangos de los datos
Los promedios y las medianas describen la tendencia central
Las correlaciones pueden indicar relaciones fuertes

Visualice los datos

Los gráficos de caja pueden indicar excepciones.
Los gráficos de densidad y los histogramas muestran la dispersión de los datos
Los gráficos de dispersión pueden describir las relaciones de cantidad

Limpiar los datos

Encontrar las piezas que faltan -Prioridad en la to-do-list para encontrar el algoritmo de ML adecuado

Tratar con un valor perdido. El resultado está sujeto a dar resultados sensibles en el caso (los datos faltantes para ciertas variables pueden dar lugar a predicciones inexactas)
Aunque los modelos de árbol son menos sensibles a la presencia de valores atípicos, los modelos regresivos u otros modelos que utilizan ecuaciones son más sensibles a las excepciones
Básicamente, los valores atípicos pueden ser el resultado de una mala recogida de datos, o pueden ser valores extremos legítimos

Curar los datos

Además, mientras se convierten los datos brutos a uno pulido que cumpla con los modelos, hay que cuidar lo siguiente :

Hacer que los datos sean más fáciles de interpretar.
Capturar datos más complejos.
Centrarse en reducir la redundancia y la dimensionalidad de los datos.
Normalizar los valores de las variables.

Categorizar el problema a través de la variable de entrada

Si tienes datos etiquetados, es un problema de aprendizaje supervisado.
Si tienes datos sin etiquetar y quieres encontrar una estructura, es un problema de aprendizaje no supervisado.
En caso de que quieras optimizar una función objetivo interactuando con un entorno, es un problema de aprendizaje por refuerzo.

Categorice el problema a través de la variable de salida

La salida de su modelo es un número; es un problema de regresión.
Cuando la salida de su modelo es una clase, entonces es un problema de clasificación.
Cuando la salida de su modelo es un conjunto de grupos de entrada, se trata de un problema de agrupación.

El factor de restricción

Tome nota de la capacidad de almacenamiento, ya que varía para varios modelos.
¿La predicción tiene que ser rápida? Por ejemplo, en escenarios en tiempo real como la clasificación de señales de tráfico ser lo más rápido posible para evitar accidentes.

Finalmente, encuentra el algoritmo

El método lógico: Sigue el procedimiento

Ahora que tienes una imagen clara de tus datos, podrías implementar herramientas adecuadas para elegir el algoritmo correcto.

Mientras tanto, para una mejor decisión, aquí hay una lista de verificación de los factores para usted:

Ver si el modelo se alinea con su objetivo de negocio
Cuánto preprocesamiento requiere el modelo
Comprobar la precisión del modelo
Qué tan explicable es el modelo
Qué tan rápido es el modelo: Cuánto se tarda en construir un modelo y cuánto tarda el modelo en hacer predicciones
La escalabilidad del modelo

Para añadir, hay que prestar atención a la complejidad del algoritmo mientras se elige.

En general, se podría medir la complejidad del modelo mediante los parámetros:

Cuando requiere dos o más de diez características para aprender y predecir el objetivo
Se basa en una ingeniería de características más compleja (por ejemplo, utilizando términos polinómicos, interacciones o componentes principales)
Cuando el escenario tiene más sobrecarga computacional (por ejemplo, un único árbol de decisión frente a un bosque aleatorio de 100 árboles)

Además, el mismo algoritmo puede hacerse más complejo manualmente. Depende puramente del número de parámetros que se consientan y del escenario que se considere. Por ejemplo, podría diseñar un modelo de regresión con más características o términos polinómicos y términos de interacción. O bien, podría diseñar un árbol de decisión con menos profundidad.

Los algoritmos comunes de aprendizaje automático

Regresión lineal

Estos son probablemente los más simples.
Pocos son los ejemplos en los que se utiliza la regresión lineal:

Predecir las ventas de un determinado producto el próximo mes
Impacto de la tasa de alcohol en sangre en la coordinación
Predecir las ventas mensuales de tarjetas regalo y mejorar las proyecciones de ingresos anuales

Regresión Logística

Aparentemente, hay muchas ventajas en este algoritmo-integración de más características con una buena facilidad de interpretación, facilidad de actualización para anexar nuevos datos.

Por decirlo de otra manera, se podría utilizar para:

Prediciendo el churning de los clientes.
El caso particular de la puntuación de crédito o la detección del fraude.
Medir la eficacia de las campañas de marketing.

Árboles de decisión

Aparentemente, los árboles individuales se utilizan poco, pero en composición, con muchos otros, construyen algoritmos eficientes como Random Forest o Gradient Tree Boosting. Sin embargo, una de las desventajas es que no soportan el aprendizaje online, por lo que hay que reconstruir el árbol cuando aparecen nuevos ejemplos.

Los árboles son excelentes para:

Decisiones de inversión
Créditos bancarios
Calificación de clientes potenciales

Naive Bayes

Por encima de todo, Naive Bayes es una opción correcta cuando los recursos de CPU y memoria son un factor limitante. Sin embargo, su principal desventaja es que no puede aprender las interacciones entre las características.

Se puede utilizar para:

Reconocimiento de caras
Para marcar un correo electrónico como spam o no.
Análisis de sentimiento y clasificación de texto.

Conclusión

Por lo tanto, en general, en un escenario en tiempo real, es algo difícil bajo el algoritmo de aprendizaje automático adecuado para el propósito. Sin embargo, podría utilizar esta lista de comprobación para preseleccionar algunos algoritmos a su conveniencia.

Además, optar por la solución correcta para un problema de la vida real requiere una comprensión empresarial experta junto con el algoritmo adecuado. Por lo tanto, enseñe sus datos a los algoritmos adecuados, ejecútelos todos en paralelo o en serie y, al final, evalúe el rendimiento de los algoritmos para seleccionar el mejor.

Si está buscando especializarse en el aprendizaje profundo, entonces puede consultar este curso de aprendizaje profundo.