Cómo transformar los datos para aumentar el rendimiento de Machine Learning

01/07/2020

machine-learning-tarragona-200701
Expertos de la industria, competidores e incluso es posible que tus clientes estén hablando sobre Machine Learning. Lo nuevo en marketing es decir que se incorpora alguna forma de Machine Learning, Deep Learning o Inteligencia Artificial en algún proceso.

Actuando como el cerebro del negocio, Machine Learning necesita datos e información para procesar y aprender. De esta manera, el sistema está diseñado para aprender las instrucciones de un conjunto de datos dado. Pero las máquinas aprenden mejor de los buenos datos.
 

Datos malos, resultados mediocres

Cuando se trata de Machine Learning, debes proporcionar a los modelos buenos datos para obtener una buena perspectiva. Los datos en el mundo real pueden ser realmente desordenados y, en la mayoría de los casos, necesitarás realizar algún tipo de limpieza de datos antes de cualquier análisis de datos, lo que puede ser una tarea desalentadora.

Sin la tecnología adecuada, la transformación de datos lleva mucho tiempo y es tediosa, pero este es un paso crítico que te garantizará la máxima calidad de los datos, lo que aumentará la precisión de las predicciones.

Por suerte hay algunas transformaciones de datos comunes que puedes realizar para mejorar el resultado de los modelos de Machine Learning:
 

Eliminar columnas no utilizadas y repetidas

Si realizas una selección manual de los datos que se necesitan específicamente no solo mejorará la velocidad a la que se entrena el modelo, sino que también será útil cuando se analice.
 

Cambiar tipos de datos

El uso de los tipos de datos correctos te ayudará a ahorrar memoria. En muchos casos puede ser un requisito, como hacer que los datos numéricos sean un número entero, para que los cálculos se realicen de forma tal que aumente la velocidad general del sistema.
 

Manejar datos faltantes

En algún momento te encontrarás con conjuntos de datos con datos incompletos y resolverlos de forma adecuada puede variar según el conjunto de datos. Por ejemplo, si el valor faltante no hace que los datos asociados sean inútiles, entonces puedes considerar el reemplazarlo por un marcador de posición simple u otro valor, basado en algún tipo de suposición. De lo contrario, si el conjunto de datos es lo suficientemente grande, existe la posibilidad de que puedas eliminar los datos sin incurrir en una pérdida sustancial de su poder estadístico. Debes tener cuidado con esta técnica, ya que puedes crear un sesgo inadvertidamente en el modelo. Por otro lado, no tratar los datos faltantes también puede sesgar los resultados.
 

Eliminar el formato de cadena y los caracteres no alfanuméricos

Esto implica eliminar caracteres como saltos de línea, retornos de carro, espacios en blanco al principio y al final de los valores, símbolos de moneda, etc.. También puedes considerar la derivación de palabras como parte de este proceso. Aunque eliminar el formato y otros caracteres hace que la oración sea menos legible para los humanos, este enfoque ayuda al algoritmo a digerir mejor los datos.
 

Convertir datos categóricos a numéricos

Este paso no siempre te será necesario, pero muchos modelos de Machine Learning requieren que los datos categóricos estén en formato numérico. Esto significa convertir valores como yes y no en 1 y 0. Esta técnica tiene una parte negativa que debes tratar de evitar y es la de no crear accidentalmente el orden en categorías desordenadas, como convertir mr, miss y mrs en 1, 2 y 3.
 

Convertir marcas de tiempo (fecha-hora)

Encontrarás marcas de tiempo en todo tipo de formatos, desde numérico a texto, con formato europeo o americano, entre otros. En este caso, es una buena idea definir un formato de fecha / hora específico y convertir todas las marcas de tiempo al formato definido.


Machine Learning puede ayudar en el proceso de tu proyecto o negocio para comprender la información oculta en los de datos de forma más rápida, lo que te permitirá tomar decisiones basadas en datos en diferentes niveles del equipo y/o la organización.

Pero transformar los datos para el análisis puede ser un desafío en función del creciente volumen, variedad y velocidad del Big Data.

   

Artículos relacionados

0 comentarios