Los datos obsoletos, inexactos o duplicados no impulsarán soluciones optimizadas de datos. Cuando los datos son inexactos, las necesidades son más difíciles de rastrear y nutrir, y las ideas pueden ser defectuosas. Los datos en los que basamos una estrategia Big Data deben ser precisos, actualizados, lo más completos posible y no deben contener entradas duplicadas. Los datos limpios resultan en mejores decisiones.
Limpiar datos es la tarea de ciencia de datos más lenta y menos divertida (hasta Optimus), pero una de las más importantes. Nadie puede iniciar un proyecto de ciencia de datos, un aprendizaje automático o una solución basada en datos sin estar seguro de que los datos que van a consumir están en su estado óptimo. Aunque existen varias soluciones de limpieza de datos, ninguna de ellas puede mantenerse al día con la aparición del Big Data, o son realmente difíciles de usar.
En este momento, más y más empresas están entrando (o al menos tratando de entrar) en la Gran Revolución de Datos y Aprendizaje Automático. Todos los enfoques basados en datos deben limpiar, resolver, normalizar y corregir los datos que se introducirán en los modelos que se quieren crear, y con Optimus estamos lanzando una aplicación fácil de usar, fácil de implementar en producción y de código abierto para limpiar y analizar los datos de forma paralela utilizando tecnologías de vanguardia, que pueden ser utilizados por pequeñas, medianas, grandes industrias o incluso las empresas que quieren crear soluciones de ciencia de datos y no tienen el dinero para pagar un montón de científicos de datos y crear su propio grupo para limpiar los datos que van a utilizar.
Optimus es un framework para la limpieza (y mucho más), el pre-procesamiento y el análisis exploratorio de datos de forma distribuida. Utiliza todo el poder de Apache Spark para hacerlo. Implementa varias herramientas útiles para el manejo, corrección y análisis de datos que harán tu vida mucho más fácil. La primera ventaja obvia sobre cualquier otra biblioteca pública de limpieza de datos es que funcionará en tu computadora portátil o en un gran cluster, y segundo, es asombrosamente fácil de instalar, usar y entender.
El grupo de BBVA Data & Analytics en México ha estado utilizando Optimus durante los últimos meses y hemos impulsado nuestro desempeño para la limpieza, exploración y análisis de nuestros datos por factor 10x.
Requerimientos
- Apache Spark 2.2.0
- Python 3.5
Instalación (Windows, Mac & Linux)
En tu terminal solo escribe:
pip install optimuspyspark
Para obtener una documentación completa sobre cómo usarla, visite nuestro repositorio GitHub:
https://github.com/ironmussa/Optimus
Si desea una demostración de lo que puede hacer Optimus para usted echa un vistazo a esta notebook de ejemplo:
https://nbviewer.jupyter.org/github/ironmussa/Optimus/blob/master/examples/Optimus_Example.ipynb
Contribuidores
- Project Manager: Argenis León.
- Desarrolladores originales del proyecto: Andrea Rosales, Hugo Reyes, Alberto Bonsanto.
- Desarrollador principal: Favio Vázquez.
Licencia
Apache 2.0 © Iron.