Connect with us

Transformación digital

Herramientas esenciales de ciencia de datos para elevar sus operaciones de análisis

José Luis Becerra Pozas

Published

on

TIC-cientificos

Dado que las organizaciones recurren cada vez más a la ciencia de datos para obtener valor comercial, las herramientas que respaldan el trabajo están proliferando. Estas son las herramientas clave en las que confían los científicos de datos exitosos.

El auge de la ciencia de datos continúa sin cesar. El trabajo de recopilar y analizar datos alguna vez fue sólo para unos pocos científicos en el laboratorio. Ahora todas las empresas quieren usar el poder de la ciencia de datos para optimizar sus organizaciones y hacer felices a los clientes.

El mundo de las herramientas de ciencia de datos está creciendo para satisfacer esta demanda. Hace apenas unos años, los científicos de datos trabajaban con la línea de comandos y algunos buenos paquetes de código abierto. Ahora las empresas están creando herramientas sólidas y profesionales que manejan muchas de las tareas comunes de la ciencia de datos, como limpiar los datos.

La escala también está cambiando. La ciencia de datos alguna vez fue sólo tareas numéricas para que los científicos hicieran después del arduo trabajo de realizar experimentos. Ahora es una parte permanente del flujo de trabajo. Las empresas ahora integran el análisis matemático en sus informes comerciales y crean paneles para generar visualizaciones inteligentes para comprender rápidamente lo que está sucediendo.

El ritmo también se está acelerando. El análisis que antes era un trabajo anual o trimestral ahora se ejecuta en tiempo real. Las empresas quieren saber qué está sucediendo en este momento para que los gerentes y los empleados de línea puedan tomar decisiones más inteligentes y aprovechar todo lo que la ciencia de datos tiene para ofrecer.

Estas son algunas de las mejores herramientas para agregar precisión y ciencia al análisis de su organización de su flujo interminable de datos.

Cuadernos Jupyter

Estos paquetes de palabras, códigos y datos se han convertido en la lengua franca del mundo de la ciencia de datos. Los archivos PDF estáticos llenos de análisis y contenido inalterables aún pueden inspirar respeto porque crean un registro permanente, pero a los científicos de datos en activo les encanta abrir el capó y jugar con el mecanismo subyacente. Los Jupyter Notebooks permiten a los lectores hacer más que absorber.

Las versiones originales de los cuadernos fueron creadas por usuarios de Python que querían tomar prestada algo de la flexibilidad de Mathematica. Hoy en día, el Jupyter Notebook estándar admite más de 40 lenguajes de programación y es común encontrar R, Julia o incluso Java o C dentro de ellos.

El código del cuaderno en sí es de código abierto, por lo que es simplemente el comienzo de una serie de proyectos más grandes y emocionantes para seleccionar datos, respaldar trabajos de curso o simplemente compartir ideas. Las universidades imparten algunas de las clases con los cuadernos. Los científicos de datos los usan para intercambiar ideas y entregar ideas. JupyterHub ofrece un servidor central en contenedores con autenticación para manejar las tareas de implementar todo su genio de la ciencia de datos para una audiencia para que no necesiten instalar o mantener software en su escritorio o preocuparse por escalar servidores de cómputo.

Notebooks de laboratorio

Los cuadernos Jupyter Notebook no sólo se ejecutan solos. Necesitan una base de operaciones donde se almacenen los datos y se calcule el análisis. Varias empresas ofrecen este apoyo ahora, a veces como una herramienta de promoción ya veces por una tarifa nominal. Algunos de los más destacados incluyen Google Colab, Github’s Codespaces, Azure Machine Learning lab, JupyterLabsBinderCoCalc y Datalore, pero a menudo no es demasiado difícil configurar su propio servidor debajo de su banco de laboratorio.

Si bien el núcleo de cada uno de estos servicios es similar, existen diferencias que pueden ser importantes. La mayoría admite Python de alguna manera, pero después de eso, las preferencias locales importan. Los Azure Notebooks de Microsoft, por ejemplo, también serán compatibles con F#, un lenguaje desarrollado por Microsoft. Colab de Google es compatible con Swift, que también es compatible con proyectos de aprendizaje automático con TensorFlow. También existen numerosas diferencias entre los menús y otras características menores que se ofrecen en cada uno de estos espacios de laboratorio de portátiles.

RStudio

El lenguaje R fue desarrollado por estadísticos y científicos de datos para ser optimizado para cargar conjuntos de datos de trabajo y luego aplicar todos los mejores algoritmos para analizar los datos. A algunos les gusta ejecutar R directamente desde la línea de comandos, pero muchos disfrutan dejando que RStudio maneje muchas de las tareas. Es un entorno de desarrollo integrado (IDE) para el cálculo matemático.

El núcleo es un banco de trabajo de código abierto que le permite explorar los datos, jugar con el código y luego generar los gráficos más elaborados que R puede reunir. Realiza un seguimiento de su historial de cálculo para que pueda retroceder o repetir los mismos comandos, y ofrece cierto soporte de depuración cuando el código no funciona. Si necesita algo de Python, también se ejecutará dentro de RStudio.

La empresa RStudio también está agregando funciones para ayudar a los equipos que desean colaborar en un conjunto de datos compartido. Eso significa control de versiones, roles, seguridad, sincronización y más.

Sweave and Knitr

Los científicos de datos que escriben sus artículos en LaTeX disfrutarán de la complejidad de Sweave y Knitr, dos paquetes diseñados para integrar el poder de procesamiento de datos de R o Python con la elegancia de formato de TeX. El objetivo es crear una canalización que convierta los datos en un informe escrito completo con cuadros, tablas y gráficos.

La canalización está destinada a ser dinámica y fluida, pero en última instancia crea un registro permanente. A medida que se limpian, organizan y analizan los datos, los gráficos y las tablas se ajustan. Cuando el resultado está terminado, los datos y el texto se sientan juntos en un paquete que agrupa la entrada sin procesar y el texto final.

Entornos de desarrollo integrados

Thomas Alva Edison dijo una vez que la genialidad era 1% inspiración y 99% transpiración. A menudo parece que el 99% de la ciencia de datos sólo limpia los datos y los prepara para el análisis. Los entornos de desarrollo integrados (IDE) son una buena plataforma de preparación porque admiten los principales lenguajes de programación, como C#, así como algunos de los lenguajes más centrados en la ciencia de datos, como R. Los usuarios de Eclipse, por ejemplo, pueden limpiar su código en Java y luego activarlo. a R para análisis con rJava .

Los desarrolladores de Python confían en Pycharm para integrar sus herramientas de Python y orquestar el análisis de datos basado en Python. Visual Studio hace malabarismos con el código normal con Jupyter Notebooks y opciones especializadas de ciencia de datos. 

A medida que aumentan las cargas de trabajo de la ciencia de datos, algunas empresas están creando IDE de código bajo y sin código que están ajustados para gran parte de este trabajo de datos. Herramientas como RapidMinerOrange y JASP son solo algunos ejemplos de excelentes herramientas optimizadas para el análisis de datos. Se basan en editores visuales y, en muchos casos, es posible hacer todo simplemente arrastrando los íconos. Si eso no es suficiente, un poco de código personalizado puede ser todo lo que se necesita.

Herramientas específicas de dominio

Muchos científicos de datos en la actualidad se especializan en áreas específicas, como el marketing o la optimización de la cadena de suministro, y sus herramientas les siguen. Algunas de las mejores herramientas están estrechamente enfocadas en dominios particulares y han sido optimizadas para problemas específicos que enfrenta cualquiera que las estudie.

Por ejemplo, los especialistas en marketing tienen docenas de buenas opciones que ahora a menudo se denominan plataformas de datos de clientes . Se integran con escaparates, portales publicitarios y aplicaciones de mensajería para crear un flujo de información consistente (ya menudo implacable) para los clientes. Los análisis de back-end incorporados brindan estadísticas clave que los especialistas en marketing esperan para juzgar la efectividad de sus campañas.

Ahora hay cientos de buenas opciones específicas de dominio que funcionan en todos los niveles. Voyant, por ejemplo, analiza el texto para medir la legibilidad y encontrar correlaciones entre pasajes. El pronóstico de AWS está optimizado para predecir el futuro de las empresas utilizando datos de series temporales. Video Analyzer de Azure aplica técnicas de inteligencia artificial para encontrar respuestas en transmisiones de video.

Hardware

El auge de las opciones de computación en la nube ha sido una bendición para los científicos de datos. No hay necesidad de mantener su propio hardware sólo para ejecutar análisis de vez en cuando. Los proveedores de la nube le alquilarán una máquina por minuto justo cuando la necesite. Ésta puede ser una gran solución si necesita una gran cantidad de RAM sólo por un día. Sin embargo, los proyectos con una necesidad sostenida de análisis de larga duración pueden encontrar que es más barato comprar su propio hardware.

Últimamente han ido apareciendo opciones más especializadas para trabajos de cómputo paralelo. Los científicos de datos a veces usan unidades de procesamiento de gráficos (GPU) que alguna vez fueron diseñadas para videojuegos. Google fabrica unidades de procesamiento de tensores (TPU) especializadas para acelerar el aprendizaje automático. Nvidia llama a algunos de sus chips “Unidades de procesamiento de datos” o DPU. Algunas startups, como d-Matrix , están diseñando hardware especializado para inteligencia artificial. Una computadora portátil puede estar bien para algunos trabajos, pero los proyectos grandes con cálculos complejos ahora tienen muchas opciones más rápidas.

Datos

Las herramientas no sirven de mucho sin los datos sin procesar. Algunas empresas se esfuerzan por ofrecer colecciones de datos seleccionadas . Algunos quieren vender sus servicios en la nube (AWSGCPAzureIBM). Otros lo ven como una forma de retribuir ( OpenStreetMap ). Algunas son agencias del gobierno de EE. UU. que ven el intercambio de datos como parte de su trabajo (repositorio federal). Otras son más pequeñas, como las ciudades que quieren ayudar a los residentes y a las empresas a tener éxito (Nueva YorkBaltimoreMiami u Orlando). Algunos sólo quieren cobrar por el servicio. Todos ellos pueden ahorrarle problemas para encontrar y limpiar los datos usted mismo.

Peter Wayner, CIO.com

Advertisement
Advertisement

VIDEOS

Resources

Advertisement

Recientes

Advertisement