Connect with us

Gestión de Datos

¿Qué es la Ciencia de Datos? Transformando datos en valor

José Luis Becerra Pozas

Published

on

La Ciencia de Datos es un método para transformar datos comerciales en activos que ayudan a las organizaciones a mejorar los ingresos, reducir costos, aprovechar oportunidades comerciales, mejorar la experiencia del cliente y más.

¿Qué es la Ciencia de Datos?

La Ciencia de Datos es un método para obtener información de datos estructurados y no estructurados utilizando enfoques que van desde el análisis estadístico hasta el aprendizaje automático. Para la mayoría de las organizaciones, se emplea para transformar los datos en valor en forma de ingresos mejorados, costos reducidos, agilidad empresarial, experiencia del cliente mejorada, desarrollo de nuevos productos y similares. La ciencia de datos le da un propósito a los datos recopilados por una organización.

Ciencia de datos versus análisis de datos

Si bien está estrechamente relacionado, el análisis de datos es un componente de la Ciencia de Datos, que se utiliza para comprender cómo se ven los datos de una organización. La Ciencia de Datos toma el resultado de la analítica para resolver problemas. Los científicos de datos dicen que investigar algo con datos es simplemente análisis. La Ciencia de Datos lleva el análisis un paso más para explicar y resolver problemas. 

La diferencia entre el Análisis de Datos y la Ciencia de Datos también es una escala de tiempo. El Análisis de Datos describe el estado actual de la realidad, mientras que la Ciencia de Datos utiliza esos datos para predecir y/o comprender el futuro.

Los beneficios de la ciencia de datos

El valor empresarial de la Ciencia de Datos depende de las necesidades de la organización. En efecto, la Ciencia de Datos podría ayudar a una organización a crear herramientas para predecir fallas de hardware, lo que le permitiría realizar el mantenimiento y evitar el tiempo de inactividad no planificado. Podría ayudar a predecir qué poner en los estantes de los supermercados o qué tan popular será un producto en función de sus atributos.

Empleos relacionados con la Ciencia de Datos

Si bien la cantidad de programas de grado en Ciencia de Datos está aumentando a un ritmo rápido, no son necesariamente lo que buscan las organizaciones cuando buscan científicos de datos. Los candidatos con experiencia en estadísticas son populares, especialmente si pueden demostrar que saben si están viendo resultados reales; tener conocimiento del dominio para poner los resultados en contexto; y habilidades comunicativas que les permitan transmitir resultados a los usuarios de negocio.

Muchas organizaciones buscan candidatos con doctorados, especialmente en física, matemáticas, informática, economía o incluso ciencias sociales. Un doctorado demuestra que un candidato es capaz de realizar una investigación profunda sobre un tema y difundir información a otros.

Algunos de los mejores científicos de datos o líderes en grupos de ciencia de datos tienen antecedentes no tradicionales, incluso aquellos con muy poca capacitación informática formal. En muchos casos, la habilidad clave es poder ver algo desde una perspectiva no tradicional y comprenderlo.

Salarios en Ciencia de Datos

Estos son algunos de los puesto de trabajo más populares relacionados con la Ciencia de Datos y el salario promedio para cada puesto en Estados Unidos, según datos de PayScale (cifras en miles de dólares):

  • Gerente de análisis: $ 71K – $ 131K
  • Científico de datos asociado: $61K-$101K
  • Analista de inteligencia comercial: $ 52K- $ 97K
  • Analista de datos: $45K-$87K
  • Arquitecto de datos: $79K-$159K
  • Ingeniero de datos: $66K-$132K
  • Científico de datos: $60K-$159K
  • Científico de datos, TI: $$60K-$159K
  • Científico de datos líder: $ 98K- $ 178K
  • Analista de investigación: $43K-$82K
  • Científico investigador: $52K-$123K
  • Científico de datos senior: $ 96K- $ 162K
  • Estadístico: $55K-$117K

Grados en Ciencia de Datos

Según la revista Fortune, estos son los mejores programas de posgrado en Ciencia de Datos:

  • University of Illinois at Urbana-Champaign
  • University of California—Berkeley
  • Texas Tech University
  • Bay Path University
  • Worcester Polytechnic Institute
  • Loyola University Maryland
  • University of Missouri—Columbia
  • New Jersey Institute of Technology
  • CUNY School of Professional Studies
  • Syracuse University

Capacitación y bootcamps en Ciencia de Datos

Dada la escasez actual de talento en Ciencia de Datos, muchas organizaciones están desarrollando programas para desarrollar talento interno en ciencia de datos.

Los bootcamps son otra vía de rápido crecimiento para capacitar a los trabajadores para que asuman roles de Ciencia de Datos. 

Certificaciones en Ciencia de Datos

Las organizaciones necesitan científicos y analistas de datos con experiencia en técnicas para analizar éstos. También necesitan grandes arquitectos de datos para traducir los requisitos en sistemas, ingenieros de datos para crear y mantener canalizaciones de datos, desarrolladores que conozcan los clústeres de Hadoop y otras tecnologías, y administradores y gerentes de sistemas para unir todo. Las certificaciones son una forma para que los candidatos demuestren que tienen el conjunto de habilidades adecuado.

Algunas de las principales certificaciones de Big Data y Análisis de Datos incluyen:

  • Profesional de análisis certificado (CAP)
  • Certificación de generalista de Cloudera Data Platform
  • Consejo de ciencia de datos de América (DASCA) Científico sénior de datos (SDS)
  • Consejo de ciencia de datos de América (DASCA) Científico principal de datos (PDS)
  • Certificado profesional de ciencia de datos de IBM
  • Certificado por Microsoft: Asociado científico de datos de Azure
  • Científico de datos certificado abierto (Open CDS)
  • Científico de datos certificado por SAS

Equipos de Ciencia de Datos

La Ciencia de Datos es generalmente una disciplina de equipo. Los científicos de datos son el núcleo de la mayoría de los equipos de ciencia de datos, pero pasar de los datos al análisis y al valor de producción requiere una variedad de habilidades y roles. Por ejemplo, los analistas de datos deben estar a bordo para investigar los datos antes de presentarlos al equipo y para mantener los modelos de datos. Los ingenieros de datos son necesarios para construir canalizaciones de datos para enriquecer los conjuntos de datos y hacer que los datos estén disponibles para el resto de la empresa.

Objetivos y resultados de la Ciencia de Datos

El objetivo de la Ciencia de Datos es construir los medios para extraer información de los datos centrada en el negocio. Esto requiere una comprensión de cómo fluye el valor y la información en un negocio, y la capacidad de utilizar esa comprensión para identificar oportunidades comerciales. Si bien eso puede implicar proyectos únicos, los equipos de ciencia de datos suelen buscar identificar activos de datos clave que se pueden convertir en canalizaciones de datos que alimentan herramientas y soluciones mantenibles. Los ejemplos incluyen soluciones de monitoreo de fraude con tarjetas de crédito utilizadas por bancos o herramientas utilizadas para optimizar la ubicación de turbinas eólicas en parques eólicos.

Incrementalmente, las presentaciones que comunican lo que el equipo está haciendo también son entregables importantes.

Metodologías y procesos de Ciencia de Datos

Los equipos de ingeniería de producción trabajan en ciclos de sprint, con plazos previstos. Eso suele ser difícil para los equipos de ciencia de datos porque se puede dedicar mucho tiempo por adelantado a determinar si un proyecto es factible. Los datos deben ser recopilados y quedar limpios. Luego, el equipo debe determinar si puede responder la pregunta de manera eficiente.

Idealmente, la ciencia de datos debería seguir el método científico, aunque no siempre es así, o incluso factible. La verdadera ciencia lleva tiempo. Pasas un poco de tiempo confirmando tu hipótesis y luego mucho tiempo tratando de refutarte. En los negocios, el tiempo de respuesta es importante. Como resultado, la ciencia de datos a menudo puede significar ir con la respuesta “suficientemente buena” en lugar de la mejor respuesta. Sin embargo, el peligro es que los resultados pueden ser víctimas del sesgo de confirmación o del sobreajuste.

Herramientas de Ciencia de Datos

Los equipos de Ciencia de Datos utilizan una amplia gama de herramientas, que incluyen SQL, Python, R, Java y una gran variedad de proyectos de código abierto como Hive, oozie y TensorFlow. Estas herramientas se utilizan para una variedad de tareas relacionadas con datos, que van desde la extracción y limpieza de datos, hasta someter los datos a análisis algorítmicos a través de métodos estadísticos o aprendizaje automático. Algunas herramientas comunes incluyen:

  • SAS: Esta herramienta estadística patentada se utiliza para la extracción de datos, el análisis estadístico, la inteligencia empresarial, el análisis de ensayos clínicos y el análisis de series temporales.
  • Tableau: ahora propiedad de Salesforce, Tableau es una herramienta de visualización de datos.
  • TensorFlow: desarrollado por Google y con licencia Apache License 2.0, TensorFlow es una biblioteca de software para el aprendizaje automático que se utiliza para el entrenamiento y la inferencia de redes neuronales profundas.
  • DataRobot: esta plataforma de aprendizaje automático automatizado se utiliza para crear, implementar y mantener la Inteligencia Artificial.
  • BigML: BigML es una plataforma de aprendizaje automático centrada en simplificar la creación y el intercambio de conjuntos de datos y modelos.
  • Knime: Knime es una plataforma de integración, informes y análisis de datos de código abierto.
  • Apache Spark: este motor de análisis unificado está diseñado para procesar datos a gran escala, con soporte para limpieza, transformación, creación de modelos y evaluación de datos.
  • RapidMiner: esta plataforma de Ciencia de Datos está diseñada para ayudar a los equipos, con soporte para la preparación de datos, el aprendizaje automático y la implementación de modelos predictivos.
  • Matplotlib: esta biblioteca de trazado de código abierto para Python ofrece herramientas para crear visualizaciones estáticas, animadas e interactivas.
  • Excel: el software de hoja de cálculo de Microsoft es quizás la herramienta de BI más utilizada. También es útil para los científicos de datos que trabajan con conjuntos de datos más pequeños.
  • js: esta biblioteca de JavaScript se utiliza para realizar visualizaciones interactivas en navegadores web.
  • ggplot2: este paquete avanzado de visualización de datos para R le permite a los científicos de datos crear visualizaciones a partir de los datos analizados.
  • Jupyter: esta herramienta de código abierto basada en Python se utiliza para escribir código en vivo, visualizaciones y presentaciones.

Thor Olavsrud, CIO.com

Advertisement
Advertisement

VIDEOS

Resources

Advertisement

Recientes

Advertisement