Connect with us

Inteligencia Artificial

¿Qué son los datos sintéticos? Datos generados para ayudar a su estrategia de IA

José Luis Becerra Pozas

Published

on

Los datos generados artificialmente se pueden usar en lugar de datos históricos reales para entrenar modelos de IA cuando los conjuntos de datos reales carecen de calidad, volumen o variedad.

Datos sintéticos definidos

Los datos sintéticos son información generada artificialmente que se puede usar en lugar de datos históricos reales para entrenar modelos de Inteligencia Artificial (IA) cuando los conjuntos de datos reales carecen de calidad, volumen o variedad. Los datos sintéticos también pueden ser una herramienta vital para los esfuerzos de inteligencia artificial empresarial cuando los datos disponibles no satisfacen las necesidades comerciales o pueden crear problemas de privacidad si se usan para entrenar modelos de aprendizaje automático, probar software o similares.

Según la analista de Gartner, Svetlana Sicular, para 2024 el 60 % de los datos utilizados para el desarrollo de soluciones de Inteligencia Artificial y análisis se generarán sintéticamente, frente al 1 % en 2021.

Casos de uso de datos sintéticos

Los datos artificiales tienen muchos usos en las estrategias empresariales de IA. Como sustituto de los datos reales, los datos sintéticos pueden ser útiles en los siguientes escenarios:

Para modelos de entrenamiento cuando faltan datos del mundo real: los sistemas de IA y Machine Learning (ML) requieren cantidades masivas de datos. Para algunos casos de uso, simplemente no hay suficientes datos disponibles, ya sea porque el caso de uso ocurre con muy poca frecuencia o porque el caso de uso es nuevo y todavía no hay muchos datos históricos disponibles. Los datos sintéticos también pueden reducir los costos cuando recopilar o comprar datos del mundo real es prohibitivamente costoso. 

Para llenar los vacíos en los datos de capacitación: algunos conjuntos de datos no reflejan completamente los casos de uso de una empresa. Por ejemplo, es posible que un sistema capacitado para reconocer números de teléfono no tenga suficientes números internacionales con los que trabajar.

Otro problema común es equilibrar un conjunto de datos. Por ejemplo, un conjunto de datos históricos puede estar compuesto por un 99% de transacciones no fraudulentas y menos de un 1% de transacciones fraudulentas, asevera John Blankenbaker, científico de datos principal de SSA & Co., una firma global de consultoría de gestión. “Muchos modelos decidirán que la política más exitosa será etiquetar cada transacción como no fraudulenta”.

Los datos sintéticos pueden ayudar a equilibrar el conjunto de datos, pero deben hacerse con mucho cuidado. “Sólo será útil si el proceso de síntesis captura cualquier cosa sobre una transacción que indique fraude”, dice Blankenbaker. “Lo cual es poco probable que sea obvio porque entonces lo usaríamos como nuestro detector de fraude”.

Casos de uso de ‘cola larga’: a medida que la IA se vuelve omnipresente en las organizaciones, las empresas se están quedando sin casos de uso en los que los datos de capacitación requeridos son abundantes y fácilmente disponibles. Una vez que esos proyectos muestren éxito, los líderes empresariales querrán que se utilicen los mismos enfoques para sus propios casos de uso.

Para acelerar el desarrollo del modelo: la recopilación de datos de capacitación del mundo real puede requerir tiempo, ya que la información se recopila, etiqueta, procesa y pasa por el cumplimiento y otras verificaciones. Esto puede ralentizar el desarrollo de nuevos modelos de IA. Con datos sintéticos, los modelos se pueden entrenar y calibrar antes de que los datos del mundo real estén disponibles.

Para simular el futuro: cuando cambia la moda, los datos históricos pueden volverse obsoletos de la noche a la mañana. Por ejemplo, cuando las personas cambiaron los auriculares con cable por los inalámbricos, todos los datos históricos de los clientes perdieron su valor predictivo. Es posible que los motores de recomendación que se basan en datos de entrenamiento antiguos sigan recomendando opciones con cable. Reemplazar o aumentar los datos históricos con datos sintéticos que dan cuenta del cambio de moda puede ayudar a mantener la relevancia de los motores de recomendación.

Para simular futuros alternativos: si se avecina un cambio y no está claro en qué dirección irán los clientes, los datos simulados pueden ayudar a las empresas a ejecutar simulaciones de escenarios y estar preparadas para cualquier opción.

Para simular eventos de “cisne negro”: Ciertas situaciones surgen muy raramente y es posible que no estén presentes en los datos históricos en absoluto, pero si tuvieran un impacto dramático en una organización si sucedieran, entonces es necesario estar preparado. El uso de datos sintéticos para simular esas situaciones puede ayudar a una empresa a modelar esas respuestas.

Para simular el metaverso: el metaverso (simulaciones virtuales en 3D de entornos de juegos, sociales y comerciales) requerirá una gran cantidad de contenido. Será necesario crear habitaciones, edificios, paisajes, etc., y contratar artistas 3D para crear todo este contenido desde cero será prohibitivamente costoso. Los datos sintéticos pueden llenar algunos de los vacíos para crear entornos y objetos realistas y apropiados para entornos, eventos e interacciones virtuales.

Para generar imágenes de marketing: los anunciantes ya están creando imágenes sintéticas para mostrar sus productos. Por ejemplo, una fotografía de una modelo con un suéter de un color se puede convertir en fotos realistas de la misma modelo con todas las versiones diferentes del mismo suéter. También hay disponibles herramientas de generación de imágenes que incluso pueden generar caras realistas pero únicas o exhibir muebles en diferentes arreglos.

Para pruebas de software: el uso de datos reales para probar un nuevo software puede crear problemas de privacidad y seguridad. Los datos sintéticos que parecen datos reales pero no lo son permiten probar el software en toda la gama de casos de uso sin poner en riesgo los datos reales. “Si queremos ver cómo nuestra infraestructura maneja una gran cantidad de cuentas de usuario, es fácil escribir un programa que se conecte a nuestro sitio web y registre usuarios sintéticos”, dice Blankenbaker de la SSA.

Para crear gemelos digitales: en los casos judiciales, los abogados a veces crean un jurado en la sombra para probar los argumentos. Las organizaciones pueden hacer algo similar mediante el uso de datos sintéticos. Por ejemplo, en 2019, la Administración de Trabajo y Bienestar de Noruega creó una versión sintética de toda su población. Los datos se regeneran diariamente, dice Sicular de Gartner, y son utilizados por varias organizaciones externas.

En lugar de datos médicos y financieros: el uso de datos reales de clientes o pacientes para entrenar modelos de IA, ejecutar simulaciones o encontrar correlaciones o tratamientos útiles puede ser muy arriesgado desde el punto de vista del cumplimiento. Incluso los datos borrados o anonimizados a menudo pueden someterse a ingeniería inversa para recuperar los datos originales, dice Andy Thurai, vicepresidente y analista principal de Constellation Research. Los datos sintéticos no se pueden anonimizar, pero aún se pueden usar para encontrar información valiosa.

Para ventas y marketing: cuando un equipo de ventas llama a un cliente para demostrar un producto o servicio que ingiere datos, puede ser útil usar muestras que sean lo más cercanas posible al caso de uso del cliente. El uso de datos de otro cliente sería una violación de la privacidad. Los datos sintéticos pueden permitir que el equipo de ventas ponga a prueba el producto en un caso de uso similar al del cliente, sin divulgar información confidencial.

“Una startup que está tratando de crear una aplicación de atención médica puede crear todo su marco utilizando datos sintéticos de PHI [información de salud protegida] para crear un marco de extremo a extremo para una posible demostración a los clientes en lugar de tener que preguntarse y esperar para tomar la decisión correcta. conexiones para usar datos PHI reales”, dice Priya Iragavarapu, vicepresidenta del centro de excelencia de datos de AArete, una consultora de gestión global.

Para probar los sistemas de IA en busca de sesgo: cuando los sistemas de IA discriminan por motivos de raza, religión u otras consideraciones ilegales, pueden crear una responsabilidad de cumplimiento o un desastre de relaciones públicas, o ambos. Con los sistemas de IA de “caja negra” y las nuevas tecnologías de IA como las redes neuronales, puede ser difícil averiguar por qué una IA hace la recomendación que hace. Probar los sistemas de IA contra conjuntos de datos sintéticos que están diseñados para imitar la demografía del mundo real puede ayudar a descubrir estos sesgos ocultos.

Generación de datos sintéticos

A veces, generar datos sintéticos puede ser muy simple. Se puede generar una lista de nombres, por ejemplo, combinando un nombre elegido al azar de una lista de nombres y un apellido de una lista de apellidos. Los códigos postales se pueden elegir aleatoriamente de una lista de códigos postales. Eso podría ser suficiente para algunas aplicaciones. Sin embargo, para otros fines, es posible que sea necesario equilibrar la lista para que, por ejemplo, los datos de gastos sintéticos se correlacionen con los patrones de gastos habituales en esos códigos postales.

La mayoría de los conjuntos de datos todavía se producen manualmente con SQL para la extracción y anonimización de datos y luego se limpian utilizando lenguajes programáticos estándar, dice Steven Karan, vicepresidente y jefe de información y datos de Capgemini Canadá.

“Todavía no ha llegado al mercado una solución comercial lista para usar”, dice. “Si bien hay un pequeño puñado de nuevas empresas que brindan soluciones de datos sintéticos, ninguna de ellas ha alcanzado ningún nivel de adopción crítica”.

En cambio, la mayoría de los científicos de datos aprovechan los paquetes preconstruidos para generar conjuntos de datos sintéticos, dice.

Generar conjuntos de datos sintéticos que sean estadísticamente significativos y reflejen datos reales de manera relevante para los casos de uso puede ser un desafío. Más recientemente, se han utilizado algoritmos de inteligencia artificial y aprendizaje automático para crear datos sintéticos que son más útiles y representativos. Por ejemplo, los científicos de datos acaban de comenzar a usar redes antagónicas generativas (GAN), asegura Iragavarapu de AArete.

“Es un tipo de trabajo neuronal que ha dado un gran salto para hacer realidad la generación de datos sintéticos”, añade.

La forma en que funciona una GAN es que un sistema genera datos, por ejemplo, una imagen de un gato, y un segundo sistema intenta adivinar si la imagen es real o falsa. Al enfrentar a los dos sistemas en una carrera entre sí, las imágenes generadas rápidamente se vuelven indistinguibles de la realidad.

Herramientas de datos sintéticos

Actualmente hay varias herramientas disponibles para las organizaciones interesadas en generar sus propios datos sintéticos, la mayoría de los cuales son de código abierto. Las siguientes son algunas de las herramientas más populares para crear datos sintéticos:

  • GPT-J : alternativa de código abierto a la herramienta de generación de texto GPT-3 de OpenAI
  • Synthea : herramienta de código abierto popular en el campo médico
  • scikit-learn : se utiliza para generar conjuntos de datos sintéticos para su uso en regresión, agrupación y clasificación con el objetivo de producir conjuntos de datos que puedan permitir predicciones, según Karan de Capgemini.
  • symPy : utilizado por científicos de datos que necesitan más conjuntos de datos sintéticos personalizados para necesidades más específicas, ya que permite la creación y el desarrollo de expresiones simbólicas personalizadas.
  • pydbgen : se utiliza para generar conjuntos de datos comunes, como números de teléfono o direcciones de correo electrónico
  • synthpop : un paquete R utilizado para generar datos demográficos sintéticos
  • faker : un paquete de Python que puede generar datos sintéticos como nombres, direcciones, correos electrónicos, números de seguridad social y otros datos
  • SDV : una herramienta de Python para generar tablas, bases de datos relacionales y modelos de series temporales

Mejores prácticas de datos sintéticos

Las empresas que recién comienzan a experimentar con datos sintéticos deberían comenzar con ejemplos bien estructurados, sugiere Sicular de Gartner. Estos casos de uso pueden ser los más fáciles de implementar y ofrecer el mayor valor inicial. Por ejemplo, una base de datos de nombres y números de Seguro Social puede reemplazarse fácilmente por un equivalente sintético que ofrezca beneficios comerciales sin crear responsabilidades de cumplimiento.

Thurai de Constellation recomienda no utilizar datos sintéticos tanto para la creación como para las pruebas de modelos. “Eso conducirá a falsos positivos”, dice. “Y no vaya barato y use todos los datos sintéticos. También necesitará una buena cantidad de datos del mundo real para mezclar en la mezcla”.

Otro error sería utilizar datos sintéticos para averiguar si las cosas están causalmente relacionadas, dice Iragavarapu de AArete, o generar valores atípicos sintéticos a menos que exista una lógica específica por la cual se generan.

“Y siempre debemos citar explícitamente dónde usamos datos sintéticos versus datos reales para seguir siendo transparentes para nuestros clientes”, agrega.

Empresas de datos sintéticos

Una variedad de empresas están interviniendo para crear datos sintéticos para usar en sus modelos, incluidas las siguientes:

Maria Korolov, CIO.com

Advertisement
Advertisement

VIDEOS

Resources

Advertisement

Recientes

Advertisement