Los modelos de Inteligencia Artificial (IA) generativa pueden mantener conversaciones, responder preguntas, escribir historias, producir código fuente y crear imágenes y vídeos de casi cualquier descripción. Así es como funciona la IA generativa, cómo se utiliza y por qué es más limitada de lo que piensas.

La IA generativa es un tipo de inteligencia artificial que crea contenido nuevo, incluidos texto, imágenes, audio y video, basándose en patrones que ha aprendido del contenido existente. Los modelos de IA generativa actuales se han entrenado con enormes volúmenes de datos utilizando aprendizaje profundo o redes neuronales profundas, y pueden mantener conversaciones, responder preguntas, escribir historias, producir código fuente y crear imágenes y videos de cualquier descripción, todo basado en entradas de texto breves o “indicaciones”.

La IA generativa se llama generativa porque crea algo que no existía anteriormente. Eso es lo que la diferencia de la IA discriminativa, que establece distinciones entre diferentes tipos de información. Para decirlo de otra manera, la IA discriminativa intenta responder a una pregunta como “¿Esta imagen es un dibujo de un conejo o un león?”, mientras que la IA generativa responde a indicaciones como “Hazme un dibujo de un león y un conejo sentados uno al lado del otro”.

Este artículo le presenta la IA generativa y sus usos con modelos populares como ChatGPT y DALL-E. También consideraremos las limitaciones de la tecnología, incluyendo por qué “demasiados dedos” se ha convertido en un indicio de arte generado artificialmente.

El surgimiento de la IA generativa

La IA generativa existe desde hace años, posiblemente desde que ELIZA, un chatbot que simula hablar con un terapeuta, fue desarrollado en el MIT en 1966. Pero años de trabajo en IA y aprendizaje automático se han hecho realidad recientemente con el lanzamiento de nuevos sistemas de IA generativa.

Seguramente habrá oído hablar de ChatGPT , un chatbot de IA basado en texto que produce una prosa notablemente parecida a la humana. DALL-E y Stable Diffusion también han llamado la atención por su capacidad para crear imágenes vibrantes y realistas basadas en indicaciones de texto.

Los resultados de estos sistemas son tan asombrosos que muchas personas se hacen preguntas filosóficas sobre la naturaleza de la conciencia y se preocupan por el impacto económico de la IA generativa en los trabajos humanos. Pero si bien todas estas creaciones de inteligencia artificial son innegablemente una gran noticia, podría decirse que debajo de la superficie sucede menos de lo que algunos podrían suponer. Llegaremos a algunas de esas preguntas generales más adelante. Primero, veamos lo básico.

¿Cómo funciona la IA generativa?

La IA generativa utiliza el aprendizaje automático para procesar una gran cantidad de datos visuales o textuales, muchos de los cuales se extraen de Internet, y luego determina qué cosas tienen más probabilidades de aparecer cerca de otras. Gran parte del trabajo de programación de la IA generativa se destina a la creación de algoritmos que puedan distinguir las “cosas” de interés para los creadores de la IA: palabras y oraciones en el caso de chatbots como ChatGPT, o elementos visuales para DALL-E. Pero fundamentalmente, la IA generativa crea su resultado evaluando un enorme corpus de datos y luego respondiendo a indicaciones con algo que cae dentro del ámbito de la probabilidad según lo determinado por ese corpus.

La función de autocompletar (cuando su teléfono celular o Gmail sugiere cuál podría ser el resto de la palabra u oración que está escribiendo) es una forma de bajo nivel de IA generativa. ChatGPT y DALL-E simplemente llevan la idea a alturas significativamente más avanzadas.

¿Qué es un modelo de IA?

ChatGPT y DALL-E son interfaces para la funcionalidad subyacente de IA que se conoce en términos de IA como modelo. Un modelo de IA es una representación matemática, implementada como un algoritmo o práctica, que genera nuevos datos que (con suerte) se parecerán a un conjunto de datos que ya tiene a mano. A veces verás que ChatGPT y DALL-E se denominan modelos; estrictamente hablando, esto es incorrecto, ya que ChatGPT es un chatbot que brinda a los usuarios acceso a varias versiones diferentes del modelo GPT subyacente. Pero en la práctica, estas interfaces son la forma en que la mayoría de las personas interactuarán con los modelos, así que no se sorprenda al ver que los términos se usan indistintamente.

Los desarrolladores de IA reúnen un corpus de datos del tipo que quieren que generen sus modelos. Este corpus se conoce como conjunto de entrenamiento del modelo y el proceso de desarrollo del modelo se llama entrenamiento. Los modelos GPT, por ejemplo, se entrenaron con un enorme corpus de texto extraído de Internet, y el resultado es que puede alimentarlo con consultas en lenguaje natural y responderá en inglés idiomático (o en cualquier otro idioma).

Los modelos de IA tratan diferentes características de los datos en sus conjuntos de entrenamiento como vectores: estructuras matemáticas formadas por múltiples números. Gran parte del ingrediente secreto que subyace a estos modelos es su capacidad para traducir información del mundo real en vectores de manera significativa y para determinar qué vectores son similares entre sí de una manera que permitirá que el modelo genere resultados similares a, pero no idéntico a su conjunto de entrenamiento.

Existen varios tipos diferentes de modelos de IA, pero tenga en cuenta que las distintas categorías no son necesariamente excluyentes entre sí. Algunos modelos pueden encajar en más de una categoría.

Probablemente el tipo de modelo de IA que recibe más atención pública en la actualidad son los grandes modelos de lenguaje , o LLM. Los LLM se basan en el concepto de transformador, presentado por primera vez en ” La atención es todo lo que necesitas “, un artículo de 2017 de investigadores de Google. Un transformador obtiene significado de largas secuencias de texto para comprender cómo diferentes palabras o componentes semánticos pueden estar relacionados entre sí, y luego determina la probabilidad de que ocurran cerca unos de otros. Los modelos GPT son LLM y la T significa transformador. Estos transformadores se ejecutan sin supervisión en un vasto corpus de texto en lenguaje natural en un proceso llamado preentrenamiento (ese es el Pen GPT), antes de ser ajustado por seres humanos que interactúan con el modelo.

La difusión se usa comúnmente en modelos de IA generativa que producen imágenes o videos. En el proceso de difusión, el modelo agrega ruido (aleatoriedad, básicamente) a una imagen, luego lo elimina lentamente de manera iterativa, mientras lo compara con su conjunto de entrenamiento para intentar hacer coincidir imágenes semánticamente similares. La difusión es el núcleo de los modelos de IA que realizan magia de conversión de texto a imagen, como Stable Diffusion y DALL-E.

Una red generativa adversarial , o GAN, se basa en un tipo de aprendizaje por refuerzo , en el que dos algoritmos compiten entre sí. Se genera texto o imágenes basándose en probabilidades derivadas de un gran conjunto de datos. La otra, una IA discriminativa, evalúa si ese resultado es real o generado por IA. La IA generativa intenta repetidamente “engañar” a la IA discriminativa, adaptándose automáticamente para favorecer los resultados exitosos. Una vez que la IA generativa “gana” consistentemente esta competencia, los humanos perfeccionan la IA discriminativa y el proceso comienza de nuevo.

Una de las cosas más importantes a tener en cuenta aquí es que, si bien existe intervención humana en el proceso de formación, la mayor parte del aprendizaje y la adaptación se producen de forma automática. Se requieren muchísimas iteraciones para que los modelos lleguen al punto en el que produzcan resultados interesantes, por lo que la automatización es esencial. El proceso es bastante intensivo desde el punto de vista computacional, y gran parte de la reciente explosión en las capacidades de IA ha sido impulsada por los avances en la potencia informática de la GPU y las técnicas para implementar el procesamiento paralelo en estos chips .

¿Es sensible la IA generativa?

Las matemáticas y la codificación necesarias para crear y entrenar modelos de IA generativa son bastante complejas y están mucho más allá del alcance de este artículo. Pero si interactúas con los modelos que son el resultado final de este proceso, la experiencia puede ser decididamente asombrosa. Puede hacer que DALL-E produzca cosas que parezcan verdaderas obras de arte. Puede tener conversaciones con ChatGPT que parezcan una conversación con otro ser humano. ¿Han creado realmente los investigadores una máquina pensante?

Chris Phipps, exlíder de procesamiento del lenguaje natural de IBM que trabajó en productos de IA de Watson , dice que no. Describe ChatGPT como una “muy buena máquina de predicción”.

Es muy bueno para predecir lo que los humanos encontrarán coherente. No siempre es coherente (en su mayoría lo es), pero eso no se debe a que ChatGPT “entiende”. Es todo lo contrario: los humanos que consumen el producto son realmente buenos para hacer cualquier suposición implícita que necesitemos para que el producto tenga sentido.

Phipps, que también es actor de comedia, hace una comparación con un juego de improvisación común llamado Mind Meld.

Dos personas piensan cada una en una palabra y luego la dicen en voz alta simultáneamente; usted puede decir “bota” y yo digo “árbol”. Se nos ocurrieron esas palabras de forma completamente independiente y al principio no tenían nada que ver entre sí. Los siguientes dos participantes toman esas dos palabras e intentan encontrar algo que tengan en común y lo dicen en voz alta al mismo tiempo. El juego continúa hasta que dos participantes digan la misma palabra.

Quizás dos personas digan “leñador”. Parece magia, pero en realidad es que usamos nuestro cerebro humano para razonar sobre la entrada (“arranque” y “árbol”) y encontrar una conexión. Nosotros hacemos el trabajo de comprender, no la máquina. Hay mucho más de eso sucediendo con ChatGPT y DALL-E de lo que la gente admite. ChatGPT puede escribir una historia, pero los humanos trabajamos mucho para que tenga sentido.

Probando los límites de la inteligencia informática

Ciertas indicaciones que podemos dar a estos modelos de IA harán que el punto de vista de Phipps sea bastante evidente. Por ejemplo, considere el acertijo “¿Qué pesa más, una libra de plomo o una libra de plumas?” La respuesta, por supuesto, es que pesan lo mismo (una libra), aunque nuestro instinto o sentido común nos diga que las plumas son más ligeras.

ChatGPT responderá este acertijo correctamente, y puedes suponer que lo hace porque es una computadora fríamente lógica que no tiene ningún “sentido común” para hacerla tropezar. Pero eso no es lo que está pasando bajo el capó. ChatGPT no razona lógicamente la respuesta; simplemente está generando resultados basados ​​en sus predicciones de lo que debería seguir a una pregunta sobre una libra de plumas y una libra de plomo. Dado que su conjunto de entrenamiento incluye una gran cantidad de texto que explica el acertijo, reúne una versión de esa respuesta correcta.

Sin embargo, si le pregunta a ChatGPT si dos libras de plumas pesan más que una libra de plomo, le dirá con seguridad que pesan la misma cantidad, porque ese sigue siendo el resultado más probable de una pregunta sobre plumas y plomo, según su conjunto de entrenamiento. Puede ser divertido decirle a la IA que está mal y verla fracasar en respuesta; conseguí que se disculpara por su error y luego sugiriera que dos libras de plumas pesan cuatro veces más que una libra de plomo.

¿Por qué el arte de la IA tiene “demasiados dedos”?

Una peculiaridad notable del arte de la IA es que a menudo representa a personas con manos profundamente extrañas . La “peculiaridad de las manos raras” se está convirtiendo en un indicador común de que el arte fue generado artificialmente. Esta rareza ofrece más información sobre cómo funciona (y no funciona) la IA generativa. Comience con el corpus del que están extrayendo DALL-E y herramientas de IA generativas visuales similares: las imágenes de personas generalmente brindan una buena visión de su rostro, pero sus manos a menudo están parcialmente oscurecidas o se muestran en ángulos extraños, por lo que no se pueden ver imágenes con muchos dedos a la vez. A esto hay que añadir el hecho de que las manos son estructuralmente complejas: a las personas , incluso a los artistas capacitados, les resulta muy difícil dibujarlas. Lo que está haciendo es ensamblar un elaborado modelo 3D de manos basado en las diversas representaciones 2D de su conjunto de entrenamiento. Así no es cómo funciona. DALL-E ni siquiera sabe necesariamente que “manos” es una categoría coherente de algo sobre lo que se puede razonar. Todo lo que puede hacer es intentar predecir, basándose en las imágenes que tiene, cómo se vería una imagen similar. A pesar de las enormes cantidades de datos de entrenamiento, esas predicciones a menudo se quedan cortas.

Phipps especula que un factor es la falta de información negativa.

“Hasta donde yo sé, dice, se entrena principalmente con ejemplos positivos. No le dieron una foto de una mano con siete dedos y le dijeron ‘¡NO! Mal ejemplo de mano. No hagas esto’. Por tanto, predice el espacio de lo posible , no el espacio de lo imposible. Básicamente, nunca se le dijo que no creara una mano de siete dedos”.

También está el factor de que estos modelos no piensan en los dibujos que hacen como un todo coherente; más bien, ensamblan una serie de componentes que probablemente estén próximos entre sí, como lo muestran los datos de entrenamiento. Es posible que DALL-E no sepa que se supone que una mano tiene cinco dedos, pero sí sabe que es probable que un dedo esté inmediatamente adyacente a otro dedo. Entonces, a veces, sigue agregando dedos. (Se pueden obtener los mismos resultados con los dientes). De hecho, incluso esta descripción del proceso de DALL-E probablemente lo antropomorfice demasiado; como dice Phipps: “Dudo que tenga siquiera la comprensión de un dedo. Lo más probable es que prediga el color de los píxeles, y los píxeles coloreados con los dedos tienden a estar al lado de otros píxeles coloreados con los dedos”.

Posibles impactos negativos de la IA generativa

Estos ejemplos muestran una de las principales limitaciones de la IA generativa: lo que en la industria llaman alucinaciones, que es un término quizás engañoso para una producción que, según los estándares de los humanos que la usan, es falsa o incorrecta. Por supuesto, todos los sistemas informáticos ocasionalmente producen errores, pero estos errores son particularmente problemáticos porque es poco probable que los usuarios finales los detecten fácilmente: si le hace una pregunta a un chatbot de IA de producción, generalmente no sabrá la respuesta. También es más probable que acepte una respuesta entregada en la prosa segura y totalmente idiomática que producen ChatGPT y otros modelos similares, incluso si la información es incorrecta.

Incluso si una IA generativa pudiera producir resultados libres de alucinaciones, existen varios impactos negativos potenciales:

Creación de contenido fácil y barata: con suerte, a estas alturas ya está claro que ChatGPT y otras IA generativas no son mentes reales capaces de generar conocimientos o resultados creativos. Pero lo cierto es que no todo lo que se escribe o dibuja tiene que ser especialmente creativo. Muchos trabajos de investigación a nivel de pregrado en la escuela secundaria o la universidad solo tienen como objetivo sintetizar datos disponibles públicamente, lo que los convierte en un objetivo perfecto para la IA generativa. Y el hecho de que ahora se pueda producir prosa o arte sintético de forma automática, a una escala sobrehumana, puede tener resultados extraños o imprevistos. Los artistas del spam ya están utilizando ChatGPT para escribir correos electrónicos de phishing, por ejemplo .

con suerte, a estas alturas ya está claro que ChatGPT y otras IA generativas no son mentes reales capaces de generar conocimientos o resultados creativos. Pero lo cierto es que no todo lo que se escribe o dibuja tiene que ser especialmente creativo. Muchos trabajos de investigación a nivel de pregrado en la escuela secundaria o la universidad solo tienen como objetivo sintetizar datos disponibles públicamente, lo que los convierte en un objetivo perfecto para la IA generativa. Y el hecho de que ahora se pueda producir prosa o arte sintético de forma automática, a una escala sobrehumana, puede tener resultados extraños o imprevistos. Los artistas del spam ya están utilizando ChatGPT para escribir correos electrónicos de phishing, por ejemplo . Propiedad intelectual: ¿Quién es el propietario de una imagen o un texto generado por IA? Si una obra protegida por derechos de autor forma parte del conjunto de entrenamiento de una IA, ¿la IA “plagia” ese trabajo cuando genera datos sintéticos, incluso si no los copia palabra por palabra? Éstas son cuestiones jurídicas espinosas y no comprobadas.

¿Quién es el propietario de una imagen o un texto generado por IA? Si una obra protegida por derechos de autor forma parte del conjunto de entrenamiento de una IA, ¿la IA “plagia” ese trabajo cuando genera datos sintéticos, incluso si no los copia palabra por palabra? Éstas son cuestiones jurídicas espinosas y no comprobadas. Sesgo: el contenido producido por la IA generativa está completamente determinado por los datos subyacentes con los que se entrena. Debido a que los datos son producidos por humanos con todos sus defectos y sesgos, los resultados generados también pueden ser defectuosos y sesgados, especialmente si operan sin barreras humanas. OpenAI, la empresa que creó ChatGPT, puso salvaguardias en el modelo antes de abrirlo al uso público que le impiden hacer cosas como usar insultos raciales; sin embargo, otros han afirmado que este tipo de medidas de seguridad representan su propio tipo de sesgo .

el contenido producido por la IA generativa está completamente determinado por los datos subyacentes con los que se entrena. Debido a que los datos son producidos por humanos con todos sus defectos y sesgos, los resultados generados también pueden ser defectuosos y sesgados, especialmente si operan sin barreras humanas. OpenAI, la empresa que creó ChatGPT, puso salvaguardias en el modelo antes de abrirlo al uso público que le impiden hacer cosas como usar insultos raciales; sin embargo, otros han afirmado que este tipo de medidas de seguridad representan su propio tipo de sesgo . Consumo de energía: además de cuestiones filosóficas embriagadoras, la IA generativa plantea algunas cuestiones muy prácticas: por un lado, entrenar un modelo de IA generativa requiere una gran cantidad de computación . Esto puede resultar en grandes facturas de computación en la nube para las empresas que intentan ingresar a este espacio y, en última instancia, plantea la pregunta de si el mayor consumo de energía (y, en última instancia, las emisiones de gases de efecto invernadero) vale la pena por el resultado final. (También vemos que surge esta pregunta con respecto a las criptomonedas y la tecnología blockchain).

Casos de uso para IA generativa

A pesar de estos problemas potenciales, es difícil pasar por alto la promesa de la IA generativa. La capacidad de ChatGPT para extraer información útil de enormes conjuntos de datos en respuesta a consultas en lenguaje natural tiene a los gigantes de las búsquedas salivando. Microsoft está probando su propio chatbot de IA, denominado “Sydney”, aunque todavía está en versión beta y los resultados han sido decididamente mixtos .

Pero Phipps cree que los tipos de búsqueda más especializados encajan perfectamente con esta tecnología. “Uno de mis últimos clientes en IBM fue una gran compañía naviera internacional que también tenía un negocio paralelo de consultoría de cadena de suministro de miles de millones de dólares”, dice.

“Su problema era que no podían contratar y capacitar a consultores de cadena de suministro de nivel básico lo suficientemente rápido; estaban perdiendo negocios porque no podían obtener respuestas rápidas a las preguntas simples de los clientes. Creamos un chatbot para ayudar a los consultores de nivel básico a buscar en la extensa biblioteca de manuales y presentaciones de la cadena de suministro de la empresa que podrían entregar al cliente.

“Si tuviera que crear una solución para ese mismo cliente hoy, solo un año después de crear la primera, usaría ChatGPT al 100% y probablemente sería muy superior a la que creé. Lo bueno de ese caso de uso es que todavía hay un humano experto en el circuito que verifica la respuesta. Eso mitiga muchos de los problemas éticos. Existe un mercado enorme para ese tipo de herramientas de búsqueda inteligentes destinadas a expertos”, señala Phipps.

Otros posibles casos de uso incluyen:

Generación de código: La idea de que la IA generativa podría escribir código informático para nosotros ha estado circulando durante años . Resulta que los modelos de lenguajes grandes como ChatGPT pueden comprender lenguajes de programación así como lenguajes hablados naturales, y si bien la IA generativa probablemente no reemplazará a los programadores en el futuro inmediato, puede ayudar a aumentar su productividad .

La idea de que la IA generativa podría escribir código informático para nosotros ha estado circulando durante años . Resulta que los modelos de lenguajes grandes como ChatGPT pueden comprender lenguajes de programación así como lenguajes hablados naturales, y si bien la IA generativa probablemente no reemplazará a los programadores en el futuro inmediato, puede ayudar a aumentar su productividad . Creación de contenido fácil y barata: por mucho que ésta sea una preocupación (mencionada anteriormente), también es una oportunidad. La misma IA que escribe correos electrónicos no deseados puede escribir correos electrónicos de marketing legítimos, y ha habido una explosión de nuevas empresas de redacción de textos publicitarios con IA. La IA generativa prospera cuando se trata de formas de prosa altamente estructuradas que no requieren mucha creatividad, como currículums y cartas de presentación.

por mucho que ésta sea una preocupación (mencionada anteriormente), también es una oportunidad. La misma IA que escribe correos electrónicos no deseados puede escribir correos electrónicos de marketing legítimos, y ha habido una explosión de nuevas empresas de redacción de textos publicitarios con IA. La IA generativa prospera cuando se trata de formas de prosa altamente estructuradas que no requieren mucha creatividad, como currículums y cartas de presentación. Diseño de ingeniería: el arte visual y el lenguaje natural han recibido mucha atención en el espacio de la IA generativa porque son fáciles de entender para la gente común. Pero se están utilizando técnicas similares para diseñar de todo, desde microchips hasta nuevos fármacos, y es casi seguro que pronto entrarán en el espacio del diseño de arquitecturas de TI .

Conclusión

La IA generativa seguramente perturbará algunas industrias y alterará (o eliminará) muchos puestos de trabajo. Sin embargo, artículos como este seguirán siendo escritos por seres humanos, al menos por ahora. CNET intentó recientemente poner a trabajar la IA generativa en la redacción de artículos, pero el esfuerzo fracasó debido a una ola de alucinaciones . Si está preocupado, es posible que desee dedicarse al nuevo trabajo de moda del mañana: ingeniería rápida de IA .

Josh Fruhlinger, InfoWorld.com