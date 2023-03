Es la hora de comer y usted no sabe aún qué cocinar. Entonces toma su teléfono, le da clic a una app de Inteligencia Artificial con ChatGPT-4, abre el refrigerador, le toma una fotografía que muestre los alimentos que hay dentro y pide: “Dame recetas con lo que tengo en el refrigerador”. Al cabo de unos instantes, ya tiene tres opciones de platillos que puede cocinar con lo que usted tiene disponible.

La nueva versión del conversador inteligente: conocido como ChatGPT-4, que apareció hace unos días, contiene un gran avance: el modelo de lenguaje multimodal largo. ¿Qué es esto? Para decirlo de manera simple: es un lenguaje que le permite a la computadora captar información desde distintas fuentes, no sólo el texto como hasta ahora.

La nueva versión puede “leer” imágenes, videos y audios, pero sobre todo interpretarlos y generar respuestas a partir de ellos.

Si usted le muestra un meme, el chatGPT-4 le explicará por qué es gracioso. Si escribe en su libreta algunas notas, incluso de programación o imágenes, interpretará las palabras e imágenes y las ordenará de acuerdo con la lógica que tiene programada, mostrando en su pantalla el resultado.

También le podemos pedir que haga un cuento mostrando la imagen de un gato y un bosque. Igual que el cuento, puede hacer una canción, un poema o diseñar una casa que tenga la forma del animal y que pueda conservar la naturaleza de un bosque.

Este “ingreso visual” de información ha sido la ilusión de muchos desarrolladores y expertos en computación durante muchos años, pues es similar a la forma en que aprendemos: a través de los sentidos. Leemos, escuchamos, tocamos y podemos interpretar y guardar imágenes que luego utilizamos para ordenar ideas con las que finalmente construimos información con la que tomamos decisiones.

La empresa OpenAI pone al alcance del público este avance tecnológico, impulsando el uso masivo de Inteligencia Artificial.

No es la única novedad: también se ha ampliado su capacidad de lectura. La versión anterior (ChatGPT-3) podía “leer” unas 2,000 palabras y hacer un resumen. Era suficiente. El nuevo GPT-4 lo puede hacer con 25,000 palabras. Además ha ampliado su capacidad de razonamiento: ahora puede presentar exámenes para el ingreso a la barra de abogados de Estados Unidos, o la olimpiada de biología obteniendo mejores resultados que la versión anterior.

Según los desarrolladores, la nueva versión ha corregido muchos de los errores de búsqueda y de interpretación que tenía la versión GPT-3, la retroalimentación humana y el aprendizaje de máquina ha sido fundamental para esta nueva entrega. Sin embargo, no está exenta de equivocaciones y sesgos, por lo cual aún no podemos confiar plenamente en esta máquina. La debemos considerar como una herramienta que produce ideas, que expande nuestras capacidades y nos permite aumentar nuestras conexiones con otros conceptos, pero no hará mucho del trabajo humano.

El avance del lenguaje multimodal que presenta GPT-4 lo veremos muy pronto en los buscadores como Bing, y en varias herramientas que esta desarrollando empresas como: Google, DeepMind y otras tantas, por lo que muy pronto veremos más avances prometedores. ¿Qué impacto tendrá GPT-4 en nuestra vida cotidiana? ¿Qué repercusiones tiene que GPT-4 pueda aprender a través de varias modalidades? Lo comentaremos en una siguiente entrega.

El autor de la columna “Tecnogob”, Rodrigo Sandoval Almazán, es Profesor de Tiempo Completo SNI Nivel 2 de la Universidad Autónoma del Estado de México. Lo puede contactar en tecnogob@pm.me y en la cuenta de Twitter @horus72.