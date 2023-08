El Procesamiento del Lenguaje Natural es una rama de la Inteligencia Artificial que permite que las computadoras entiendan, procesen y generen lenguaje tal como lo hacen las personas, y su uso en los negocios está creciendo rápidamente.

El Procesamiento del Lenguaje Natural (PNL) es la rama de la Inteligencia Artificial (IA) que se ocupa de entrenar a las computadoras para que comprendan, procesen y generen lenguaje. Los motores de búsqueda, los servicios de traducción automática y los asistentes de voz funcionan con la tecnología.

Si bien el término originalmente se refería a la capacidad de lectura de un sistema, desde entonces se ha convertido en un coloquialismo para toda la lingüística computacional. Las subcategorías incluyen la generación de lenguaje natural (NLG), la capacidad de una computadora para crear una comunicación propia, y la comprensión del lenguaje natural (NLU), la capacidad de comprender la jerga, las pronunciaciones incorrectas, las faltas de ortografía y otras variantes del lenguaje.

La introducción de modelos de transformadores en el artículo de 2017 “La atención es todo lo que necesita” de los investigadores de Google revolucionó la PNL, lo que condujo a la creación de modelos de IA generativos como Representaciones de codificador bidireccional de transformadores (BERT) y DistilBERT posteriores: un modelo más pequeño, más rápido y más eficiente. BERT más eficiente: Transformador preentrenado generativo (GPT) y Google Bard.

Cómo funciona el procesamiento del lenguaje natural

NLP aprovecha los algoritmos de aprendizaje automático (ML) entrenados en datos no estructurados, generalmente texto, para analizar cómo los elementos del lenguaje humano se estructuran juntos para impartir significado. Frases, oraciones y, a veces, libros completos se introducen en motores de ML donde se procesan utilizando reglas gramaticales, hábitos lingüísticos de la vida real de las personas y similares. Un algoritmo de PNL utiliza estos datos para encontrar patrones y extrapolar lo que viene a continuación. Por ejemplo, un algoritmo de traducción que reconozca que, en francés, “I’m going to the park” es “Je vais au parc” aprenderá a predecir que “I’m going to the store” también comienza con “Je vais au .” Todo lo que el algoritmo necesita entonces es la palabra “almacenar” para completar la tarea de traducción.

Aplicaciones de PNL

La traducción automática es una poderosa aplicación de PNL, pero la búsqueda es la más utilizada. Cada vez que busca algo en Google o Bing, está ayudando a entrenar el sistema. Cuando hace clic en un resultado de búsqueda, el sistema lo interpreta como una confirmación de que los resultados encontrados son correctos y utiliza esta información para mejorar los resultados de búsqueda en el futuro.

Los chatbots funcionan de la misma manera. Se integran con Slack, Microsoft Messenger y otros programas de chat en los que leen el idioma que usa y luego se encienden cuando escribe una frase desencadenante. Los asistentes de voz como Siri y Alexa también se ponen en marcha cuando escuchan frases como “Hola, Alexa”. Por eso los críticos dicen que estos programas siempre están escuchando; si no lo fueran, nunca sabrían cuándo los necesitas. A menos que active una aplicación manualmente, los programas de PNL deben funcionar en segundo plano, esperando esa frase.

Los modelos Transformer llevan aplicaciones como la traducción de idiomas y los chatbots a un nuevo nivel. Innovaciones como el mecanismo de autoatención y la atención de múltiples cabezales permiten que estos modelos sopesen mejor la importancia de varias partes de la entrada y procesen esas partes en paralelo en lugar de secuencialmente.

Rajeswaran V, director sénior de Capgemini, señala que el modelo GPT-3 de Open AI ha dominado el lenguaje sin usar datos etiquetados. Al basarse en la morfología (el estudio de las palabras, cómo se forman y su relación con otras palabras en el mismo idioma), GPT-3 puede realizar la traducción de idiomas mucho mejor que los modelos de última generación existentes, dice.

Los sistemas NLP que se basan en modelos de transformadores son especialmente fuertes en NLG.

Ejemplos de Procesamiento de Lenguaje Natural

Los datos vienen en muchas formas, pero el grupo de datos sin explotar más grande consiste en texto, y texto no estructurado en particular. Las patentes, las especificaciones de productos, las publicaciones académicas, los estudios de mercado, las noticias, sin mencionar las fuentes de las redes sociales, tienen el texto como componente principal y el volumen de texto crece constantemente. Aplique la tecnología a la voz y el grupo se vuelve aún más grande. Aquí hay tres ejemplos de cómo las organizaciones están poniendo la tecnología a trabajar:

Edmunds impulsa el tráfico con GPT: el recurso en línea para el inventario y la información automotriz ha creado un complemento de ChatGPT que expone sus datos no estructurados (reseñas de vehículos, calificaciones, editoriales) a la IA generativa. El complemento permite que ChatGPT responda las preguntas de los usuarios sobre vehículos con su contenido especializado, lo que genera tráfico a su sitio web. Eli Lilly supera el cuello de botella de traducción: con equipos globales que trabajan en una variedad de idiomas, la empresa farmacéutica desarrolló Lilly Translate, una solución de PNL desarrollada internamente, para ayudar a traducir todo, desde materiales de capacitación internos y comunicaciones técnicas formales para agencias reguladoras. Lilly Translate utiliza modelos de lenguaje de aprendizaje profundo y PNL capacitados con ciencias de la vida y contenido de Lilly para proporcionar traducción en tiempo real de Word, Excel, PowerPoint y texto para usuarios y sistemas. Accenture utiliza NLP para analizar contratos: la herramienta Accenture Legal Intelligent Contract Exploration (ALICE) de la compañía ayuda a la organización legal de la firma de servicios globales de 2,800 profesionales a realizar búsquedas de texto en sus más de un millón de contratos, incluidas búsquedas de cláusulas de contrato. ALICE utiliza la “incrustación de palabras” para revisar los documentos del contrato párrafo por párrafo, buscando palabras clave para determinar si el párrafo se relaciona con un tipo de cláusula de contrato en particular.

Software de procesamiento de lenguaje natural

Ya sea que esté creando un chatbot, un asistente de voz, una aplicación de texto predictivo u otra aplicación con NLP como núcleo, necesitará herramientas que lo ayuden a hacerlo. Según Technology Evaluation Centers, el software más popular incluye:

Natural Language Toolkit (NLTK) , un marco de código abierto para crear programas de Python para trabajar con datos de lenguaje humano. Fue desarrollado en el Departamento de Informática y Ciencias de la Información de la Universidad de Pensilvania y proporciona interfaces a más de 50 corpus y recursos léxicos, un conjunto de bibliotecas de procesamiento de texto, contenedores para bibliotecas de procesamiento de lenguaje natural y un foro de discusión. NLTK se ofrece bajo la licencia Apache 2.0.

, un marco de código abierto para crear programas de Python para trabajar con datos de lenguaje humano. Fue desarrollado en el Departamento de Informática y Ciencias de la Información de la Universidad de Pensilvania y proporciona interfaces a más de 50 corpus y recursos léxicos, un conjunto de bibliotecas de procesamiento de texto, contenedores para bibliotecas de procesamiento de lenguaje natural y un foro de discusión. NLTK se ofrece bajo la licencia Apache 2.0. Mallet , un paquete de código abierto basado en Java para NLP estadístico, clasificación de documentos, agrupamiento, modelado de temas, extracción de información y otras aplicaciones de ML a texto. Fue desarrollado principalmente en la Universidad de Massachusetts Amherst.

, un paquete de código abierto basado en Java para NLP estadístico, clasificación de documentos, agrupamiento, modelado de temas, extracción de información y otras aplicaciones de ML a texto. Fue desarrollado principalmente en la Universidad de Massachusetts Amherst. SpaCy , una biblioteca de código abierto para el procesamiento avanzado del lenguaje natural diseñada explícitamente para uso de producción en lugar de investigación. Con licencia del MIT, SpaCy se creó teniendo en cuenta la ciencia de datos de alto nivel y permite la extracción profunda de datos.

, una biblioteca de código abierto para el procesamiento avanzado del lenguaje natural diseñada explícitamente para uso de producción en lugar de investigación. Con licencia del MIT, SpaCy se creó teniendo en cuenta la ciencia de datos de alto nivel y permite la extracción profunda de datos. Amazon Comprehend . Este servicio de Amazon no requiere experiencia en ML. Está destinado a ayudar a las organizaciones a encontrar información de correo electrónico, reseñas de clientes, redes sociales, tickets de soporte y otros textos. Utiliza análisis de sentimientos, extracción de parte del discurso y tokenización para analizar la intención detrás de las palabras.

. Este servicio de Amazon no requiere experiencia en ML. Está destinado a ayudar a las organizaciones a encontrar información de correo electrónico, reseñas de clientes, redes sociales, tickets de soporte y otros textos. Utiliza análisis de sentimientos, extracción de parte del discurso y tokenización para analizar la intención detrás de las palabras. Google Cloud Translation . Esta API usa NLP para examinar un texto de origen para determinar el idioma y luego usa la traducción automática neuronal para traducir dinámicamente el texto a otro idioma. La API permite a los usuarios integrar la funcionalidad en sus propios programas.

Cursos de procesamiento del lenguaje natural

Existe una amplia variedad de recursos disponibles para aprender a crear y mantener aplicaciones de PNL, muchos de los cuales son gratuitos. Incluyen:

PNL: procesamiento de lenguaje natural con Python de Udemy. Este curso proporciona una introducción al procesamiento del lenguaje natural en Python, desarrollando temas avanzados como el análisis de sentimientos y la creación de chatbots. Consta de 11,5 horas de video a pedido, dos artículos y tres recursos descargables. El curso cuesta $ 94.99, que incluye un certificado de finalización.

de Udemy. Este curso proporciona una introducción al procesamiento del lenguaje natural en Python, desarrollando temas avanzados como el análisis de sentimientos y la creación de chatbots. Consta de 11,5 horas de video a pedido, dos artículos y tres recursos descargables. El curso cuesta $ 94.99, que incluye un certificado de finalización. Ciencia de datos: Procesamiento de lenguaje natural en Python de Udemy. Dirigido a principiantes de PNL que están familiarizados con Python, este curso implica la creación de una serie de aplicaciones y modelos de PNL, incluido un algoritmo de descifrado de cifrado, un detector de spam, un modelo de análisis de sentimientos y un girador de artículos. El curso consta de 12 horas de video a pedido y cuesta $ 99.99, que incluye un certificado de finalización.

de Udemy. Dirigido a principiantes de PNL que están familiarizados con Python, este curso implica la creación de una serie de aplicaciones y modelos de PNL, incluido un algoritmo de descifrado de cifrado, un detector de spam, un modelo de análisis de sentimientos y un girador de artículos. El curso consta de 12 horas de video a pedido y cuesta $ 99.99, que incluye un certificado de finalización. Especialización en Procesamiento del Lenguaje Natural de Coursera. Este conjunto de cuatro cursos de nivel intermedio está destinado a preparar a los estudiantes para diseñar aplicaciones de NLP, como análisis de sentimientos, traducción, resumen de texto y chatbots. Incluye certificado de carrera.

de Coursera. Este conjunto de cuatro cursos de nivel intermedio está destinado a preparar a los estudiantes para diseñar aplicaciones de NLP, como análisis de sentimientos, traducción, resumen de texto y chatbots. Incluye certificado de carrera. Hands On Natural Language Processing (NLP) usando Python de Udemy . Este curso es para personas con experiencia básica en programación en cualquier lenguaje, comprensión de conceptos de programación orientada a objetos, conocimiento de matemáticas básicas a intermedias y conocimiento de operaciones matriciales. Está completamente basado en proyectos e implica la creación de un clasificador de texto para predecir el sentimiento de los tweets en tiempo real, y un resumen de artículos que puede obtener artículos y encontrar el resumen. El curso consta de 10,5 horas de video a pedido y ocho artículos, y cuesta $19,99, que incluye un certificado de finalización.

. Este curso es para personas con experiencia básica en programación en cualquier lenguaje, comprensión de conceptos de programación orientada a objetos, conocimiento de matemáticas básicas a intermedias y conocimiento de operaciones matriciales. Está completamente basado en proyectos e implica la creación de un clasificador de texto para predecir el sentimiento de los tweets en tiempo real, y un resumen de artículos que puede obtener artículos y encontrar el resumen. El curso consta de 10,5 horas de video a pedido y ocho artículos, y cuesta $19,99, que incluye un certificado de finalización. Procesamiento del lenguaje natural en TensorFlow de Coursera. Este curso es parte de la especialización en práctica de TensorFlow de Coursera y cubre el uso de TensorFlow para crear sistemas de procesamiento de lenguaje natural que pueden procesar texto e ingresar oraciones en una red neuronal. Coursera dice que es un curso de nivel intermedio y estima que tomará cuatro semanas de estudio de cuatro a cinco horas por semana para completarlo.

Salarios de PNL

Estos son algunos de los títulos de trabajo más populares relacionados con la PNL y el salario promedio (en dólares) para cada puesto, según datos de PayScale:

Lingüista computacional: $60,000 a $126,000

Científico de datos : $ 79,000 a $ 137,000

Director de ciencia de datos: $ 107,000 a $ 215,000

Científico de datos líder: $ 115,000 a $ 164,000

Ingeniero de aprendizaje automático: $ 83,000 a $ 154,000

Científico de datos senior: $ 113,000 a $ 177,000

Ingeniero de software: $80,000 a $166,000

Terena Bell y Thor Olavsrud, CIO.com