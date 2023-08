Las empresas (y sus proveedores de tecnología) continúan esforzándose por agregar capacidades de Inteligencia Artificial (IA) generativa a herramientas y plataformas. Pero actuar demasiado rápido puede exponer a las empresas a riesgos de cumplimiento presentes y futuros, así como a posibles responsabilidades legales.

Si bien la IA se ha abierto camino de manera constante en la cultura empresarial y empresarial a lo largo de muchos años, la IA generativa no sólo se ha convertido en una fuerza abrupta e inmediata en sí misma, sino también en un acelerador general de la IA. Pero no sin señales de advertencia.

La IA generativa tiene el potencial de magnificar los riesgos existentes en torno a las leyes de privacidad de datos que rigen cómo se recopilan, utilizan, comparten y almacenan datos confidenciales. También puede exponer a las empresas a legislación futura. La respuesta, aunque tardía, merece un mayor escrutinio.

Europa, por ejemplo, continúa poniéndose al día con su Ley de IA, que ahora aborda la IA generativa a pesar de que la Ley se propuso por primera vez antes de la llegada de la IA genérica. Luego están los juicios. Se han presentado demandas contra varios proveedores de IA de generación, incluidos OpenAI, Microsoft, Midjourney, Stable Diffusion y otros. Estas quejas, presentadas por una variedad de diferentes titulares de derechos de autor, alegan que las empresas entrenan sus IA con datos protegidos por derechos de autor: imágenes, códigos y textos.

También hay audiencias en el Congreso y peticiones para detener el desarrollo de la IA, incluida la IA generativa. Cualquiera de estos podría potencialmente ejercer presión sobre los reguladores o legisladores para que pongan límites a su uso.

Incluso las ciudades individuales se están sumando a la acción. En julio, por ejemplo, la ciudad de Nueva York empezó a aplicar nuevas normas sobre el uso de la IA en las decisiones de contratación. Estas reglas requieren que las herramientas automatizadas de toma de decisiones se sometan a auditorías de sesgo y que los candidatos sean notificados sobre su uso. Se están considerando reglas similares en Nueva Jersey, Maryland, Illinois y California.

“Este es un tema muy candente”, asevera Eric Vandevelde, copresidente de IA y socio del bufete de abogados Gibson, Dunn & Crutcher. “Nos bombardean con preguntas y consultas de clientes y clientes potenciales sobre los riesgos de la IA”.

No sorprende, entonces, que, según una encuesta de KPMG de junio, la incertidumbre sobre el entorno regulatorio fuera la principal barrera para implementar la IA gen. De hecho, el 77% de los directores ejecutivos de grandes empresas dijeron que la incertidumbre regulatoria afecta sus decisiones de implementación de IA generativa, y el 41% dice que se están tomando una breve pausa de tres a seis meses para monitorear el panorama regulatorio.

Estas son algunas de las estrategias que las organizaciones están utilizando para implementar IA generativa ante la incertidumbre regulatoria.

El camino más lento hacia la IA

Algunas empresas, en particular aquellas de industrias reguladas, están siendo cautelosas con el uso de IA generativa y sólo la están implementando en áreas con menor riesgo.

“De hecho, se me acercó una empresa que cargará todos los registros médicos y facturas de nuestros clientes y formulará cartas de demanda”, refiere Robert Fakhouri, fundador de The Fakhouri Firm, una firma de abogados de lesiones personales con sede en Chicago. La idea es que al generar las letras utilizando IA, habrá menos necesidad de empleados humanos.

“Elegí no entrar en eso”, dice. “Ya tengo suficientes temores sobre el hecho de que estemos almacenando información médica. No voy a subir esta información a otro servicio. El riesgo es demasiado alto”.

La empresa también prohíbe al personal utilizar ChatGPT para escribir cartas a los clientes. Pero hay un caso de uso de bajo riesgo en el que se permite la IA generativa, afirma. “Cuando se trata de ChatGPT, la única utilización en mi práctica es la forma en que creamos nuestra estrategia de marketing en las redes sociales: obtener ideas, generar guiones y ver qué nos puede proporcionar como inspiración para contenido nuevo. Pero me gustaría que se implementaran más leyes y orientaciones, especialmente para los registros médicos”.

Muchas empresas están implementando IA primero en casos de uso de menor riesgo, explica Kjell Carlsson, jefe de estrategia y evangelización de ciencia de datos en Domino Data Lab.

“La mayoría de las empresas con las que hablo están aumentando los usuarios internos”, afirma. “Si soy una empresa de energía, quiero hacer posible que la gente aproveche los estudios e informes geológicos que son difíciles de revisar”.

Con la IA, sus usuarios pueden obtener asistentes de investigación extremadamente inteligentes.

“Ahora tengo capacidades de resumen, acceso al mejor bibliotecario de investigación del mundo y un generador de texto de primer borrador para muchas de las cosas que quiero hacer”, asegura.

Dato de governanza

En el desarrollo de aplicaciones tradicionales, las empresas deben tener cuidado de que los usuarios finales no tengan acceso a datos que no tienen permiso para ver. Por ejemplo, en una aplicación de recursos humanos, a un empleado se le puede permitir ver su propia información salarial y beneficios, pero no la de otros empleados. Si dicha herramienta se amplía o reemplaza por un chatbot de recursos humanos impulsado por IA generativa, entonces necesitará tener acceso a la base de datos de los empleados para poder responder las preguntas de los usuarios. Pero, ¿cómo puede una empresa estar segura de que la IA no le cuenta todo lo que sabe a nadie que le pregunte?

Esto es particularmente importante para los chatbots de cara al cliente que podrían tener que responder preguntas sobre las transacciones financieras o los registros médicos de los clientes. Proteger el acceso a datos confidenciales es solo una parte del panorama de la gobernanza de datos.

“Es necesario saber de dónde provienen los datos, cómo se transforman y cuáles son los resultados”, señala Nick Amabile, director ejecutivo de DAS42, una firma de consultoría de datos. “Las empresas en general todavía tienen problemas con la gobernanza de datos”.

Y con los modelos de lenguajes grandes (LLM), la gobernanza de datos está en su infancia. “Todavía estamos en las fases piloto de evaluación de los LLM”, afirma. “Algunos proveedores han comenzado a hablar sobre cómo agregarán funciones de gobernanza a sus plataformas. Reentrenamiento, implementación, operaciones, pruebas: muchas de estas características simplemente no están disponibles todavía”.

A medida que las empresas maduren en su comprensión y uso de la IA de generación, tendrán que implementar salvaguardas, asevera Juan Orlandini, CTO para Norteamérica de Insight, un integrador de soluciones con sede en Tempe. Eso puede incluir aprender a verificar que se implementen los controles correctos, que los modelos estén aislados y que se utilicen apropiadamente.

“Cuando creamos nuestra propia política de IA de generación, creamos nuestra propia instancia de ChatGPT y la implementamos para los 14.000 compañeros de equipo en todo el mundo”, dice. Insight utilizó el servicio Azure OpenAI para hacer esto.

La empresa también está formando a sus empleados sobre cómo utilizar la IA de forma segura, especialmente las herramientas que aún no han sido examinadas ni aprobadas para su uso seguro. Por ejemplo, los empleados deben tratar estas herramientas como lo harían con cualquier plataforma de redes sociales, donde cualquiera podría ver lo que usted publica.

“¿Pondrías la previsión de ventas de tu cliente en Facebook? Probablemente no”, dice Orlandini.

Capas de control

No hay garantía de que un modelo de IA generativa no produzca resultados sesgados o peligrosos. La forma en que se diseñan estos modelos es crear material nuevo y la misma solicitud puede producir un resultado diferente cada vez. Esto es muy diferente del software tradicional, donde un conjunto particular de entradas daría como resultado un conjunto predecible de resultados.

“Las pruebas sólo mostrarán la presencia de errores, no la ausencia”, afirma Martin Fix, director de tecnología de Star, una empresa de consultoría tecnológica. “La IA es una caja negra. Todo lo que hay son métodos estadísticos para observar el resultado y medirlo, y no es posible probar toda el área de capacidad de la IA”.

Esto se debe a que los usuarios pueden ingresar cualquier mensaje que puedan imaginar en un LLM, y los investigadores han estado encontrando nuevas formas de engañar a las IA para que realicen acciones objetables durante meses, un proceso conocido como “liberar” las IA.

Algunas empresas también están considerando usar otras IA para probar resultados en busca de resultados riesgosos, o usar prevención de pérdida de datos y otras herramientas de seguridad para evitar que los usuarios incluyan datos confidenciales en mensajes en primer lugar.

“Se pueden reducir los riesgos combinando diferentes tecnologías, creando capas de seguridad”, dice Fix.

Esto será especialmente importante si una IA se ejecuta dentro de una empresa y tiene acceso a grandes cantidades de datos corporativos.

“Si una IA tiene acceso a todo, puede revelarlo todo”, afirma. “Por lo tanto, hay que ser mucho más exhaustivo en la seguridad del sistema y poner tantas capas como sea necesario”.

El enfoque de código abierto

Los sistemas comerciales de IA, como ChatGPT de OpenAI, son como las cajas negras que describe Fix: las empresas tienen poca información sobre los datos de capacitación que contienen, cómo están afinados, qué información se destina a la capacitación continua, cómo la IA realmente toma sus decisiones y cómo se protegen todos los datos involucrados.

En particular, en industrias altamente reguladas, algunas empresas pueden mostrarse reacias a correr riesgos con estos sistemas opacos. Sin embargo, una opción es utilizar software de código abierto. Actualmente existen diversos modelos, de diversas licencias, a disposición del público. En julio, esta lista se amplió significativamente cuando Meta lanzó Llama 2, un LLM de nivel empresarial disponible en tres tamaños diferentes, permitido para uso comercial y completamente gratuito para empresas, al menos para aplicaciones con menos de 700 millones de usuarios activos mensuales.

Las empresas pueden descargar, instalar, ajustar y ejecutar Llama 2 ellas mismas, ya sea en su forma original o en una de sus muchas variaciones, o utilizar sistemas de inteligencia artificial de terceros basados ​​en Llama 2.

Por ejemplo, la empresa de salud del paciente Aiberry utiliza modelos personalizados de código abierto, incluidos Flan-T5, Llama 2 y Vicuna, afirma Michael Mullarkey, científico senior de datos clínicos de la empresa.

Los modelos se ejecutan dentro de la infraestructura de datos segura de Aiberry, afirma, y ​​están ajustados para funcionar de una manera que satisfaga las necesidades de la empresa. “Esto parece estar funcionando bien”, dice.

Aiberry tiene un conjunto de datos que utiliza para entrenar, probar y validar estos modelos, que intentan anticipar lo que los médicos necesitan y proporcionar información por adelantado basada en evaluaciones de la información de detección de los pacientes.

“Para otras partes de nuestros flujos de trabajo que no involucran datos confidenciales, utilizamos ChatGPT, Claude y otros modelos comerciales”, agrega.

La ejecución de software de código abierto localmente o en nubes privadas puede ayudar a reducir riesgos, como el de la pérdida de datos, y puede ayudar a las empresas a cumplir con las regulaciones de privacidad y soberanía de los datos. Pero el software de código abierto también conlleva sus propios riesgos, especialmente a medida que el número de proyectos de IA se multiplica en los repositorios de código abierto.

Eso incluye riesgos de ciberseguridad. En algunas industrias reguladas, las empresas deben tener cuidado con el código fuente abierto que ejecutan en sus sistemas, lo que puede dar lugar a filtraciones de datos, violaciones de la privacidad o decisiones sesgadas o discriminatorias que pueden generar responsabilidades regulatorias.

Según el informe de seguridad de código abierto de Synopsys publicado en febrero, el 84% de las bases de código de código abierto en general contienen al menos una vulnerabilidad.

“El código fuente abierto o las aplicaciones han sido explotadas para causar mucho daño”, asegura Alla Valente, analista de Forrester Research.

Por ejemplo, la vulnerabilidad Log4Shell, corregida a finales de 2021, todavía recibía medio millón de solicitudes de ataque por día a finales de 2022.

Además de las vulnerabilidades, el código fuente abierto también puede contener código malicioso y puertas traseras, y los modelos de IA de código abierto podrían potencialmente entrenarse o ajustarse a partir de conjuntos de datos envenenados.

“Si usted es una empresa, sabe que es mejor no tomar algo que encontró en código abierto y conectarlo a sus sistemas sin ningún tipo de barreras de seguridad”, dice Valente.

Las empresas deberán configurar controles para los modelos de IA similares a los que ya tienen para otros proyectos de software, y los equipos de cumplimiento y seguridad de la información deben estar al tanto de lo que están haciendo los equipos de ciencia de datos.

Además de los riesgos de seguridad, las empresas también deben tener cuidado con el origen de los datos de entrenamiento para los modelos, añade Valente. “¿Cómo se obtuvieron estos datos? ¿Fue legal y ético? Un lugar al que las empresas pueden acudir en busca de orientación es la carta que la FTC envió a OpenAI este verano.

Según un informe de TheWashington Post, la carta pide a OpenAI que explique cómo obtienen los datos de capacitación para sus LLM, examinan los datos y prueban si los modelos generan declaraciones falsas, engañosas o despectivas, o generan información precisa de identificación personal. sobre los individuos.

A falta de marcos establecidos por mandato federal, esta carta ofrece a las empresas un punto de partida, afirma Valente. “Y definitivamente presagia lo que vendrá si hay una regulación federal”.

Si se utiliza una herramienta de IA para redactar una carta sobre los registros financieros o el historial médico de un cliente, la solicitud inmediata que contiene esta información confidencial se enviará a una IA para su procesamiento. Con un chatbot público como ChatGPT o Bard, es imposible para una empresa saber exactamente dónde se procesará esta solicitud, lo que podría entrar en conflicto con los requisitos nacionales de residencia de datos.

Las empresas ya tienen varias formas de abordar el problema, afirma Nick Amabile, director ejecutivo de DAS42, una firma de consultoría de datos que ayuda a las empresas con problemas de residencia de datos.

“De hecho, estamos viendo que muchos proveedores empresariales confiables ingresan al espacio”, afirma. “En lugar de llevar los datos a la IA, estamos llevando la IA a los datos”.

Y los proveedores de nube como AWS y Azure llevan mucho tiempo ofreciendo infraestructura geográfica a sus usuarios. El servicio Azure OpenAI de Microsoft, por ejemplo, permite a los clientes almacenar datos en la fuente de datos y la ubicación que designen, sin copiar datos en el propio servicio Azure OpenAI. Los proveedores de datos como Snowflake y Databricks, que históricamente se han centrado en ayudar a las empresas con la privacidad, la residencia y otras implicaciones de cumplimiento de la gestión de datos, también están ingresando al espacio de la IA de generación.

“Estamos viendo que muchos proveedores ofrecen esto además de su plataforma”, dice Amabile.

Identificación de indemnización

Algunos proveedores, al comprender que las empresas desconfían de los modelos de IA riesgosos, ofrecen una indemnización.

Por ejemplo, las IA de generación de imágenes, que han sido populares durante algunos meses más que los modelos de lenguaje, han sido acusadas de violar los derechos de autor en sus datos de entrenamiento.

Mientras las demandas se desarrollan en los tribunales, Adobe, Shutterstock y otras plataformas empresariales han estado implementando IA entrenadas únicamente con datos con licencia completa o datos de dominio público.

Además, en junio, Adobe anunció que indemnizaría a las empresas por el contenido generado por IA, permitiéndoles implementarlo con confianza en toda su organización.

Otros proveedores empresariales, incluidos Snowflake y Databricks, también ofrecen diversos grados de indemnización a sus clientes. En sus términos de servicio, por ejemplo, Snowflake promete defender a sus clientes contra cualquier reclamo de terceros sobre servicios que infrinjan cualquier derecho de propiedad intelectual de dicho tercero.

“Los proveedores existentes con los que trabajo hoy, como Snowflake y Databricks, ofrecen protección a sus clientes”, dice Amabile. Cuando compra sus modelos de IA a través de sus contratos existentes con esos proveedores, se aplican las mismas disposiciones de indemnización.

“Eso es realmente un beneficio para la empresa”, afirma. “Y el beneficio de trabajar con algunos de los proveedores establecidos”.

Atención a nivel de junta directiva

Según Vandevelde de Gibson, Dunn & Crutcher, la IA requiere una atención del más alto nivel.

“Esto no es sólo un problema del CIO o del director de privacidad”, afirma. “Este es un problema que afecta a toda la empresa y que debe abordarse desde la junta directiva hacia abajo”.

Esta es la misma trayectoria que siguieron la ciberseguridad y la privacidad, y la industria se encuentra ahora apenas en el comienzo del viaje, afirma.

“Hace 15 años, era extraño que las juntas directivas pensaran en la privacidad y tuvieran directores de privacidad, y tuvieran privacidad en el nivel de diseño de productos y servicios”, dice. “Lo mismo va a pasar con la IA”.

Y podría ser necesario que suceda más rápido de lo que se está tardando actualmente, añade.

“Los nuevos modelos son y se sienten muy diferentes en términos de su poder, y la conciencia pública lo ve”, dice. “Esto se ha extendido a todas las facetas de las regulaciones, la legislación y la acción gubernamental. Sea justo o no, ha habido críticas de que las regulaciones sobre privacidad y seguridad de datos fueron demasiado lentas, por lo que los reguladores están tratando de actuar mucho más rápido para establecerse y establecer su autoridad”.

María Korolov, CIO.com