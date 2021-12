Desde fallas de seguridad hasta fallas en la ingeniería de software, estos desastres de TI de alto perfil causaron estragos en el mundo real este año. Que sirvan como casos de advertencia.

Una falla en el área de TI, sea de un sistema o de un proyecto complejo, se está disparando cada vez más a la cima de la sección de noticias comerciales, donde su impacto puede volverse aún más perjudicial y vergonzoso.

Hemos reunido ocho de las mayores crisis tecnológicas de 2021 para destacar los tipos de problemas de TI casi catastróficos que no sólo pueden surgir, sino que tienen un impacto enorme en su negocio. Esperamos que estas historias de desastres de TI le sirvan de lección, incluso si su organización no es tan grande o si lo que está en juego no es tan alto como algunos de los protagonistas de estas historias.

Comer demasiada comida para perros

El 4 de octubre, personas de todo el mundo no pudieron acceder a Facebook, Instagram o WhatsApp, ya que todos los servicios administrados por la empresa ahora conocida en Meta estaban desconectados de Internet . No profundizaremos demasiado en la causa real de la crisis, que involucró un error en el Protocolo de puerta de enlace fronteriza que esencialmente separó los servicios de Facebook del resto del sistema DNS de Internet. En cambio, queremos centrarnos en un detalle que podría ser relevante para cualquier departamento de TI, incluso aquellos que no forman parte de una de las empresas de tecnología más grandes del mundo.

Al principio de la interrupción, la reportera de tecnología del New York Times , Sheera Frenkel, informó que los empleados de Facebook no podían ingresar a la sede de la empresa porque sus tarjetas de identificación ya no les abrían las puertas. Esto, a su vez, impidió que los técnicos obtuvieran acceso físico a los servidores que necesitaban para solucionar el problema general. Es improbable que las cerraduras electrónicas de las puertas de Facebook fueran impulsadas por… Facebook.

Parece que Facebook es bastante obsesionado con el funcionamiento de los sistemas en su propia infraestructura, lo que significaba que su sistema de comunicaciones interno también estaba caído y no podía hacer frente a la crisis. El término de la industria para una empresa que hace esto es “comer su propia comida para perros”, y generalmente se ve como un voto de confianza en sus propios productos, pero el desastre de Facebook demuestra que necesita un suministro de alimentos de respaldo a la mano.

Un insecto al acecho derriba rápidamente

El 8 de junio, millones de usuarios de Internet que intentaban acceder a sitios que iban desde Reddit a importantes departamentos gubernamentales del Reino Unido se encontraron con códigos de error 503, lo que indica que el servidor que aloja el sitio web no pudo manejar la solicitud. (Twitter seguía funcionando pero, trágicamente, ya no podía mostrar emojis). ¿Cómo es posible que tantos sitios diferentes se desconecten a la vez?

Resulta que la respuesta está relacionada con el aumento de las redes de entrega de contenido, que implementan servidores proxy en puntos estratégicos de Internet para que sus clientes garanticen tiempos de carga ultrarrápidos. Casi todos los grandes sitios de contenido utilizan CDN en estos días, y no hay muchos jugadores en este espacio, así que cuando uno va hacia abajo, puede conducir a una gran parte de la Internet con ella.

En este caso, el único punto de falla fue Fastly, un proveedor de informática de vanguardia con un negocio de CDN en auge. Éste lanzó rápidamente una actualización de software el 12 de mayo que incluía un error que podría desencadenarse por una configuración específica del cliente en las condiciones adecuadas. El 8 de junio, un cliente actualizó sin saberlo su configuración y provocó una crisis que se encontraba en la intersección del desarrollo de software y la consolidación de la industria.

Por qué debería diseñar mejores interfaces de usuario (y no enloquecer a sus acreedores)

Muchas empresas tienden a adoptar una actitud de “si no está roto, no lo arregle” hacia sus herramientas de TI, y si alguna vez ha sido parte de una actualización o implementación fallida, sabrá por qué. Pero eso puede resultar en algunos sistemas realmente obsoletos en producción con UI que datan de los primeros días de la industria del software, lo que a su vez puede significar problemas de usabilidad con consecuencias en el mundo real.

Uno de los sistemas back-end de Citibank es un buen ejemplo de esta tendencia, y es una de las principales causas de un error de 500 millones de dólares.. La historia es la siguiente: Citibank estaba intentando enviar un pago de intereses de 7.8 millones de dólares en nombre de Revlon, uno de sus clientes, a varios de los acreedores de Revlon.

Hacer eso en Flexcube, una antigua pieza de software interno de Citibank, era un proceso particularmente torpe: los empleados de Citibank tenían que configurar una transacción como si estuvieran pagando todo el préstamo para que el interés se pudiera calcular correctamente y luego verificar múltiples cajas para enviar la mayor parte del pago a una cuenta interna de Citibank, mientras que solo la parte de los intereses se destinaba a los acreedores. A pesar de que tres personas diferentes firmaron esta transacción para Revlon, se realizó sin marcar todas las casillas correspondientes y se enviaron 900 millones de dólares, la mayoría de los cuales no se debieron a los acreedores hasta 2023.

Puede resultarle sorprendente que este tipo de error no sea inaudito, y que la parte beneficiada generalmente devuelve el dinero enviado por error a la empresa que cometió el error. Pero esta vez las cosas fueron de otra manera: más de la mitad del dinero enviado se destinó a varios fondos de cobertura, aún resentidos porque los términos del préstamo se habían renegociado previamente en beneficio de Revlon. Dijeron que consideraban el dinero como un pago anticipado de la deuda que tenían, y este año un juez dictaminó que no tenían que devolverlo.

La gran lección aquí es, al menos, modernizar sus interfaces de usuario para garantizar que los empleados puedan realizar sus tareas de manera racionalizada y coherente, y que puede ser menos doloroso cometer errores si las personas no están lo suficientemente enojadas con usted como para aprovecharlo.

Sacre bleu! Los clientes de los bancos franceses ven las cuentas de los demás

Los clientes del banco francés LCL iniciaron sesión en su aplicación bancaria el 23 de febrero sólo para descubrir que estaban viendo la información de otra persona. La noticia se corrió rápidamente en Twitter y muchos especularon que esto podría haber sido el resultado de un ciberataque. Pero según el propio banco, en realidad fue el resultado de un error de software que se corrigió en un día.

Por supuesto, este tipo de errores de desarrollo son una señal de fallas internas en las empresas donde ocurren y, especialmente , no deberían ocurrir en la industria bancaria. Las consecuencias ilustraron el baile típico que sigue a este tipo de errores, con la empresa culpable minimizando las cosas: LCL dijo que no se reveló información personal, que los clientes sólo podían ver las cuentas de otros clientes, pero no transferir dinero, y tal vez sólo unos cientos de clientes se vieron afectados. Otros señalaron que la información de la transacción podría haberse utilizado para descubrir las identidades de los clientes y, potencialmente, decenas de miles de usuarios estaban iniciando sesión mientras el error se ejecutaba en código en vivo. Al final, LCL tuvo que luchar para evitar una multa masiva de los reguladores de privacidad europeos .

Cuando el software mantiene cerrada la puerta de la celda

En 2019, la Legislatura de Arizona aprobó una ley para permitir que ciertos presos condenados por delitos no violentos completen la programación en las cárceles estatales que acelerarían su liberación. Pero los denunciantes en febrero revelaron que, más de un año después, el software que realiza un seguimiento de la elegibilidad para la liberación de los presos aún no se ha actualizado para adaptarse a la nueva ley . Si bien el estado insiste en que los prisioneros elegibles pueden y tienen que volver a calcular sus sentencias manualmente, la verdad es que muchos pueden no saber que son elegibles para ser liberados, o no tienen defensores en el exterior para presionar su caso, por lo que languidecen en prisión. cuando por ley tienen derecho a salir en libertad.

Aquí hay varias lecciones para TI. Una es la importancia de incorporar flexibilidad y extensibilidad en cualquier sistema. Otro es que el software no es sólo software: tiene un impacto real y profundo en las vidas humanas . Finalmente, está la cuestión de cómo se puede implementar la ley en forma de código, y si los algoritmos para hacer cumplir la ley deben desarrollarse durante el proceso legislativo en lugar de dejarlos para que se escriban después de que ya estén en los libros.

El antiguo sistema de recursos humanos de Maine sigue cojeando

El estado de recursos humanos y nómina de Maine es, como lo describe el Portland Press Herald , administrado por un “sistema de 40 años programado en un lenguaje obsoleto que solo un empleado estatal sabe cómo usar”. El sistema ya había sobrevivido a un intento de 2016 de reemplazarlo que fracasó; otro intento, que se suponía que concluiría en 2020, fracasó en acritud mutua en marzo pasado, cuando Workday, la compañía contratada para implementar un nuevo sistema basado en la nube para Maine, abandonó el proyecto.

Los despliegues de sistemas ERP y plataformas similares son notoriamente propensos a desastres, y las necesidades de nómina de Maine eran endiabladamente complejas (a la policía estatal se le pagaba tarifas por hora diferentes si portaban un arma, trabajaban con un K9 o usaban equipo de buceo, por ejemplo). En el centro de la disputa hay una historia que debería sonar familiar para cualquiera que haya estado involucrado en un gran proyecto como este: Maine dice que el sistema se conectó con una tasa de error del 50%, y Workday dijo que los datos de Maine importados al sistema eran plagado de errores irremediablemente. Más fundamentalmente, parece que Maine estaba contratando personal para trabajar en el proyecto que no tenía las habilidades necesarias, y el estado no estaba dispuesto a pagar lo suficiente para encontrar trabajadores que pudieran lograr el nivel. Agregue algunas acusaciones de nepotismo y acoso sexual y tendrá un verdadero lío en la gestión de TI. Maine todavía usa su sistema de recursos humanos de 40 años.

Problemas de licencia de Amazon

Si su conclusión de los dos puntos anteriores es que el gobierno es incapaz de una gestión de proyectos competente, lamentamos informarle que una crisis similar salió a la luz este año en una empresa del sector privado, y no en cualquier empresa del sector privado, sino en Amazon, el arquetipo de la nueva economía hipereficiente que la tecnología de la información y la web hicieron posible.

Una investigación del New York Times reveló que los procesos internos de Amazon para ofrecer varios tipos de licencia a sus empleados están extremadamente dañados. Esto ha dado lugar a una letanía de historias de terror que afectan tanto a los trabajadores manuales, como el despido de empleados por no presentarse a trabajar a pesar de que tienen una licencia aprobada, las nuevas madres en licencia por maternidad que ven misteriosos recortes en su cheque de pago y un trabajador lesionado por discapacidad quien se vio obligado a vender su anillo de bodas por dinero en efectivo porque sus cheques simplemente dejaron de aparecer.

Resulta que Amazon administra su sistema de licencias utilizando múltiples productos de software de una variedad de proveedores, un legado de su rápido crecimiento inicial, por lo que quizás la lección aquí es que las decisiones que toma al principio de la historia de una empresa pueden repercutir años o décadas después. Al igual que el sistema penitenciario de Arizona, Amazon intenta compensar la disfunción de TI con trabajo humano: 67 empleados de tiempo completo se dedican a ingresar datos sobre la licencia de los empleados, un trabajo tan estresante que muchos terminan necesitando tomar licencias por sí mismos.

Disparando al mensajero

En octubre, un periodista del St. Louis Post-Dispatch, en colaboración con el experto en seguridad Shaji Khan, descubrió que un sitio web que permitía al público buscar la certificación y las credenciales de los maestros también revelaba inadvertidamente los números de seguro social de esos docentes. Si bien los números no se mostraban realmente en la página de resultados de búsqueda, estaban en texto claro en el HTML de la página, lo que los hacía trivialmente fáciles de encontrar.

El Post-Dispatch informó al departamento de educación estatal sobre la falla antes de que se publicara la historia, dándoles tiempo para corregirla, y si las cosas se hubieran mantenido allí, probablemente no estaríamos hablando de esta historia ahora.

Pero dos días después de que un portavoz del Departamento de Educación comenzara a redactar una declaración (nunca enviada) en la que agradecía a los medios por llamar su atención sobre el asunto , el gobernador acusó públicamente al periódico de contratar “hackers” para avergonzarlo a él y al gobierno estatal y prometió lanzar una investigación criminal.

Entonces enfrentó reacciones violentas y burlas, incluido el rechazo de miembros de su propio partido político. Tal vez la lección aquí sea que cómo lidiar con las consecuencias de un desastre de TI es casi tan importante como el desastre en sí.

