Reflexiones sobre problemas técnicos

Algunos usuarios experimentaron problemas para acceder a Debitoor el miércoles 30 de octubre, cuando nuestro programa no estuvo disponible durante 2 horas y media y la función de presupuestos estuvo off-line durante 4 horas y media más.

Nuestro objetivo es ofrecer Debitoor disponible 24 horas al día, los 7 días de la semana, por lo que no estamos orgullosos de la situación del miércoles.

A continuación, me gustaría detallar qué sucedió, cómo atajamos la situación y qué acciones vamos a implementar para evitar que vuelva a suceder:

Cronología de eventos

11:40 CET: 2 técnicos llevaron a cabo un análisis rutinario del sistema, acciones que desarrollamos prácticamente todos los días para poder lanzar mejoras, mientras el sistema trabaja sin problemas.

Esta vez, el resultado del análisis no fue el esperado e informó de los problemas derivados de la función Presupuestos. ¡Alerta roja!

11:45 CET: Se tomó la decisión de poner Debitoor off line para estudiar la situación.

2:15 pm CET: Debitoor volvió a estar disponible, sin daño alguno. La función de presupuestos permaneció inactiva. Continuamos investigando.

2:41 pm CET: Descubrimos que la función de gastos también sufrió un problema similar.

3:30 pm CET: El problema con Gastos fue solucionado

6:30 pm CET: La función de Presupuestos fue activada de nuevo, tras 7 horas offline. Debitoor volvió a trabajar como siempre

Raíz del problema

El proceso de desarrollar nuevas funciones en Debitoor está altamente automatizado y confiamos en una serie de herramientas de desarrollo, sin necesidad de interacción humana y, muy importante, sin necesidad de tener la aplicación offline mientras se incluyen las nuevas funciones.

Una semana antes del incidente, realizamos una serie de cambios en una de nuestras herramientas de desarrollo. Estos cambios se realizaron y testaron sin problemas.

Obviamente, algo falló esta vez, por lo que hemos dedicado nuestro tiempo a analizar cuidadosamente todo el proceso, para prevenir que ocurra lo mismo en el futuro.

Dos fallos han sido identificados durante el análisis posterior:

  • Debido a un fallo humano, la actualización de Debitoor fue lanzada sin los cambios en la herramienta de desarrollo
  • Las labores de revisión y test fueron llevadas a cabo en un entorno donde no se incluyeron los cambios en la herramienta de desarrollo

Aprendiendo de nuestros errores

Aprendiendo en general – y en particular de nuestros errores – es vital para desarrollar una herramienta de servicio online como Debitoor. Nuestro objetivo es “No permita tiempos offline 2 veces por las mismas razones”, así hemos tomado medidas para que no vuelva a suceder.

Incluyendo:

  • Mejoras en nuestro manual de procedimiento para implementar este tipo de cambios
  • Implementar chequeos automatizados adicionales en los procesos que causaron el incidente

Confiamos en que estas medidas prevengan este error en el futuro.

Por último, queremos pediros disculpas de nuevo por las molestias que os ocasionamos. Entendemos vuestra frustración al no poder trabajar como hasta ahora y vamos a trabajar muy duro para que no vuelva a ocurrir.

Texto original: Nicolai Kollner

Escrito por Pilar MartínPilar Martín, 11 Noviembre 2013 en Mantenimiento y Errores