Incident de production du 21 janvier 2020

Le 21 janvier 2020, un incident de production sur demarches-simplifiees.fr a entraîné la suppression d'un certain nombre de dossiers de la plateforme.

Les dossiers supprimés ont pu été restaurés dans les jours suivants. Un petit nombre de données ont en revanche été perdues.

Cet article décrit le déroulement de l’incident, l’impact sur la plateforme, et les mesures prises pour éviter un nouvel incident.

Déroulement de l’incident

Mardi 21 janvier

16 h 40 : un administrateur de demarches-simplifiees.fr utilise un nouveau bouton « Supprimer le compte » pour retirer un le compte d’un usager de la plateforme.

17 h 15 : l’équipe technique se rend compte d’un souci sur cette fonctionnalité, et investigue. Elle se rend compte que suite à une erreur logicielle, la requête pour supprimer un compte usager est en train de progressivement supprimer les dossiers de tous les usagers.

17 h 30 : tous les services synchrones et asynchrones sont redémarrés ; la suppression progressive des dossiers est interrompue.

18 h 00 : l'équipe technique évalue le nombre de dossiers supprimés, et la disponibilité des sauvegardes quotidiennes pour une restauration des données.

22 h 00 : l’équipe technique met au point une série d’emails à envoyer aux usagers concernés.

Mercredi 22 janvier

9 h 00 : l’équipe technique investigue la possibilité de restaurer les données manquantes exactement au point où elles ont été supprimées.

12 h 00 : les emails notifiant les usagers concernés du problème sont envoyés.

13 h 00 : l’équipe technique bascule sur une autre méthode de récupération des données, et investigue les différentes méthodes de récupération possibles.

19 h 00 : une procédure de récupération permet de tester la récupération des premiers dossiers.

Jeudi 23 janvier

9 h 00 : L’équipe technique contine à écrire les outils qui permettent ré-insérer les données manquantes en production sans interruption de service.

14 h 00 : la récupération complète des dossiers est testée en pré-production.

18 h 00 : les dossiers supprimés par erreur sont restaurés en production. Les dossiers sont entièrement restaurées depuis la sauvegarde de la veille de l'incident.

Impact sur la plateforme

Les sauvegardes quotidiennes de la base de données ont permis de restaurer les dossiers perdus. En revanche, les pièces jointes de certains dossiers n’ont pas pu être restaurées.

Plus précisément :

  • Environ 8 000 dossiers ont été indisponibles pendant 48 h – puis ont été restaurés.

  • Les rares modifications effectuées sur ces dossiers dans la journée du 21 janvier n’ont pas pu être récupérées.

  • Dans le cas d’environ 7 000 dossiers, une ou plusieurs pièces jointes n’ont pas pu être restaurées.

Communication

Les usagers concernés par cet incident ont reçus deux messages par email :

  • Un email pour les informer de l’incident,

  • Un email pour les informer que l’incident est résolu, et que leurs dossiers sont à nouveau disponibles.

En plus de cela, sur les quelques dossiers concernés par une perte des pièces jointes, un message d’information est affiché sur le dossier :

Ce message est également affiché aux Instructeurs du dossier, pour leur permettre de traiter correctement ces dossiers dont des pièces jointes seraient manquantes.

Mesures prises

Suite à cet incident, plusieurs actions ont été (ou vont être) prises par l’équipe technique pour éviter un incident similaire à l’avenir.

  • Ajout dans le code d’un garde-fou qui interdit l’usage de l’idiome ayant causé le problème ;

  • Sauvegarder plus fréquemment la base de données, pour pouvoir récupérer des données plus récentes en cas d’erreur ;

  • Sauvegarder les pièces jointes dans un stockage à part, pour pouvoir les récupérer en cas de suppression accidentelle.

Dernière mise à jour