Logo journal du hacker middle
  1. 21

Un petit retour d’expérience qui pourrait servir à certains ;-)

  1.  

  2. 4

    Salute,

    Alors évidemment tu as déclenché le problème pour autant et pour moi, le vrai responsable est le client. Le meilleur des meilleurs sysadmins n’est pas à l’abri qu’une opération se déroule mal, une carte RAID (matériel) qui tombe en panne, 2 disques qui posent problème en même temps, un bug… Ne pas avoir de sauvegardes est intolérable, c’est un très grave manque de professionnalisme de ton client. Je suis étonné que ton entreprise ne fasse pas payer les sauvegardes aux clients ou n’exige pas des clients qu’ils en aient contractuellement, ça se fait de plus en plus pour se protéger (l’entreprise dans laquelle on bosse).

    Perso je suis chez un hébergeur donc tous les serveurs des clients que je gère sont vitaux/importants : 1/ Toute l’équipe est au courant qu’il va y avoir une opé, je le rappelle qq minutes avant de commencer 2/ J’écris le scénario de l’opération càd tout ce qui doit être fait plusieurs jours avant puis je le fais lire à mon collègue sysadmin, il est rare que tout soit parfait, on trouve toujours mieux (plus rapide/sûr, un meilleur outil ou orga pour le faire, etc.), on apprend/progresse en tant qu’individu et en tant qu’équipe

    Tcho !

    1. 3

      C’est aussi à l’entreprise d’alerter sur les éventuels problèmes (ou refuser l’opération) en cas d’absence de sauvegarde.

      1. 2

        +1, tout le monde fait des erreurs, les opérations sans filet, non merci.

        1. 2

          Exact, comme mon chef disait, y’a que ceux qui ne font rien qui ne font pas d’erreurs

        2. 1

          Mouai, je suis responsable au sens où j’aurais du m’en tenir à ce que j’avais dit (rien avant backup) sachant que le client n’avait pas de sauvegarde, après, le reste de mes erreurs sont d’ordres techniques et à part une éventuelle revue par un pair rien n’aurait pu les empêcher. Sinon mon (ex-)entreprise fait bien payer la prestation de mise en place de sauvegarde, c’était d’ailleurs un sujet en cours avec ce client, mais pour lequel il trainait des pieds.

          En effet, les tests et la revue par les pairs a l’air d’être ce qu’il y a de mieux pour ce genre de chose. Ce n’est pas pour rien que ça fait partie des pilliers de la méthode scientifique, n’en déplaise à certains médecins-youtubeurs.

        3. 3

          Salut,

          Un article rythmé, intéressant à lire parce que la tension augmente au fil des paragraphes. Il faut le lire en écoutant le boléro de Ravel!

          Tout le monde fait des erreurs mais tout le monde n’a pas l’honnêteté de le reconnaître et surtout de le partager pour mettre en garde autrui contre une manipulation hasardeuse que je me garderai de commenter, vu que ce n’est pas mon métier.

          Bravo et merci pour ce retour d’expérience qui, au bout du compte, donne un article original.

          1. 1

            Merci pour le retour, et +1 pour le Boléro de Ravel :-)

          2. 1

            Merci pour ton té.moignage. Mais pour moi ta principale erreur c’est : “On est vendredi, je me dis « bon allez, je commence les opérations…” Jamais un vendredi :-)

            1. 2

              En effet, jusqu’alors je n’étais pas trop de cette école là, peu importe le jour du moment que c’est testé, mais je vais peut-être revoir ma position.

              1. 2

                Pourtant CommitStrip l’a dit : https://www.commitstrip.com/fr/2018/11/06/experience-is-a-candle/ :)

                On apprend beaucoup des gros incidents et des boulettes en prod. Beaucoup plus qu’en lisant des articles.

                Le fait d’avoir écrit un PostMortem est S U P E R important. Il met des mots sur les erreurs, t’obliges à réfléchir et imprime à jamais l’histoire dans ton cerveau.

                Ce qui est important aussi, c’est de ne jamais cacher… j’ai toujours pris le partie de dire la vérité à mes chefs.

                Bravo à toi

                1. 2

                  Ce qui est embêtant et que les gens comprennent pas souvent, c’est que comme dans le commitstrip, il est 19h42 et t’as deux mecs qui ont été entraînés dans l’incident alors qu’ils y sont pour rien (enfin celui qu’a donné le go pour leur donner une leçon, un peu :)

              2. 2

                ouais, on va dire que c’est à mon sens une “erreur” de confort, car de toute façon il aurait fait la boulette lundi :) Je pense que le point des backups est plus important.

                1. 2
                  cetait sur le ton de l’humour ^_^
                  1. 1

                    C’est pas faux !

                  2. 2

                    Une très bonne raison également de ne pas faire d’actions critiques le vendredi concerne la fatigue. Le vendredi est le dernier jour de la semaine et on est plus sensible à l’erreur ainsi qu’être plus ralenti. Une erreur le mardi par exemple sera en général corriger plus vite car toute les équipes sont opérationnelles et dans un meilleure état intellectuel que le vendredi.