インシデント管理

インシデント対応を中心に行っているので、SRE本の「インシデント管理」を読みながら考えていることをまとめていく。

管理されていないインシデント

技術的な問題への極端な集中

技術的なタスクに手一杯になってしまって、大局観を見うしなうのは危険な兆候だ。
ただし、実体験からして、技術的なタスクを握る人物は権限を持ってしまう。これが難しい。

貧弱なコミュニケーション

同じ理由から、技術的な問題に集中している人はコミュニケーションが取れない。
これも外部からすると難しい。集中している人に馬鹿な質問はできない、という意識が働いてしまう。

プロセスの構成

さて、これらの問題は、漠然とインシデントに立ち向かうと必然的に起こるリスクであり、誰しも経験がありそうだ。 そこで、いくつかの構成要素を定義することで、なんとかこれをなくしていく。

責任の再帰的な分離

インシデント対応のロールを明確に定義する。これによって責任が明確になり、各自はロールにあわせておろそかになりがちなリスクを潰してくことができる。
インシデント指揮、実行、コミュニケーション、計画、とあるが、指揮、コミュニケーションを自分の担当とし、計画、実行を有識者に明確に依頼していくようにしていきたい。

司令塔

ウォールーム、と呼ばれているが、コミュニケーションが取れる場所があったほうが良い。その意味で、hang out等で常に障害対応室を作ってくのは有効だ。
疲れてしまうので、タイミングは見極めが必要だが。

引き継ぎ

ロールの変更は、明確な宣言を持って行われるべきだ。