ダッシュボードではなく、決断を
cubby ai team
運用ダッシュボードを「既定の画面」にすることは、カテゴリの取り違えである。それは可視性を最適化している。請求書を払っているチームが必要としているのは、次の行動である。両者は同じ成果物ではない。そしてその間にある溝こそが、アラート疲労と、見逃されたページと、9桁の障害コストが住み着いている場所である。
数字は揃っている。SREと臨床アラーム研究を集約した pingfatigue.com の研究索引 は、500名超のエンジニアを対象とした incident.io 2024 オンコール調査 を引いている。エンジニア一人あたり週42ページの中央値。41%がアラート負荷を理由に退職を検討。62%が週次で睡眠を妨げられている。Catchpoint SRE Report 2024 は、業界中央値の偽陽性率を60〜80%に置いている。ソフトウェアより長くこの問題と暮らしてきた医療現場では、ICUのアラーム偽陽性率は85〜99%に達する。これがThe Joint CommissionのNPSG.06.01.01アラーム安全基準の土台になっている。
可視性は、製品戦略としてはすでに使い果たされている。週42件のうちほとんどがノイズである画面は、もはやツールではない。応答者の注意力に対する税金である。
ダッシュボードと応答者は、別の仕事をしている
ダッシュボードは「システムは今何をしているか」に答える。応答者は「私は次に何をすべきか」に答える。両者は別の高度にある。Splunk自身の Mean Time to Acknowledge 解説 は、その帰結を金額で示している。計画外障害の平均コストは1時間あたり約12.5万ドル。Global 2000企業群は、計画外ダウンタイムに年間利益の約9%、合計で年間およそ4,000億ドルを失っている。この数字を動かす指標は、画面の情報密度ではない。人間が認識し、行動するまでの時間である。
これが Gartnerの「意思決定インテリジェンス」 という枠組みが対処しようとした溝である。Gartnerは意思決定インテリジェンスを「データ、分析、AIを用いて意思決定を支援・拡張・自動化する規律」と定義する。作業の単位は決断であって、グラフではない。市場ガイドはプラットフォーム要件でも同じことを明示する。意思決定インテリジェンス基盤は、入力を可視化するだけでなく、決定をモデル化しその結果を追跡できなければならない。
研究文献も同じ方向に動いている。2025年のサーベイ AIOps in the Era of Large Language Models は、2020〜2024年の183論文を分析し、研究の重心が異常検知から、自然言語による根本原因分析と、自律実行まで至る5段階の自動化梯子上の「支援された是正」へと移動していることを示している。可視性はその梯子の最下段である。行動はその天井である。
「決断の形をした画面」の輪郭
単位が決断であるなら、画面は応答者に対して、次の順序で3つを返す責任を負う。
- 次の行動を名指しすること。 状態ではなく、動詞で。「デプロイ 8af2 をロールバック。DBA オンコールを呼ぶ。auth-svc の遅延監視を15分ミュート。」
- その決断を確定させた、ただ一つの根拠。 ログ行が一行、メトリクスの段差が一つ、差分が一つ。残り27パネルは閉じておいてよい。
- 却下した代替案と、それぞれが選ばれなかった理由。 「ネットワークを呼ばなかった。tracerouteは正常だから。ロールフォワードしなかった。カナリアがヘルスチェックを落とし続けているから。」
この形は、午前3時にシニアエンジニアが引き継ぎを行うときの語り順と対称である。結論、根拠、注釈。ほとんどのダッシュボードはこの順を逆転させ、応答者に統合作業を押し付ける。疲労下では、まさにその統合がまっさきに脱落する。
メトリクス設計もここに従う。ダッシュボードはカバレッジで測られる。決断画面は行動までの時間で測られなければならない。ページからキー入力までの分数である。行動を伴わないカバレッジは、アラート疲労の運用上の定義である。
立場
我々はダッシュボードに反対しているのではない。事後の検証、SLO設計、新任オンコールへの「正常の形」の教育には使う。だが、インシデント時、あるいは運用上のいかなる決断時においても、既定の画面は決断そのものであるべきだ。それ以外は、応答者が必要に応じて開ける引き出しでよい。
ページビューではなく、キーストロークのために設計する。
出典
- pingfatigue.com — アラート疲労研究索引 — SRE、医療、知的労働の研究を集約。Google SRE本の目標、DORA 2024、incident.io 2024を含む。
- incident.io — 2025年のDevOpsチーム向けアラート疲労対策 — 業界横断データ。週約2,000件のうち即時対応が必要なのは約3%。
- Splunk — Mean Time to Acknowledge (MTTA) — MTTAの定義と、12.5万ドル/時、4,000億ドル/年の損失試算を提示。
- Gartner — 意思決定インテリジェンス用語集 — 作業単位は決断であるとするGartnerの規律定義。
- arXiv 2507.12472 — AIOps in the Era of Large Language Models — 183論文サーベイ。検知から支援された是正へ重心が移っていることを示す。