見えない「運用」 - 疲弊する運用現場
インターネットのインフラ化と運用現場の疲弊
インターネットの急速な普及および発展により、インターネットを含むIT情報基盤は、社会基盤(インフラ)としての性格を色濃く帯びてきています。
しかし、これらのシステムやサービスを運用している現場では、メンバーに対する恒常的な高負荷、属人的な運用、トラブルの多発に悩まされるなど、事業継続面でのリスクを抱え、コストや効率面での課題に追われながらも、現場の個々人の過大な努力によって日々の運用を維持しているのが現状です。
なお、システムやサービスを「運用している現場」とは、例えば組織や企業において社内向け、対外向けなどを問わず「ユーザーや相手に対して何らかのサービスを提供している人たち」をイメージしています。
本連載では、従来であれば「現場ごとの個別事情に応じて、やり方が異なるため、標準化が難しい」と言われてきた「運用」について、「運用設計」という観点から諸要素を整理し直し、
- サービスの安定(安定した運用)
- 業務負荷の平準化(楽な運用)
- 運用に対する評価の適正化(稼ぐ運用)
の3つを実現するためには何が必要なのか、手掛かりを探っていきます。
図1: 運用方法論の目的(クリックで拡大) |
第1回の今回は、インターネットを運用している現場が抱えている悩みや問題点について整理していきます。
運用現場の悩み
冒頭にも書いた通り、近年のインターネット・サービスの急激なインフラ化によって、信頼性の要求が高まっています。この一方で、コスト削減の要求や、生産性向上の要求があります。運用現場は、これらの要求で板ばさみになっているのが実情です。
以下は、こうした状況下で運用に携わっている方々の現場の悩みとして、代表的なものです。
運用現場内部の悩みの声
- 業務が多岐にわたり、すべてを把握することが困難になっている。
- 次々と新しいサービスが開発され、その運用に現場での対応が十分でないまま、次の新たなサービスの受け入れに追われている。
- 運用のためのドキュメントが作られていない。あっても更新されていない。
- どんなドキュメントが必要なのかが分からない。書き方が分からない。
- 特定の人間にしかできない業務があり、その人に業務が集中している。
- 属人化が進み、ノウハウの継承ができていない。
- 異動により、現場が混乱することが多い。
- 設計思想が失われた、古い運用業務がある。これが現場の負担になっている。
- 人が育たない。優秀な人が入ってこない、定着しない。
- 突発的な業務が多く、計画通りに作業が進まない。残業でカバーしている。
- 目標が後ろ向き(稼働率など100%からのマイナス評価)で、がんばっても評価されない。
- トラブルが多く、前向きな改善に着手する余裕がない。
- ツールが使いにくいが、改修にはコストと期間が必要なため、我慢して使っている。
- 新規のツールを設計したいが、どんな要求があるのか現場でも分かっていない。
対外組織や関連部署との関係における悩みの声
- サービス設計導入時の検討漏れや実装が間に合わない部分を「運用でカバーする」というように、設計側による"その場しのぎ"の影響を直接受ける。「えー、カバーするの俺たちなの?」という声が運用現場から上がるものの、上から「がんばれ」と言われるとやるしかない、という現場も多い。
- 設計と運用を両方やっているため、つい「運用でカバー」することにしてしまう。こうして自分たちの業務を圧迫しながら、次の設計に追われ、疲弊しつつある現場もある。
- 依頼されてから動き出すまでのリード・タイムが長くなってしまっている。変化のスピードが速い昨今では、特にリード・タイムに対する要求が厳しくなっているが、応えきれていない。
- 声の大きいユーザーや部署に対して、通常の想定を大幅に超えたサポートを強いられている。
- コスト削減要求が強いが、どこをどう削減すべきなのかが見えない。
多くの運用現場の人々は、「自分たちだけが苦労し悩んで」いて、それが「自分たちの努力不足のため」と考えているようです。
しかし、上記の現場の声にあるように、実は多くの現場が似たような悩みを抱えています。程度の差はあれど、大企業、ベンチャー、上位レイヤーのWebサービス企業、下位レイヤーのインフラ企業を問わず、国内のIT基盤運用現場においては、非常に似た悩みを抱えて同じように苦しんでいるのが実情ではないでしょうか。
次ページでは、運用現場が「何に困っているのか」、「その要因は何なのか」について分析していきます。