TOP設計・移行・活用> はじめに




OSS適用システムの障害解析ツール
OSS適用システムの障害解析ツール

第1回:ダンプ解析ツールの現状と必要性
著者:ユニアデックス  前原 志好   2005/6/14
1   2  3  4  次のページ
はじめに

   近年、Linuxの大規模サーバシステムへの適用事例が増加しているが、オープンソースソフトウェア(以下OSS)のサポート現場では、既存ツール・手段の不備により迅速な障害対応ができていないという声があがっている。それは、Linuxには障害解析のための標準的なツールが揃っていないことも原因のひとつである。

   現状では、障害発生時は各社固有のノウハウで対応している。特にダンプやトレースといったツールは、存在はするが実際の現場ではあまり使われることがなく、利用ノウハウも蓄積されていない。よって、障害発生時に十分なデータが得られず、解決に時間がかかり、原因の特定に至らないケースも多々ある。


開発の背景

   上記のような日本のOSSの事情において、実際にLinuxをサーバとして運用しているシステムの障害に対する解析手法の選択肢が充実していないことがわかった。Linuxをミッションクリティカルシステムに対応させるには、メインフレームやUNIXと同じレベルで、障害の原因の早期発見が必須である。そのため、既存の障害解析ツールを拡張、または新規に開発するニーズが出てきた。

   そのあたりの背景は、連載「オープンソースソフトウェアの性能・信頼性評価手法」の第1回:開発基盤ワーキンググループインタビューでも述べられている。インタビューにも登場するメンバーで、今回のプロジェクトの開始にあたり高信頼化に必要なツールを整理、検討した結果、以下の図のオレンジの部分が不足していることがわかり、まずはここを開発するということになった。

ミッションクリティカル対応高信頼化ツール群
図1:ミッションクリティカル対応高信頼化ツール群

   開発基盤ワーキンググループでは、2004年度に以下の3つのツールを開発した。

  • 新ダンプ解析ツール(Alicia)
  • カーネル性能評価ツール(LKST)
  • ディスク割り当て評価ツール(DAV)

   今回は、新ダンプ解析ツールについて紹介する。


ダンプ解析とは?

   ところで、ダンプ解析という言葉をはじめて聞いた方のために、ダンプ解析とはどのようなものであるかを簡単に説明する。ここで述べる解析対象のダンプは、Linuxのカーネルクラッシュダンプのことを指す。そのダンプは、LinuxというOSが稼動しているある瞬間に、OS/ユーザの活動をすべて停止させ、その状態のメモリの内容が他のデバイスに書き出されたものである。

   もう少し簡単な例で置き換えてみる。人が何か病気にかかり、医者に行くとする。問診で原因が特定できない場合、レントゲンやCTスキャン(スナップショット)を撮ることがある。乱暴に言ってしまえば、その撮影したデータこそが「ダンプ」である。そのダンプから、専門家が専門知識を使って原因を特定していく。このある状態のスナップショットを元に、原因を特定する作業のことを「ダンプ解析」と呼んでいる。


既存の解析ツール

   Linuxカーネルのダンプを解析するツールはいくつか存在している。しかしながら、そのツールの使用方法は存在しても、実際の解析事例や解析テクニックといったノウハウは公開されていない。そのあたりにメスを入れるべく、ダンプ解析における新しいプラットフォームの開発ということになったのだが、その前に既存のダンプ解析ツールとして代表的な2つのツール(lcrash、crash)をここで紹介しておく。

1   2  3  4  次のページ

資料紹介
「OSSの性能・信頼性評価/障害解析ツール開発」報告書

本記事は、OSS推進フォーラム 開発基盤ワーキンググループによって公開されている「OSSの性能・信頼性評価/障害解析ツール開発」報告書を基に記事を掲載しています。報告書には、本記事で紹介した障害解析ツールのさらに詳しい情報が記載されています。
Javaアプリケーション層の評価、DB層の評価、OS層の評価の各報告書や付録、障害解析ツール開発に関する各報告書などが、OSS推進フォーラム 開発基盤ワーキンググループのホームページにて公開されています。

■「ダンプデータ解析ツールの開発」報告書(PDF形式/150KB)
http://www.ipa.go.jp/software/open/forum/Contents/DevInfraWG/Alicia-Review.pdf

■日本OSS推進フォーラム・開発基盤ワーキンググループホームページ
http://www.ipa.go.jp/software/open/forum/DevInfraWG.html
ユニアデックス株式会社 前原 志好
著者プロフィール
ユニアデックス株式会社  前原 志好
日本ユニシス(株)入社後、米国UNISYS製メインフレームのカーネルを担当する。2004年4月から、所属組織ごとユニアデックス(株)に転籍。その後OSS関連作業に着手。今年は、メインフレーマーとの掛け橋(トランスレータ)役を担当する。


この記事の評価をお聞かせください
ボタンをクリックしますとウインドウが開きます。

INDEX
第1回:ダンプ解析ツールの現状と必要性
はじめに
  lcrash
  crash
  Aliciaの登場
OSS適用システムの障害解析ツール
第1回 ダンプ解析ツールの現状と必要性
第2回 Aliciaを使ってダンプ解析
第3回 Linuxカーネルの性能評価機能(LKST)とは
第4回 MIRACLE LINUXによる実践的なLKSTの利用
第5回 Disk Allocation Viewer for Linuxとは