ログに記録できる事柄は、これまで説明してきたことだけではありません。Apacheでは先の形式を「コモン(標準)」と呼びますが、もっと内容の詳しいものには「コンバインド(連結)」という形式があります。これはコモンログの後ろに「リファラ」「エージェント」の2つの項目を連結し、次のような記録となります。
000.000.000.000 - - [17/May/2007:00:03:11 +0900] "GET /index2.html HTTP/1.1" 200 1543 "http://www.yourdomain.com/index.html" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.0.3705; .NET CLR 1.1.4322)"
リファラ(参照元)とは元いたページのことで、クリックしてリクエストが発生した時にブラウザのアドレス欄に表示されていたURLです。上の例では「http://www.yourdomain.com/index.html」と、トップページを見たことを示しています。つまりこの人はトップページを見てからindex2.htmlへ移動したわけです。それが1行で記録されています。
システム的に「クリックした時にアドレス欄に表示されてきたURLがサーバに飛んでくる」という仕組みは非常に便利なものです。例えばYahoo!で「ログ」という言葉で検索をすると、アドレス欄には下記のように表示されます。
http://search.yahoo.co.jp/search?p=%A5%ED%A5%B0&fr=top&tid=top&ei= euc-jp
上記のURLの中の「%A5%ED%A5%B0」という部分が、「ログ」というキーワードを符号化したものです。日本語のままではネット上を動かすことができないので、符号化されているのです。その結果をクリックしてどこかのサイトに訪れたとすると、そのサイトのページのログには下記のように記録が残されています。
000.000.000.000 - - [17/May/2007:00:03:11 +0900] "GET /index2.html HTTP/1.1" 200 1543 "http://search.yahoo.co.jp/search?p=%A5%ED%A5%B0&fr=top&tid=top&ei=euc-jp" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.0.3705; .NET CLR 1.1.4322)"
この仕組みのおかげで、Yahoo!のサーバで起こったはずの検索内容が私たちが運営しているサーバに飛んできてくれるのです。だから、このリファラを解析すれば、「Yahoo!で『ログ』というキーワードで検索した人が、紹介されていたindex2.htmlに飛んできた」ということを知ることができます。これはマーケティングにとっては非常に重要なものです。しかも、「fr=top&tid=top」の部分をみれば、検索結果の第1画面で紹介されていたということまでわかります。
また次の部分が「エージェント」と呼ばれるもので、ここでは訪問者がWindows NT環境で、InternetExplorer6.0を使っていることを示しています。
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.0.3705; .NET CLR 1.1.4322)
このコンバインドログは1行が長くなっています。Yahoo!の検索結果がリファラに残ったサンプルでは1行257バイトもあります。先のコモンログの1行84バイトのちょうど3倍です。できあがる1ヶ月のログデータ量も3倍になるのですから、元が1GBのデータなら3GBものデータになってしまうのです。コンバインドログが登場して、サーバ管理者はサーバに負荷を与える重いログを保存するのがますます嫌いになったともいわれているそうです。
しかしWebを企業が活用するためには、このリファラを記録してユーザニーズを確認しなければなりません。そのために、アクセスログ解析の方法はいろいろと工夫されてきました。サーバに負荷をかけずに、有効な項目を集計分析するにはどうすれば良いか。次回からその方法を見ていくことにしましょう。
|