放送教材パタン

第9回
ユーザの日常生活を知る
∼ログ解析∼
大西
仁
ログとは?
ログ(log)…計算機や通信機器の利用状況や
処理の記録/記録を取ること
•システム アプリケーション ネットワーク
•ブログ(blog)
ブログ(blog) ライフログ
ライフログ…
•POS(Point of Sales; 販売時点情報管理)
ユーザの日常生活を知る意義
どの状況でどう使いどう感じるか
→ユーザのニーズに合った商品を開発
ログ解析⇔内容分析 事例研究
ログ解析⇔内容分析、事例研究
• 大量のディジタルデータを容易に入手
• 計算機処理
• 断片的デ
断片的データ
タ
ユーザの日常生活を知る意義
ユーザの利用行動の多様化
ユ
ザの利用行動の多様化
• 個人ユーザのインターネット接続
‒ 1990年代前半…ダイヤルアップ
1990年代前半 ダイヤルア プ
‒ 2011年現在…ブロードバンド化
年現在
化
モバイル通信 端末の多様化
→通信の利用行動の多様化
Webのアクセスログ
Webのアクセスログ解析
• 自社Webサイトへの訪問者増加
• 製品の売り上げ増加 広告収入増加
•キ
キーワード 構造
POSシステム
POS (Point of Sales; 販売時点情報管理)
• 「いつ」「どこの店舗で」「何の商品が」
「いくらで」「何個」売れたか
• 発注作業負担軽減 在庫管理の効率化
• 生産量の最適化 物流コスト削減
•ニ
ニーズ分析
ズ分析 製品開発 市場開発
ネット通販
•
•
•
•
購入者の属性
各購入者の購入履歴 アクセ 履歴
各購入者の購入履歴・アクセス履歴
詳細 購入者像
詳細な購入者像
購入者の行動パタン→「お薦め商品」
ブログ (blog)
• 元々、 Web ページのURL+覚え書き・
論評を記録したウェブサイト
‒ Webをlogする Weblog
• 日記+コメント+トラックバック
ブログ (blog)
•
•
•
•
製品の問題と解決法
製品の『評論』
製品
製品の意外な利用法
外 利用法
口コミ的拡散
ライフログ (lifelog)
• 人間の生活を長期間(生涯)ディジタル
データとして記録すること/記録自体
• 狭義 =生活の全て
生活の全て … 映像 音声 文書
データファイル センサー・データ
• 実情=サブセット … ブログ 食事記録
運動記録 画像アーカイブ
Webのアクセスログの解析
Webのアクセスログの解析
202.XX.YY.ZZ - [13/Mar/2011:00:46:19 +0900]
"GET
GET /~ohnishi/
/ ohnishi/ HTTP/1.1
HTTP/1.1" 200
12105 " /~ohnishi/20060304.html "
“UseAgent
UseAgent (compatible; Browser
Ver; OS, …)"
Webのアクセスログの解析
202.XX.YY.ZZ - [13/Mar/2011:00:46:19
+0900]
IPアドレス
"GET
GET /~ohnishi/
/ ohnishi/ HTTP/1.1
HTTP/1.1" 200
12105 " /~ohnishi/20060304.html "
“UseAgent
UseAgent (compatible; Browser
Ver; OS, …)"
Webのアクセスログの解析
202.XX.YY.ZZ
202
XX YY ZZ - [13/Mar/2011:00:46:19
+0900]
登録ユーザ名 認証時のユーザ名
"GET
GET /~ohnishi/
/この場合は認証なし
ohnishi/ HTTP/1.1
HTTP/1 1" 200
12105 " /~ohnishi/20060304.html "
“UseAgent
UseAgent (compatible; Browser
Ver; OS, …)"
Webのアクセスログの解析
202.XX.YY.ZZ - [13/Mar/2011:00:46:19 +0900]
"GET
GET /~ohnishi/
/ ohnishi/ HTTP/1.1
HTTP/1.1" 200
アクセス日時
12105 " /~ohnishi/20060304.html "
“UseAgent
UseAgent (compatible; Browser
Ver; OS, …)"
Webのアクセスログの解析
202.XX.YY.ZZ - [13/Mar/2011:00:46:19 +0900]
"GET
GET //~ohnishi/
ohnishi/ HTTP/1.1"
HTTP/1.1 200
12105 " /~ohnishi/20060304.html "
リクエスト方法
“UseAgent
UseAgent (compatible; Browser
Ver; OS, …)"
Webのアクセスログの解析
202.XX.YY.ZZ - [13/Mar/2011:00:46:19 +0900]
"GET
GET //~ohnishi/
ohnishi/ HTTP/1.1
HTTP/1.1" 200
12105
" /~ohnishi/20060304.html "
アクセスしたファイル
“UseAgent
UseAgent (compatible; Browser
Ver; OS, …)"
Webのアクセスログの解析
202.XX.YY.ZZ - [13/Mar/2011:00:46:19 +0900]
"GET
GET /~ohnishi/
/ ohnishi/ HTTP/1.1
HTTP/1.1" 200
12105 " /~ohnishi/20060304.html
"
通信方式
“UseAgent
UseAgent (compatible; Browser
Ver; OS, …)"
Webのアクセスログの解析
202.XX.YY.ZZ
-応答コード
応答コ
ド
[13/Mar/2011:00:46:19
+0900]
200 正常
"GET
GET 認証されない
/~ohnishi/
/ ohnishi/ HTTP/1.1
HTTP/1.1" 200
401
12105
" /~ohnishi/20060304.html "
403 認証以外の理由で
“UseAgent
UseAgent
(compatible; Browser
アクセス不許可
Ver;
…)"
404OS,
ファイルが見つからない
Webのアクセスログの解析
202.XX.YY.ZZ - [13/Mar/2011:00:46:19 +0900]
"GET
GET /~ohnishi/
/ ohnishi/ HTTP/1.1
HTTP/1.1" 200
12105 " /~ohnishi/20060304.html "
“UseAgent
UseAgentタサイズ(バイト)
(compatible; Browser
転送したデ
転送したデータサイズ(バイト)
Ver; OS, …)"
Webのアクセスログの解析
202.XX.YY.ZZ - [13/Mar/2011:00:46:19 +0900]
"GET
GET //~ohnishi/
ohnishi/ HTTP/1.1
HTTP/1.1" 200
12105 " /~ohnishi/20060304.html
" “UseAgent
UseAgent
(compatible; Browser
リンク元URL
Ver; OS, …)“
Webのアクセスログの解析
202.XX.YY.ZZ
-リンク元URL
[06/Mar/2011:10:56:07
+0900] "GET
検索サイトからアクセス
/~ohnishi/20070131.html
HTTP/1.1"
検索キーワード
検索キ
ワ ド
200 16325
"http://XX.YY.jp/search?p=%E3%83
%AB%E3%83%BC%E3%83%90%E
3%83%83%E3%82%B0 ...
Webのアクセスログの解析
202.XX.YY.ZZ - [13/Mar/2011:00:46:19 +0900]
"GET
GET /~ohnishi/
/ ohnishi/ HTTP/1.1
HTTP/1.1" 200
12105 "ユーザエージェント
/~ohnishi/20060304.html "
“UseAgent
UseAgent (compatible; Browser
Ver; OS, …)"
Webのアクセスログの解析
ログデータの集計…月単位のレポート
ログデ
タの集計 月単位のレポ ト
• 日・曜日・時間・月
• アクセス元のドメイン
• コンテンツ リンク元 検索キーワード
• OS ブラウザ
ラ
• 滞在時間 エラー
Webのアクセスログの解析
アアクセスス数
• 曜日別
曜日別・時間別アクセス数からアクセスパタ
時間別アクセス数からアクセスパタ
ンを推定
時刻
Webのアクセスログの解析
ユーザのサイト内行動
ユ
ザのサイト内行動
• どのページからサイトに入り
どのペ ジでサイトから出ていくか?
どのページでサイトから出ていくか?
• 目的のページまで誘導できているか?
• 目的のアクションをとらせているか?
Webのアクセスログの解析
• ページ改修後のアクセス数やサイト内行動
の変化
• ページ改修後の検索キーワードや
アクセス数変化
• 広告掲載後のアクセス数変化
ログ解析の数理的方法
時系列デ タの解析
時系列データの解析
• 時刻とともに記録
された情報の系列
…時系列データ
時系列デ タ
• 時系列データ
…ある程度の規則性
ある程度の規則性
時系列データの解析
時系列データの解析
移動平均
• 値をその前後の期間の値との平均で
置き換えることにより平滑化を図る
時系列データの解析
時系列データの解析
時系列データの解析
時系列データの解析
前後1期間
前後2期間
前後3期間
時系列データの解析
多項式回帰モデル
… 時系列データに多項式を当てはめる
1次式モデル
3次式モデル
時系列データの解析
パラメタ推定 … 最小二乗法
・推定二乗誤差を最小化
0
0
時系列データの解析
1次式
時系列データの解析
2次式
時系列データの解析
3次式
時系列データの解析
5次式
時系列データの解析
7次式
時系列データの解析
9次式
文書データの解析
• 文書デ
文書データ
タ
‒ ブログ
‒ アンケートの自由記述
アンケ トの自由記述
• 大量データは計算機で処理したい
大 デ タ 計算機 処
• 数値でなく自然言語
• テキストマイニングによる処理
文書データの解析
テキストマイニング
• 文書データから情報を抽出する
手法の総称
• 文書を形態素と呼ばれる意味の
最小単位に分解 → 統計解析
文書データの解析
A社の動画像編集ソフトウエアXXX
• H.264
H 264 という動画像フォーマットに対応
と う動画像フ
トに対応
• 処理の高速化
処
高速化
• メニューの大幅変更
文書データの解析
まとめ