2019/01/17
2020/05/27
時系列分析で登場する統計量・用語を一つずつ解説
ARモデルやMAモデルといった時系列モデルを学習する前に時系列分析の統計量について考えてましょう。
今回は時系列分析のなかでも重要な概念「ラグ」、「確率過程」、「自己共分散」、「自己相関」について説明します。
時系列データの表現
まず、時系列データがどのように表現されるかについて確認しましょう。
ラグ
時点\( t \)におけるデータは\( y_t \)と表されます。
時点\( t \)を基準に一時点前、一時点後のデータについて考えたいときは、それぞれ\( y_{t -1} \)、\( y_{t + 1} \)という形で表します。
また、ある時点を基準にしたときの時間のズレ(遅れ)をラグといいます。一時点のズレであれば、\( y_t \)に対して\( y_{t-1} \)という形で表されます。これを一次ラグと呼びます。\( j \)次ラグであれば、\( y_t \)に対し\( y_{t-j} \)といった形で表現されます。
確率過程
\( y_1, y_2 , … , y_t, … \)といった形で表される時系列データを確率過程と呼びます。確率過程は、時間によって変化する確率変数の集合と考えるとよいでしょう。
時系列データの統計量
次に期待値、分散、共分散、相関といった時系列データの統計量について考えます。
期待値
時系列データの期待値は通常のデータと同じように平均を意味します。より詳しく説明すると、時系列データの期待値は時点\( t \)において平均的にとる値、期待値を示します。
時点\( t \)における期待値は\( \mu_t = E (y_t) \)という数式で表されます。
分散、標準偏差
時系列データの分散は通常の分散と同じようにバラツキを意味します。
時点\( t \)における分散は\( V(y_t) = E [(y_t – \mu_t)^2] \)という形で表します。
この分散\( V(y_t) \)に対しルートを取った\( \sqrt{ V(y_t) } \)は、標準偏差、またはボラティリティと呼ばれます。
ボラティリティについて考える時系列モデルに、ARCH、GARCHモデルといったものがあります。
自己共分散
時系列分析でもデータの共分散を扱います。ただ時系列分析では共分散ではなく自己共分散と呼びます。
自己共分散は現在と、ある時点前の過去のデータとの間の共分散を考えます。以下の式を見ながら、自己共分散について理解していきましょう。
\( \gamma_{1t} = Cov (y_t, y_{t-1}) = E [(y_t – \mu_t)(y_{t-1} – \mu_{t-1})] \)
上記の式の\( \gamma_{1t} \)は時点\( t \)における一次の自己共分散を表します。一時点前のデータに対する共分散であるため、一次の自己共分散と呼ばれます。
上記の式の\( Cov (y_t, y_{t-1}) \)という部分を見ると、確かに自己共分散が共分散の式の形であると確認できますね。
\( j \)次の自己共分散は以下のように表されます。
\( \gamma_{jt} = Cov (y_t, y_{t-j}) = E [(y_t – \mu_t)(y_{t-j} – \mu_{t-j})] \)
\( j \)次の自己共分散は\( j \)時点前のデータに対する共分散について考えるのでしたね。
定常性が仮定されるときは、\( j \)次の自己共分散を\( \gamma_j \)と表します。
自己相関
自己相関は\( j \)時点前のデータに対してどれだけ相関があるかを意味します。以下の\( j \)次の自己相関を表す式を見てみましょう。
\( p_{jt} = \frac{ Cov (y_t, y_{t-j}) }{ \sqrt{V(y_t)V(y_{t-j} } ) } \)
通常の相関係数を表す式とよく似ていますね。
定常性が仮定されるとき、\( j \)次の自己相関は\( p_j \)と表されます。
では、ある時系列データが自己相関を持っているかどうかその有無を判定するためにはどうすればいいのでしょうか?
詳しい説明はしませんが、自己相関検定やかばん検定といったものを用いると自己相関の有意性を検証できます。
まとめ
通常のデータ分析で扱う期待値、分散、共分散、相関といった統計量が、時系列分析でどのように表現されるかについて説明してきました。次回の記事では、「定常性」、「ホワイトノイズ」といった時系列分析特有の概念について紹介したいと思います。
Recommended