2016/10/24
2020/04/14
箱ひげ図(Box-whisker plot)の見方
一般的な箱ひげ図
箱ひげ図(Box-whisker plot)とは、データのばらつきを目視するために作られた図の一種です。見方は、下図に示すとおりです。
データのばらつきを目視するための図としては、ヒストグラムが挙げられますが、ヒストグラムでは、分布の主要特性や分布の裾の状態の把握は困難です。そこで、箱ひげ図が用いられます。箱ひげ図は四分位数と最大値・最小値を使って描かれる図です。また、四分位数とはデータを4等分する値を指します。
箱ひげ図という名前の由来は、四分位数によって描かれる四角形を”箱”に見立て、最大値と最小値まで引く線のことを、”ひげ”に見立てていることによります。
箱ヒゲ図にはさまざまな種類があり、上図はその一例です。図で使われている言葉について、一つずつ意味をまとめました。
用語 | 意味 |
---|---|
中央値 | データの中央値(第二四分位数)データのちょうど真ん中に位置する数です。平均値とは違うので気をつけよう。 |
25%点 | 第一四分位数 |
75%点 | 第三四分位数 |
下側境界点 | 箱ひげ図におけるひげ部分の下限値。この値の決め方には様々な流儀があり、今回は最も一般的に使われている方法で\(X_{0.25} - 1.5(X_{0.75}-X_{0.25})\)とした。 |
上側境界点 | 箱ひげ図におけるひげ部分の上限値。この値の決め方には様々な流儀があり、今回は最も一般的に使われている方法で\(X_{0.25} + 1.5(X_{0.75}-X_{0.25})\)とした。 |
外れ値 | 上側・下側境界点外にあるデータ |
最大値と最小値 | 上側・下側境界点内に含まれるデータの最大値と最小値 |
箱ひげ図の様々な流儀
箱ひげ図には様々な流儀が有ります。前説で解説した箱ヒゲ図は、最小値と最大値をひげの端にしましたが、例えば、ひげの端を5%点と95%点にする手法なども存在します。
また、下側境界点や上側境界点の取り方も様々な流儀があり、一種類ではないのでお気をつけください。
箱ひげ図はR言語による簡単なプログラムで作成できます。詳しくはR言語で箱ひげ図を描く方法のページをご覧下さい。
(totalcount 13,349 回, dailycount 52回 , overallcount 13,931,312 回)
Recommended