ロジスティック回帰分析を簡単解説

2024.3.28

回帰分析

ロジスティック回帰分析とは
最小二乗法での偏回帰係数の導出
説明変数の解釈

ロジスティック回帰分析とは

ロジスティック回帰分析は、商品の購入確率、病気の発症確率といった二値判別問題に対して回帰分析を考えたいときに有用な手法です。

二値判別問題とは、０か１であるダミー変数を予想、分析するような問題です。

ロジスティック回帰分析を以下の式で表します。

$p = \frac{ 1 }{ 1 + \exp ( -(a_1x_1 + a_2x_2 + \cdots + a_nx_n + b) ) }$ ... ①

目的変数は確率であるため $p$ と置きました。

この式を見ると、 $x_i$ がどんな値をとっても目的変数 $p$ が0から1までの範囲に収まることが分かります。

$a_i$ は $x_i$ に対する偏回帰係数です。

最小二乗法での偏回帰係数の導出

線形単回帰分析でも用いた最小二乗法を使って偏回帰係数 $a_i$ を求めます。

①の式を変形し、以下の式②を導出します。

$p = \frac{ 1 }{ 1 + \exp ( -(a_1x_1 + a_2x_2 + \cdots + a_nx_n + b) ) }$

$1-p = \frac{ \exp ( -(a_1x_1 + a_2x_2 + \cdots + a_nx_n + b) ) }{ 1 + \exp ( -(a_1x_1 + a_2x_2 + \cdots + a_nx_n + b) ) }$

$\frac{ p }{ 1-p } = \exp(a_1x_1 + a_2x_2 + \cdots + a_nx_n + b)$

ここで対数を取ると、

$ln\frac{ p }{ 1 - p } = a_1x_1 + a_2x_2 + \cdots + a_nx_n + b = l$ ... ②

$ln\frac{ p }{ 1 - p } = y'$ とすれば、最小二乗法が使える形になっていると確認できます。

式②の $l$ のことをロジットと呼びます。ロジットに対して指数を取るとオッズが出てきます。

$\exp(l) = \frac{ p }{ 1 - p }$

このオッズは、ある事象が発生する確率と発生しない確率の比になっています。

説明変数の解釈

目的変数に対して説明変数の影響度を比較する方法について説明します。

例として、健康である確率を、血圧、性別、年齢などのn個の要因から予測することを考えます。

まずは血圧の影響を考えましょう。

血圧が150の人をオッズA、180の人をオッズBとし、他の条件に関してすべて同じであるとします。

このとき、オッズ比は次のように表されます。（ $bp$ は血圧）

$オッズA / オッズB = \frac{ exp( a_{bp}150 +a_{sex}x_{sex} + \cdots + a_nx_n + b) }{ exp( a_{bp}180 + a_{sex}x_{sex} + \cdots + a_nx_n + b) } = {exp(-30{a_{bp}})}$

オッズ比、 $オッズA / オッズB$ が１より大きければ、血圧が150の人は血圧が180に人に比べ健康である確率が高いと分かります。

次に、性別の影響を考えましょう。

性別が男性の場合をオッズM、女性の場合をオッズWとし、ダミー変数をそれぞれ男性→1、女性→0とします。

このとき、オッズ比は次のように表されます。

$オッズM / オッズW = \frac{ exp (a_{bp}x_{bp} +a_{sex}*1 + \cdots + a_nx_n + b) }{ exp( a_{bp}x_{bp} + a_{sex}*0 + \cdots + a_nx_n + b) } = exp(a_{sex})$

血圧のオッズ比 $exp(-30{a_{bp}})$ と性別のオッズ比 $exp(a_{sex})$ を求めることができれば、健康である確率に対する血圧と性別の影響度を比較することができます。

この二つの偏回帰係数は、以下の式の $a_{bp},a_{sex}$ について考えることで求められます。

$ln\frac{ p }{ 1 - p } = a_{bp}x_{bp} + a_{sex}x_{sex} + \cdots + a_nx_n + b = l$

これに対して最小二乗法を用いれば、偏回帰係数 $a_{bp},a_{sex}$ が求めることができます。

この時 $exp(-30{a_{bp}})$ と $exp(a_{sex})$ を比較し、例えば $exp(a_{sex})$ の方が大きかったとします。

その場合、性別の方が血圧よりも健康である確率に影響を及ぼすと説明できます。

このようにすることで、目的変数に対する説明変数の影響の大きさを比較することができます。

カテゴリ: 回帰分析

関連するサービス

全人類がわかるE資格講座

深層学習の理論と実装を学ぶ講義動画
実装力が身に付くコーディング試験
本試験を想定したWebテスト

詳しくみる

全人類がわかる機械学習講座

図解豊富な資料と動画講義
初心者安心のコーディング試験
5分野の修了試験

詳しくみる

全人類がわかるG検定対策講座

AIの基礎知識を学ぶ講義動画
本試験を想定したWebテスト
復習用まとめノート

詳しくみる

全人類がわかるDS検定対策講座

データサイエンス基礎を学ぶ講義動画
本試験を想定したWebテスト
公式テキストの著者による監修

詳しくみる

記事の筆者

古澤嘉啓

株式会社AVILEN マーケター

東北大学法学部卒業。ITインフラ業界で、モバイル・クラウドソリューションの法人セールス、プロダクト企画、マーケティング、カスタマーサクセスなどを経験。 2021年8月にAVILENに参画。AVILENでは人材育成事業部に所属し、BtoC、BtoB領域のマーケティング業務全般を担当する。