記事の概要
本記事では Excel でロジスティック回帰を行う方法についてまとめます。
前提としてExcelのデフォルトの機能ではロジスティック回帰を行うことはできません。
データ分析を行っていた時に要因分析を行いたかったのですが、重回帰分析しか利用することができず、どうにかロジスティック回帰ができないか試行錯誤し、使用できる用にしたため使用方法をまとめました。
ロジスティック回帰とは
ロジスティック回帰は、主に2つのカテゴリー(またはクラス)のどちらかにデータを分類するための統計的手法です。これは、連続的な値ではなく、2つの可能な結果のいずれかを予測するために使用されます。例えば、スパムメールの分類や、患者が病気にかかるかどうかの予測などに適用されます。重回帰分析は売上など連続値の分析を行う際に用いられる指標でした。今回のようなカテゴリ分析の際に使用できます。
ロジスティック回帰の基本的な考え方は、線形回帰と同じく、入力変数(特徴)と出力変数(目的変数、またはターゲット)の間の関係をモデル化することです。ただし、出力が連続値ではなく、2つのクラスのいずれかに属する確率を表します。
具体的には、ロジスティック回帰では、入力変数の線形結合にロジスティック関数(シグモイド関数)を適用します。このシグモイド関数は、0から1の間の値を出力し、それを特定のクラスに属する確率と解釈します。これにより、入力データが各クラスに属する確率を予測することができます。
具体例を挙げると、例えば、ある患者が特定の病気にかかるかどうかを予測する場合、患者の年齢や性別、血液検査結果などの情報を入力変数とし、その患者が病気にかかる確率をロジスティック回帰モデルで予測することができます。
ロジスティック回帰は、そのシンプルさと解釈性の高さから、機械学習の初心者にも人気があります。しかし、複雑な関係や非線形なパターンをモデル化するには不十分な場合もあるため、適切な問題に使用することが重要です。
実装手順
手順1.アドインツールをインストールする
Excelではデフォルトでロジスティック回帰を行うことができないため、下記よりアドインツールをインストールします。
https://regressit.com/logistic-regression.html
手順2. ExcelのOptionからインストールしたアドインを追加する
Excelを開き、ツール→アドインの追加を選択します(Mac)
Windowsの場合はOptionなどから選択可能です。「アドインの追加方法」などお調べください。
手順4【実装方法】
Excel にRegresslt タブが追加するため、タブを開きます。アドインの追加後、ExcelにRegresslt タブが開かれます。画像参照
次に、SelectDataで分析に使用するデータの範囲の選択、CreateName で分析に適当な名前をつける
LogisticLegression を選択して、目標値と入力値を選択する
最後に Run を選択することによってロジスティック回帰が実行されます。
結果の解釈
実装後、下記の様なシートが作成されます。
- Logistic Regression Equation:計算によって割り出された数式が記載されます。
- Logistic Regression Statistics:重回帰分析のときと同じ様は表が表示されます
- Coefficient:係数、数式に当てはまる重みです。
- z-statistic:回帰係数を標準誤差(*1)で割った値で、誤差が小さいほどこの値が大きくなります。値が大きいほど結果が信頼できる
- P-value:P値、0.05を下回っているかどうか(その変数が目的に対して影響しない確率が5%未満かどうか)で、その変数が目的に与える影響を判断
- Std.coeff:標準化した値から算出される係数
ロジスティック回帰の精度については一番下の混合行列にて確認が可能です。以上、ロジスティック回帰の設定と実装方法でした。