重回帰分析|初心者や文系素人でも直感的に理解できる

スポンサーリンク
R
【2022年最新】初心者が学ぶ目的別Pythonおすすめ書籍18選|プログラミング・数学・データ分析・機械学習
Pythonはプログラミング言語として非常に人気の高いです。 その理由は、色々な目的で使えることと、初心者にも学習しやすいことです。 Pythonの学習方法はスクールに行くのも一つですが、お金も高いので、まずは独...
【初心者】Rと統計学をいっぺんに学ぶ最初の5冊
Rとはオープンソースの統計解析用のプログラミング言語です。 誰でも無料で使えます。統計解析にはSPSSやSASなどが有名ですが、いずれも有料です。大学や研究機関でないと使えないですね。個人でも統計解析できた方が、職場に依存せずにス...

重回帰分析は統計学で多く使われる方法です
しかし、初心者や文系の素人には理解しにくい分析方法でもあります
そこで、重回帰分析を数式を使わずに、直感的に理解できるように解説していきます

分かりやすさを重視しているため、統計学的な厳密さに欠けますが、入門者にとっての理解を考えて記載しています

重回帰分析の目的

予測

説明変数(特徴量)を使って、目的変数を予測することができます

しかし、予測をするなら、機械学習や深層学習などの複雑なアルゴリズムを使ったほうが、予測精度が高くなります。なので、下の説明について理解を深めた方が良いでしょう

【初心者】コピペでできる線形回帰

【初心者】コピペでできるランダムフォレス回帰

【初心者】コピペでできる決定木回帰

説明力

目的変数に対する説明変数の影響力が分かります

「目的変数を説明するためには、どの変数が重要なのかを知ること」と言い換えることができます

これが分かれば、説明変数を変化させることで、目的変数を変化させることができるかもしれません

  • 売上を伸ばすには、どの変数を変化させればいいのか
  • フォロワーを増やすには、何を良くすればいいのか
  • 成績を上げるには、どうすればいいのか

因果関係を考えるには、この説明力に対する理解が必要です

これは、重回帰分析を統計学的に解釈することに繋がります

重回帰分析の特徴

重回帰分析は複数の説明変数を使って、目的変数への影響力を分析します。

説明変数は、量的変数でもカテゴリ変数でもOKです。

しかし、目的変数は、量的変数しか使えません。

交絡因子の調整

因果関係を知るには交絡の調整が必要になります

交絡とは原因にも、結果にも影響する因子のことです

たとえば、下図のように、スマホの使用時間が成績に関係するかを知りたいとします

その時に、親の年収が関係しているかもしれません(子の成績は遺伝するし、親によってスマホの管理が異なる)

スマホ時間と成績の関係だけでは説明できず、親の年収が関係していることとします(一応例です)

重回帰分析を行うことで、の年収に影響されない、スマホ時間と成績だけの関係が分かるようになります

分析のメカニズム

説明変数をX、目的変数をYとして図式化すると以下のように表現できます

円が重なっている部分が、目的変数Yに対する説明変数Xの影響の大きさです

重なりが大きいほど、影響力も大きいと解釈できます

しかし、現実のデータではこのようにならず、下図のようになることがほとんどです

X₁とX₂が重なっています。この重なりがあると、交絡があるといえます。このまま分析すると正しい結果にならないです

なので、重回帰分析では、この重なった部分を分析していません。X₁だけの影響力とX₂だけの影響力だけしか分析していないのです

このため、重回帰分析の結果は交絡の影響は考えなくても良いことになります

結果の解釈

重回帰分析の結果は、さまざまな指標で表されます

重回帰分析のモデルの指標として決定係数(R²)、個々の説明変数の影響力として回帰係数があります

決定係数

これは、回帰モデルによって説明できる目的変数の割合です

0~1で、1に近づくほど良いモデルになります

さきほどの図で示すと、下図のようになります

図の左の2つの説明変数XとYの重なりが大きいほど、図の右の分子が小さくなるため、決定係数は大きくなります

たとえば、決定係数が、0.5であった場合

  • スマホ時間と親の年収から成績の50%が説明できる
  • 成績の50%は、スマホ時間と親の年収の影響からなっている

このように解釈することができます

偏回帰係数

重回帰分析の結果として、回帰係数が出力されます

たとえば、下図のように

図のように、成績が数式で表すことができます

まずは、プラスかマイナスかを確認します。プラスであれば、その説明変数が大きくなれば、目的変数も大きくなります。マイナスであれば、その説明変数が大きくなれば、目的変数は小さくなります

切片は、すべての説明変数が0のときの目的変数の値ですが、気にしなくても良いです

注意点として、偏回帰係数の値の大きさから、「年収より、スマホ時間の方が成績に対する影響が強い」と解釈するのは誤りです

これは、説明変数の単位に依存しているためです。なので、説明変数の単位を揃える必要があります

標準化回帰係数

標準化とは、平均値を0、データのばらつきを表す標準偏差を1に変換することです

この標準化することで、説明変数間の目的変数に対する影響力の大きさを解釈することができます

上の図では、目的変数である成績には、スマホ時間より、親の年収の方が影響力が大きいという結果になりました。世知辛いですね(ただの例題ですが)

おすすめ書籍

コメント

タイトルとURLをコピーしました