【入門編】変数の種類

スポンサーリンク
統計学




収集したデータは数値化して、分析していきます。その数値は変数ともいい、いくつかの種類があります。変数の種類を理解することは、分析の精度に大きく影響します

変数の種類を間違うと、分析精度の低下のみならず、不利益をもたらすかもしれません。変数の種類は意外と重要視されていません。研究論文などでも、(はっき言って)間違っていることもあります。
そこで今回は、初心者に向けて、難しい数式などはなしで感覚的に分かりやすいように、変数の種類について解説していきます。

それではやっていきましょう。

変数の種類

変数の種類は4つあります。

これらをひとつずつ確認していきましょう。

質的尺度と量的尺度

数値は大きく分けて質的量的に分けることができます。
質的変数とは、数値が違うと意味が違う、ということです。当たり前のようですが、意味が違うだけということです。この概念が以外と重要です。
量的変数とは、数値が違うと意味が違い、さらにどの程度違うかという差も比べられます。どの程度、差などの量的に比較できるこが重要です。
質的変数は違いのみ、量的変数は程度を比較できます。

もう少し詳しく見ていきましょう。

名義尺度

名義尺度は二値分類として性別、正常か不良、多値分類として花の種類、職業などがあります。
利用できる統計量としては、度数(男性:78名、女性:128名)、最頻値(職業ではサラリーマンが一番多い)など、データの個数を数えることができます。
データの数値としては、「男性が1、女性が0」、「サラリーマンが1、フリーランスが2、投資家が3」などです。
これらには、数値の大小関係はなく、区別するためだけの数値に違いです。

順序尺度

順序尺度は、名義尺度とは違い、数値の大小関係が意味をなします。たとえば、成績のA(優良)~D(不可)、10(最良)~0(最悪)などの指標があります。これらは、「BよりAの方が良い」、「8より3の方が悪い」などの判断ができます。
利用できる統計量としては、名義尺度に使える統計量に加えて、中央値、四分位数が使えます。
中央値とは数値を小さい順にカウントしたときに、真ん中にあたる数値のことです。
四分位数とは数値を小さい順にカウントしたときに、0%(最小値)、25%(第一四分位数)、50%(中央値、第二四分位数)、75%(第三四分位数)、100%(最大値)として表します。また、25%(第一四分位数)~75%(第三四分位数)の範囲のことを四分位範囲と呼びます。

間隔尺度

間隔尺度とは、その名の通り数値の間隔に意味がある数値のことです。つまり、数値の大小の違いだけでなく、数値の差にも意味があります。たとえば、温度やテストの点数などです。テストの点が「80点から、95点へ15点アップした」など、どの程度の差があったかに意味を持たせることができます。
利用できる統計量は、平均値や標準偏差です。ここでようやく数値データっぽい統計量ができてましたね。逆に言えば、名義尺度や順序尺度の数値に対して、平均値やデータばらつきを表す標準偏差は使えません。さらに、意味がないばかりか、間違えた解釈をしてしまいます。

平均値の罠

比例尺度

比例尺度とは、その名の通り数値の比例(比率)にも意味がある数値のことです。つまり、数値の大小の差だけでなく、数値の比率(パーセンテージ)にも意味があります。たとえば、商品の値段が「10,000円から8,000円に20%オフ」など、比率(パーセンテージ)で表すことができます。これは、0に意味があるかどうかともいえます。値段が0とは、お金を払わなくてもいいこと。売上がおとは、売り上げがないことです。
ちなみに、間隔尺度では、「温度が0度とは、温度がないこと」、「テストの点数が0点とは、知識がないこと」これらは、意味が通じないですよね。間隔尺度と比例尺度の違いは、0に意味があるかどうかです。0がただの数値なら間隔尺度、0が「ない」といえるなら比例尺度ということです。
使える統計量は、変動係数や幾何平均です。難しいので、パーセンテージや割合が使えると覚えていればいいです。

これらの変数の種類は統計学では、よくいわれることです。しかし、意外と理解していなくて、データ分析や機械学習をしているかたも多いです。
あらためて、変数の種類について理解を深めて、精度の高いデータ分析をしていきましょう。





コメント

タイトルとURLをコピーしました