最近103万円の壁が話題だが、数学界には統計において間隔尺度の壁がある(今作った)ので今回はそこを探訪したい。
実は、昔のボクもそうだったんだけど、統計学の勉強をはじめようと教科書を開いて、数ページ進んだところで「あれ?」っとなることがある。冒頭壁に命名した間隔尺度と呼ばれる変数が登場するあたりだ。
統計学において扱う変数の種類は以下のものがある。
- 名義尺度(Nominal Scale):カテゴリーを表す変数。例:血液型、性別
- 順序尺度(Ordinal Scale):順序関係を持つ変数。例:学歴、満足度ランキング
- 間隔尺度(Interval Scale):等間隔性を持つ変数。例:テストの得点、温度(摂氏・華氏)
- 比率尺度(Ratio Scale):絶対的なゼロ点を持つ変数。例:身長、体重、年齢
変数の種類を見ていくと、間隔尺度の扱いには特別な注意が必要なことがわかる。なぜなら、間隔尺度は一見すると比率尺度のように見えながら、実は全く異なるからだ。これを具体例で見ていこう。
あるテストにおいて、とある君の友達が100点、君自身は50点だったとする。そこでその友達が、
「テストの点が2倍なんだから、感情論はおいといて、論理的には君の能力は僕の半分だ」
なんていいだしたら、どう反論するだろうか?実は、この友達の主張には大きな問題がある。
テストの点数は間隔尺度であり、0点が「能力がない」ことを意味するわけではない。つまり、100点と50点の差は、80点と30点の差と同じ50点だが、これらが示す能力の差が同じとは限らないのだ。
さらに、テストの難易度や範囲によっても、点数の持つ意味は大きく変わる。例えば、非常に難しいテストで50点を取ることは、簡単なテストで100点を取ることよりも高い能力を示す可能性もある。
したがって、単純に点数の比率から能力を判断することは適切ではない。統計学の観点からも、このような解釈は間隔尺度の特性を無視した誤った推論といえるだろう。
ここでもう少し定量的に考えてみる。テストは能力を測るものだから、あるテストの点数というのはその能力が全くない状態を基準にして、
$$
y=x+a
$$
($y$:能力値, $a$:基準からの幅)
と表現できるはずだ。テストが0点だったということは、ちょうどa程度の能力しかなかったことからまったく能力がなかったことまでが含まれることになる。
ここで、能力が2倍になるということと、テストの点数が2倍になるということの違いについて考えてみよう。
まず、能力が2倍になるケースを考えると、
$$
2y=2(x+a)
$$
($y$:能力値, $a$:基準からの幅)
y となる。一方、テストの点数が2倍になるケースでは、単純に
$$
y'=2x+a
$$
($y$:能力値, $a$:基準からの幅)
となる。
これらの違いは非常に重要だ。能力が2倍になる場合、基準値 a も含めて全体が2倍になるのに対し、テストの点数が2倍になる場合は、基準値 a は変わらず、x の部分のみが2倍になる。この違いが、なぜ単純にテストの点数の比率から能力の比率を判断することができないかを定量的に説明している。
これは温度を例にしても同じだ。秋のある日の最高と最低の気温がそれぞれ10度と20度だったとする。このとき、温度が2倍だったね、とは言えないということだ。摂氏温度は間隔尺度であり、0度が「温度がない」ことを意味しない。温度がない状態は絶対零度と呼ばれ、-273度がそれである。定量的に表すと次の通りだ。
$$
y=x+273
$$
($y$:絶対温度 $x$:摂氏温度)
この式を用いて先ほどのテストの点数と同じ話になる。
このあたりのことを間隔尺度の定義からすぐにイメージできなかったので、あの頃のボクは統計学入門にしてすぐに壁にぶつかってしまった。
この記事のポイントは以下の通り:
1. 間隔尺度は、一見すると比率尺度に似ているものの、その解釈には特別な注意が必要である。
2. 間隔尺度における数値の比率は、実際の量や能力の比率を直接的に表すものではない。これは、間隔尺度には絶対的なゼロ点が存在しないためである。
3. テストの点数や摂氏温度のような間隔尺度では、数値の差は意味を持つが、その比率は意味を持たない。これは y = x + a という数式で明確に説明できる。
この理解は、日常生活における数値の解釈においても重要な示唆を与えてくれる。
読んでくれてる人の手取りを増やす力はボクにはないけど、あの頃のボクみたいな人が読んでいたならこのちょっとした壁は取り崩せただろうか。