「平均」とは、データの集合に含まれる値を代表する値として計算される数値で、データ全体の傾向や中心を示すために使われます。複数のデータを1つの数値にまとめることで、全体の状況を把握しやすくする役割があります。
一般的に、平均はデータのばらつきを抑えて、全体の中心的な値や典型的な値を求める際に使われますが、データの特性や目的に応じて異なる種類の平均が存在します。
普段、「平均」といえば、全てのデータを合計し、その合計をデータの個数で割るという計算が一般的ですね。今回は普段使っている平均を含めた様々な「平均」について学習していきます。
算術平均(Arithmetic Mean)
最もよく知られている平均の計算方法で、すべてのデータを合計し、その数をデータの個数で割ることで求められます。学校の成績や収入の平均など、日常的に使われる一般的な平均です。
計算方法
例えば、以下のように4つの会計年度にまたがる売上高の算術平均は、(1,500 + 1,700 + 2,000 + 2,500)÷ 4 =1,925と求めることができます。
会計年度 | 売上高 |
2021 | 1,500 |
2022 | 1,700 |
2023 | 2,000 |
2024 | 2,500 |
幾何平均(Geometric Mean)
幾何平均(Geometric Mean)は、データの積を用いて計算される平均値で、特に成長率や複利のような、連続的な変化や掛け算的な影響がある場合に用いられます。算術平均がデータの単純な合計を取るのに対し、幾何平均はデータの積に基づいて計算されるため、変動が激しいデータや極端な値がある場合に適しています。
ビジネスシーンにおいて、売上のCAGRは・・・などと聞くことがあるかと思いますが、このCAGRはCompunded Annual Growth Rateの略で、幾何平均のことを示しています。
幾何平均の特徴
幾何平均は、正の値のみに適用され、ゼロや負の値が含まれるデータには適用できないという特徴があります。
また、金融や投資におけるリターンや、人口成長率の計算など、一定期間にわたる変化や、リスクを伴うデータに対して使用されることが多いのも特徴です。
幾何平均の計算式
幾何平均=(X1 x X2 x X3 x ・・・・Xn)^(1/n)(n=データの数)
データの積(掛け算)の n乗根を取ることで計算できます。
例えば、データが2、4、8の場合、幾何平均=(2 x 4 x 8)^(1/3) = 4というような具合です。
例えば、先ほど算術平均で使用した売上高の推移において、その売上の成長率の平均を取りたい場合に幾何平均を使用して求めます。
会計年度 | 売上高 | 成長率 |
2021 | 1,500 | n/a |
2022 | 1,700 | 13.3% |
2023 | 2,000 | 17.6% |
2024 | 2,500 | 25.0% |
この幾何平均は、[(1+13.3%)x (1+17.6%) x (1+25.0%)]^(1/3) = 1.185
つまり年間売上高成長率は18.5%となります。
調和平均(Harmonic Mean)
調和平均(Harmonic Mean)は、特に比率や速度を扱う場合に用いられる平均値の一つで、逆数を用いて計算されます。通常、データの中で非常に小さい値が重要である場合や、異なる単位を扱う比率データに対して有効です。例えば、速度や効率を平均する際に使われることが多いです。
調和平均の特徴
• 小さい値に対して敏感で、極端に小さい値が含まれる場合に影響を強く受けます。
• 値の逆数を使って計算するため、算術平均とは異なる結果を出します。
• 比率や速度を平均する際に適しており、例えば、「1つの道を2つの速度で走ったときの平均速度」などに使われます。
調和平均の計算式
調和平均=n / [(1/X1) + (1/X2) + (1/X3) +・・・(1/Xn)] (n=データの個数)
例えば、データが3つあり(n=3)、それらのデータは2、3、6とします。
この場合の調和平均は、3 / [1/2) + (1/3) + (1/6)] = 3/1 = 3となります。
財務比率データにおける調和平均
財務の比率データの平均を取る際に、調和平均(Harmonic Mean)を使うのは、比率や割合が関係するデータセットに適しているためです。特に、PER(株価収益率)やPBR(株価純資産倍率)のような財務比率を平均する場合に、調和平均は実際の価値を反映しやすく、より正確な平均を得るために使用されます。
調和平均が財務比率データを測るのに有効な理由
1. 比率の逆数に注目
調和平均はデータの逆数を使用して計算されます。財務比率は、数値が大きくなるほど全体への影響が小さく、逆に小さい数値は全体に強い影響を与える傾向があります。例えば、PERのような比率は、株価が利益に対して割高か割安かを示すもので、極端に小さい値が重要な意味を持つことが多いです。このため、調和平均を使うと小さい値に重みを持たせた計算ができ、全体をより正確に評価できます。
2. 極端な値の影響を抑制
算術平均だと、極端に高い数値が平均に大きな影響を与えることがあります。しかし、調和平均は逆数を用いるため、極端に高い数値の影響が小さくなり、データ全体のバランスを取ることができます。
3. 異なる基準で計測されたデータの平均
比率データは一般的に、元のデータの大きさが異なる場合があります(例:異なる規模の企業のPER)。調和平均は、このような異なる基準で計測されたデータを適切にまとめるために役立ちます。
調和平均を使った具体例
例えば、複数の企業のPERの平均を求めたい場合、単純に算術平均を取ると、PERが非常に高い企業(利益がほとんどない企業)や極端に低い企業(高利益を上げている企業)が全体の平均に大きな影響を与えてしまうことがあります。調和平均を使うことで、極端な値の影響を抑え、より実際の状況に近い平均を求めることができます。
企業A、B、CのPERがそれぞれ10、15、50だとすると、算術平均は(10+15+50)/3=25となります。
これでは、PERが50の企業Cが平均に大きな影響を与えてしまい、データにばらつきが出てしまいます。
調和平均では、3/[(1/10)+(1/15)+(1/50)] = 3/0.1867 = 16.07となり、算術平均の25よりも現実的な平均が得られます。
財務比率の平均を取る際に調和平均を使うのは、比率データに対して極端な値の影響を抑え、より実態に即した平均を算出できるためです。特に、PERやPBRのような比率が異なる企業やデータを評価する際に、調和平均はより信頼性の高い結果を提供します。
ウィンザライズド平均(Winsorized Mean)
データセットの外れ値の影響を抑えるために、極端に大きいまたは小さい値を調整してから算出する平均値のことです。極端な外れ値が平均に大きく影響するのを防ぎ、より安定した平均を得るために使われます。
ウィンザライズド平均の特徴
ウィンザライズド平均の特徴をご紹介します。
ウィンザライズド平均のメリット
1. 外れ値の影響を減少させる
極端な値の影響を完全に排除するのではなく、適度に調整することで、データの全体的な傾向を保持しつつ、外れ値による影響を和らげます。
2. データの分布を損なわない
トリミング平均のようにデータを完全に除外するのではなく、極端な値を調整してから含めるため、分布全体の構造を維持できます。
3. バランスの取れた結果
外れ値の影響を和らげつつ、データセットの中で正当な値も含むため、よりバランスの取れた平均を得られます。
ウィンザライズド平均のデメリット
1. データの変更
実際のデータを変更して平均を計算するため、完全にデータをそのまま扱う場合と異なる結果が出ることがあります。
2. 適用範囲の選択が難しい
上位・下位何パーセントをウィンザライズド(変換)するかはデータによって異なり、その設定が結果に大きく影響します。設定が適切でないと、実際の傾向を見誤る可能性があります。
ウィンザライズド平均の計算手順
1. 外れ値のカットオフポイントを設定
データの上位および下位の一定割合を決め、その範囲の外れ値をWinsorize(変換)します。例えば、上位5%と下位5%をカットオフする場合、上位5%の値はその残りの最大値に、下位5%の値は残りの最小値に置き換えます。
2. 極端な値を置き換える
カットオフ範囲の外にある値を、それぞれの範囲内の最大値や最小値に置き換えます。
3. Winsorizedデータで平均を計算
外れ値が置き換えられた後のデータで、通常の算術平均を計算します。
ウィンザライズド平均を使った具体例
例えば、データ2、3、5、7、9、20、100というデータがあるとします。
直感的に、100に引っ張られて算術平均に大きな影響を与えることがわかると思います。この100を外れ値と言います。
算術平均は、(2+3+5+7+9+20+100)/7 = 20.86ですね。
次に5%のウィンザライズド(変換)を適用して見ます。上位5%、下位5%(この場合両端1つずつの値)を置き換えます。
• 最大値100を次に大きい値20に置き換えます。
• 最小値2を次に小さい値3に置き換えます。
そうすると、データは3、3、5、7、9、20、20になります。
ウィンザライズド平均は、(3+3+5+7+9+20+20)/7 = 9.57となり、より実際のデータに近い平均が得られました。
ウィンザライズド平均(Winsorized Mean)は、データの外れ値の影響を抑えながらも、全体の傾向を反映するために用いる平均値の計算方法です。特に、外れ値が頻繁に発生するデータ(財務データ、株価データなど)で役立ち、データの安定性や信頼性を高めるために使われます。
トリム平均(Trimmed Mean)
ウィンザライズド平均と似たもので、トリム平均(Trimmed Mean)があります。
トリム平均(Trimmed Mean)は、データの一部(主に両端の外れ値)を除外してから算出される平均値です。外れ値がある場合、データ全体に対する影響を抑えるため、両端の一定割合のデータを切り捨て、残りのデータだけで平均を計算します。これにより、極端な値に引っ張られにくく、データの代表的な傾向をより正確に表現できる方法です。
トリム平均の特徴
トリム平均の特徴をご紹介します。
トリム平均のメリット
1. 外れ値の影響を除去
外れ値を完全に除去するため、極端な値がデータ全体の平均に与える影響を排除できます。
2. 代表的な値の精度向上
データの中心的な傾向を強調することができ、外れ値が少数の場合に有効です。
3. 柔軟性
除外する割合を自由に調整できるため、データの性質に応じて外れ値の影響をどの程度除去するか決められます。
トリム平均のデメリット
1. データの一部が無視される
外れ値を削除することで、その値がもつ意味や重要性が無視される可能性があります。
2. 除外の基準が恣意的
どれだけの割合を削除するかは主観的な判断に基づくため、その設定によって結果が大きく異なる可能性があります。
3. データの分布に依存
データが広くばらついている場合、トリム平均が正確に中心的な傾向を反映しない可能性もあります。
トリム平均の計算手順
1. 外れ値を切り捨てる割合を設定
例えば、上位5%と下位5%を削除する場合は「5%トリム平均」となります。
2. データを並べ替える
データセットを小さい順に並べ替えます。
3. 指定した割合のデータを両端から削除
設定した割合の上位と下位のデータを削除します。
4. 残りのデータで平均を計算
外れ値を除いた残りのデータだけで平均を計算します。
トリム平均を使った具体例具体例
ウィンザライズド平均と同じように、データ2、3、5、7、9、20、100というデータがあるとします。
トリム平均では、例えば5%のトリム平均を計算する場合、両端の5%(この例では、最小値と最大値)を削除します。この場合、最小値の2と最大値の100を削除し、残りのデータで平均を取ります。
削除後のデータは3、5、7、9、20となりますね。このデータで算術平均を計算します。
トリム平均は、(3+5+7+9+20)/5 = 44/5 = 8.8となりました。
トリム平均の用途
Trimmed Meanは、特にデータセットに極端な外れ値が含まれている場合や、平均が外れ値によって歪んでしまう場合に使われます。以下のようなケースで有効です。
財務データ
企業の利益や株価などに極端な変動がある場合、トリム平均を使うことで外れ値の影響を除去し、より一般的な傾向を把握できます。
経済データ
物価指数や所得データの平均を取る際、非常に高い所得や物価の影響を除外するために使われます。
統計分析
データセット全体の傾向を把握しつつ、異常値を除去して分析結果を安定させるために使用されます。
まとめ
平均は、データ全体の特徴を簡潔に表現するための基本的な統計指標で、データの傾向や中心的な位置を知るために重要です。ただし、データの性質や目的によって、どの平均を使うべきかは変わるため、状況に応じて適切な平均を選択する必要があります。