ここでは,掲載順データを用いた判別分析によって,きらら作品が2巻乙となるか3巻まで到達するかを判別する方法を紹介します.この方法によって,連載が始まって日が浅い作品が将来3巻以上続くか否かを予測することを目的としています.なお,このような将来予測に判別分析を用いることは不適である,などの指摘があるかもしれません.私も正直,付け焼き刃の知識で統計を行っているので,統計的に正しい手順を踏んでいるのかよく分かっていません.ですので,ここに書いてあることは鵜呑みにしないでご覧下さい.
それでは,2007年2月号から2014年11月号までのきらら本誌の掲載順データを用いて判別分析を行った例を紹介します.対象とする作品は,以下の作品です.
<2巻乙>
ダブルナイト,-そら-,こどもすまいる!,さくらりちぇっと,メロ3!,Sweet Home,PONG PONG PONG,境界線上のリンボ,ましゅまろ×タイフーンッ,≒-ニア・イコール-,うさかめコンボ!,少女公団アパートメント,Rainbow☆Starbow, JOB&JOY,プレフレ,女子大生生活様式,すいまさんといっしょ 以上17作品
<3巻以上>
けいおん!,ゆゆ式,うちのざしきわらしが,チェリーブロッサム!,スマイル・スタイル,さつきコンプレックス(見なし),しかくいシカク,箱入りドロップス,コドクの中のワタシ(見なし) 以上9作品
今回の判別分析では,2巻乙と3巻以上が「目的変数」となります.
ここで,判別分析の大まかな流れを示しておきます.
1.説明変数の設定
2.説明変数の選択
3.分析の実施(判別式の決定)
この手順に従い,まずは掲載順データから説明変数を設定します.
上のグラフは掲載回数と平均掲載順のグラフです.各作品が雑誌で単行本の発売を宣伝される時の掲載回数を第C回とし,これを基準に掲載回数を整理しています.このグラフを見ると,2巻乙と3巻以上の平均掲載順は,第C+3回以降に差が開いていることが分かります.このことを念頭に置き,説明変数を次のように設定しました.
・連載開始~第C回までの最高順位
・第C-11~C-1回における平均順位
・第C+3~C+7回における最高順位
・第C+3~C+7回における平均順位
・第C+3~C+7回における掲載順が17番より上位だった回数
・第C+3~C+7回における掲載順が16番より上位だった回数
(中略)
・第C+3~C+7回における掲載順が12番より上位だった回数
今回は,第C+7回までの掲載順データを用いて判別分析を行います.実際にはもっと多くのパターンで分析を行っているのですが,今回くらいのデータ量がないと精度の良い分析ができませんでした.
これらの中から,分析に用いる説明変数を選択します.まずは各説明変数と目的変数との相関比を求め,相関比の検定を行います.検定の結果,相関比が5%で有意となる説明変数のみを選択します.その後,説明変数間の相関係数を算出します.相関係数が0.9以上となる組み合わせが生じた場合は,2つの説明変数の相関比を比較して相関比が低い方を除外します.この手順を経て残った説明変数は次のようになりました.
・連載開始~第C回までの最高順位
・第C-11~C-1回における平均順位
・第C+3~C+7回における掲載順が17番より上位だった回数
・第C+3~C+7回における掲載順が14番より上位だった回数
この4つの説明変数を用いて判別分析を実施します.分析には,フリーソフトの「College Analysis」を使用しました.
判別分析は用いる変数が正規分布に従うことを前提としているため,分析の前に各変数の正規性検定を行いました.
その結果,Kolmogorov-Smirnov検定では全ての変数が正規性ありと見なせることが分かりましたが,Shapiro-Wilk検定では「第C+3~C+7回における掲載順が17番より上位だった回数」と「第C+3~C+7回における掲載順が14番より上位だった回数」に正規性が認められませんでした.ただし今回は,全ての変数に正規性があると見なし,判別分析を進めました.
分析の結果得られた判別係数,F検定値,p値は以下の通りです.
説明変数 |
判別係数 |
F検定値 |
p値 |
連載開始~第C回までの最高順位 |
0.58 |
0.98 |
0.333 |
第C-11~C-1回における平均順位 |
-0.83 |
4.18 | 0.053 |
第C+3~C+7回における掲載順が17番より上位だった回数 |
0.10 |
0.02 | 0.885 |
第C+3~C+7回における掲載順が14番より上位だった回数 | -3.31 | 13.67 | 0.001 |
定数 | 14.71 |
次に,p値が大きい説明変数を1つずつ除外しつつ分析を繰り返し,全てのp値が有意水準0.05未満になるまで続けます.
最終的に得られた判別分析の結果は以下の通りです.
説明変数 |
判別係数 |
2巻乙の平均値 |
3巻以上の平均値 |
平均値の差 |
符号 |
第C-11~C-1回における平均順位 |
-0.83 |
13.5 |
9.6 |
3.9 |
不一致 |
第C+3~C+7回における掲載順が14番より上位だった回数 | -3.31 |
1.1 |
4.0 |
-2.9 |
一致 |
この結果から,次のような判別式が得られました.
y = -0.59 x1 -3.21 x2 + 14.96
(x1は第C-11~C-1回における平均順位,x2は第C+3~C+7回における掲載順が14番より上位だった回数)
この式で求まる値(判別得点)が正であれば2巻乙,負であれば3巻以上と判別できるのですが,最後に符号逆転現象の有無を確認します.符号逆転現象は,説明変数相互で相関の高いものを使用した時に発生するもので,係数の符号と平均値の差の符号を比較することで確認します.
2つの説明変数のうち,第C-11~C-1回における平均順位では符号逆転現象が発生していたため,これを除外します.すると説明変数は1つだけになり,最終的に次のような判別式が得られました.
y = -1.91x + 4.83
(xは第C+3~C+7回における掲載順が14番より上位だった回数)
実際の判別得点と判別結果の一覧を以下にまとめます.
説明変数 |
第C+3~C+7回における 掲載順が14番より上位だった回数 |
判別得点 |
判別結果 |
<2巻乙作品> | |||
ダブルナイト |
1 |
2.92 |
2巻乙 |
-そら- |
0 |
4.83 |
2巻乙 |
こどもすまいる! | 3 |
-0.90 |
3巻以上 |
さくらりちぇっと |
0 |
4.83 |
2巻乙 |
メロ3! |
0 |
4.83 |
2巻乙 |
Sweet Home | 0 | 4.83 | 2巻乙 |
PONG PONG PONG! | 2 |
1.01 |
2巻乙 |
境界線上のリンボ | 1 |
2.92 |
2巻乙 |
ましゅまろ×タイフーンッ | 3 |
-0.90 |
3巻以上 |
≒-ニア・イコール- | 3 |
-0.90 |
3巻以上 |
うさかめコンボ! | 0 |
4.83 |
2巻乙 |
少女公団アパートメント | 2 |
1.01 |
2巻乙 |
Rainbow☆Starbow | 0 | 4.83 | 2巻乙 |
JOB&JOY | 1 | 2.92 | 2巻乙 |
プレフレ | 0 |
4.83 |
2巻乙 |
女子大生生活様式 | 0 | 4.83 | 2巻乙 |
すいまさんといっしょ | 2 | 1.01 | 2巻乙 |
<3巻以上作品> | |||
さつきコンプレックス | 4 | -2.81 | 3巻以上 |
コドクの中のワタシ | 3 | -0.90 | 3巻以上 |
うちのざしきわらしが | 1 |
2.92 |
2巻乙 |
スマイル・スタイル | 4 | -2.81 | 3巻以上 |
しかくいシカク | 5 | -4.72 | 3巻以上 |
チェリーブロッサム! | 5 | -4.72 | 3巻以上 |
箱入りドロップス | 5 | -4.72 | 3巻以上 |
けいおん! | 4 | -2.81 | 3巻以上 |
ゆゆ式 | 5 | -4.72 | 3巻以上 |
26作品中22作品は判別結果が実際と合致していたので,判別的中率は 100 × 22/26 = 85 % となります.
複雑な手順を踏んできましたが,「第C+3~C+7回における掲載順が14番より上位だった回数」が2以下であれば,その作品は2巻乙と判別されるという結果が得られました.
参考文献
菅民郎「ホントにやさしい多変量統計分析」,現代数学社.
福井正康「College Analysis で学ぶ 多変量解析」,福山平成大学.
あなたもジンドゥーで無料ホームページを。 無料新規登録は https://jp.jimdo.com から