読者です 読者をやめる 読者になる 読者になる

統計検定2級の勉強前・つまずいた時に知りたかったこと

統計検定は2012年に開始した総務省後援の検定で、半年に1回のペースで試験があります。1級から4級までありますが、特に2級は本格的に統計学っぽくなる級で、大学1・2年生が授ける統計学入門の授業レベルということもあって、20代前半を中心に文系も理系も学生から社会人までいろんな背景の方が受験しているようです。公式の発表によると2016年の年間受験者は3500人超でした。なお、2016年から2級まではいつでも好きなときに受験できるようになりました。

受検の動機は様々だと思いますが、筆者の場合は、数年前から流行っているデータサイエンスに乗り遅れないようにと思ったからです。高校卒業以来、まったく数学に触れておらず、時代に取り残さてる感がずっとあったので、一念発起して2016/6に2級を受検しました。結果は合格だったのですが、かなり苦戦しました。

その経験を踏まえ、「統計学は初めて」っていう方向けに、「勉強前に知っていたらもっと楽だったな」と思うことや、「勉強中に聞いたらもやもや感が少しはすっきりしたかも」と思うことをまとめてみました。参考にしていただけたら幸いです。

勉強前に知りたかったこと

統計学はしんどい

さあ勉強しようと思っったときに筆者が真っ先にやったことは、ネットで体験談・おすすめの書籍を検索することでした。「統計検定2級」で検索して上位5件くらいを全部読めば大体感じはつかめると思います。でも自分に合った書籍がどれなのかは、スタートラインが同じ人がいないからわかりませんでした。自分はマンガの入門書から始めた方がいいのか、大学の教科書っぽいやつから始めた方がいいのか。「文系」さんの記事が人気みたいですが、数学できる文系もいますし、もしかしたら東大生かもしれない。

だから自分に合う本が見つかるまで結構苦労しました。その過程で「そもそも2級に合格できる素養があるんだろうか」とか、「みんなこれを理解したのか、全然わかんないぞ」ってことも出てきて、「自分には数学の才能ないんじゃないか」とかいろいろ悩みました。ネットでは、書籍は紹介してるけど苦労話はあんまりない。でも統計学はしんどいものなんだと思います。もし「自分だけ?」と悩んでいる方がいたら、そんなことはないので安心してください。

本は何冊必要?

勉強に必要な本は目安として4冊あるかなと思います。

  1. 公式教科書(改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎
  2. 公式問題集(日本統計学会公式認定 統計検定 2級 公式問題集[2013〜2015年]
  3. しっかりした内容のメインとなる教科書
  4. 比較的ライトな初学者向けの読み物

①と②は必須でしょう。過去問は是非解きたいですよね。「統計検定の教科書」としては公式教科書しか現時点ではないのでこれも必須でしょう。ただ、この公式教科書は評判が悪くて、よくまとまってはいるのですが初学者には難しいと言われています。だからこれは試験範囲の確認に用いる方が多いようです。ということで、公式教科書とは別に、③しっかりした内容のメインとなる教科書と、「いきなり数式は」という方の場合は、④比較的ライトな初学者向けの読み物が必要かなと思います。

「4冊」はあくまで目安なので、実際は「メイン」が2冊だったり「ライト」が2冊だったりしてもいいですし、逆に「ライト」をなしにしたり、「メイン」が充実していれば公式教科書も読まなくていいと思います。なので一番労力を少なくしたいのであれば②公式問題集と③「メインの教科書」の2冊でもいいかもしれません。ただ難易度は高いと思います。

③「メイン」と④「ライト」は何を読んだらいいのかについては、「統計検定2級」でググって自分に合いそうなやつを探してください。できれば立ち読みして選べたらいいと思います。
(実際に筆者が使用した書籍も後述しますのでよかったら参考にしてください。)

理想の勉強期間は3ヶ月

「勉強期間くらい自分で考えるわ!」って言われそうですが、言いたいのは「結構余裕をもって期間設定した方がいい」ということです。自分がどのくらいできるか事前にわかりませんし。ネットでは、3級合格してから24時間の勉強時間で2級に合格した方や、新卒で1ヶ月で合格した方、2ヶ月で合格した文系OLさんがいらっしゃいました。

まあ、他の勉強とかフルタイムの仕事してたら1ヶ月とかきついですよね。2ヶ月の場合は、1ヶ月勉強して手応えない場合に、残り1ヶ月しかなくて焦ると思います。とはいえ3ヶ月超えてくると続けられるか不安になりますよね。実力から逆算できればいいですが、統計学初めてっていう方はそれも難しいでしょうし、もろもろ考えると理想の勉強期間は3ヶ月ではないでしょうか。もちろん試験日まで期間に余裕がある場合の話ですが。

期間が決まったら、あとはその期間の中で最初は続けられるペースで初めて、調子をみて濃くしたり薄くしたり調整すればいいのかなと思います。
3ヶ月の過ごし方のイメージは↓のような感じです。参考にしてみてください。

1ヶ月目 ・比較的ライトな入門書で様子見
・自分に合うメインとなる教科書を読み始める
2ヶ月目 ・メインとなる教科書を継続して何周か読む
・ゴールを明確にするために公式問題集を1回分は解いてみる
・わかんない箇所があってもいいので、試験範囲の確認の意味で公式教科書を通しで何回か読んでみる
3ヶ月目 ・公式問題集を中心に据える
・「メイン」の復習
・公式教科書の復習

理解しよう・受け入れよう・諦めよう

いざ勉強を初めると「難しいな」と感じることがたくさん出てくるんですが、何が難しいって、100%の理解がどうしてもできないことなんですね。「ネットで体験談を書いている方たちはこれ全部理解したのかな」とか、「自分なんて」と思ってしまうんですが、合格した人でも100%なんて全然理解していません。公式の教科書だって「詳しくは1級の教科書に譲る」とかたくさん書いているし、それは1級の教科書でも同じことです。それじゃあ100%の理解は無理ですよね。

では合格した人たちは何ができていたかと言うと、

  1. 最低限理解しないといけない部分
  2. 理解できないけど、そういう文化として受け入れようという部分
  3. こんな文化受け入れられない、わかんない、諦めようという部分

この3つの線引きがうまくできた人なんだろうと思います。この線引きを意識して、最初から「全部理解しよう」ではなくて、少しずつ「理解できる部分」「受け入れられる部分」を増やしていければ、無理なく続けられるのかなと思います。そして、最終的に自分なりの落ち着く場所に線が引ければいいんだと思います。最良の教科書はこの線引きを向こうでやってくれているやつだと思いますが、出会えるかわからないですし、多くの人にとっては過去問解いたり教科書読んだりして自分で模索するしかないでしょう。

理想は80点

ということで100点を狙うのは大変だと思います。80点くらいを目指せばいいのではないでしょうか。

つまずいた時に知りたかったこと

筆者の場合、勉強を始めて1か月くらいの頃は、全体感がつかめなくてもやもやしていて、勉強が嫌になっていました。ここでは、そんなときに読んだら気持ちが楽になっていたなと思うことを想像してまとめてみました。「統計学関連の書籍を読んでみたけどなんかやもやする」という方のお役に立てればと思います。

確率分布は何個ある?

公式教科書でいうと「第2章 確率と確率分布」に該当します。一部「第7章 付録」の内容も含みます。

確率分布が何個も出てきてうんざりですよね。でも結局のところ、下記表だけ頭に入っていれば大丈夫だと思います。関数から平均と分散を自分で計算できたらいいのですが、時間がなければ覚えてしまってもいいと思います。

確率分布名 分布の意味 離散/連続 確率(/密度)関数 平均 分散
二項分布 1回当たりの成功確率がpの試行をn回行ったときの成功回数xの分布 離散 {_n C _x p^x (1-p)^{n-x}} {np} {np(1-p)}
ベルヌーイ分布 n=1の二項分布 離散 {p} {p} {p(1-p)}
ポアソン分布 np=λ(固定)、n→∞、p→0の二項分布 離散 {e^{-λ} \frac{λ^x}{x!}} {λ(=np)} {λ(=np)}
幾何分布 1回当たりの成功確率がpの試行でx-1回目まで失敗してx回目で初めて成功したときのxの分布 離散 {p(1-p)^{x-1}} {\frac{1}{p}} {\frac{1-p}{p^2}}
一様分布 確率変数の幅を固定した場合にどこでも確率が一定となる分布 離散/連続 {\frac{1}{b-a} (a \leq x \leq b)} {\frac{a+b}{2}} {\frac{(b-a)^2}{12}}
指数分布 単位時間当たりの生起回数が期待値λのポアソン分布に従うような事象が初めて生起するまでの待ち時間tの分布 連続 {λe^{-λt}}
({1-e^{-λt}}微分)
{\frac{1}{λ}} {\frac{1}{λ^2}}
超幾何分布 M個の赤玉とN-M個の白玉から同時にn個取り出した中に含まれる赤玉の個数xの分布 離散 {\frac{_M C _x × _{N-M} C _{n-x}}{_N C _n}} 省略 省略
負の二項分布 1回当たりの成功確率がpの試行をr回成功するまで繰り返したときの失敗回数xの分布 離散 {_{x+r-1} C _x p^r (1-p)^x} 省略 省略

離散型の場合は確率関数、連続の場合は確率密度関数ですね。
正規分布は特殊なので載せませんでした。確率密度関数も2級では覚えなくてよいと思います。
多項分布は二項分布の拡張版ですが、こちらも覚えなくてよいと思うので、載せませんでした。

カイ2乗?、t?、F?

公式教科書だと「第3章 統計的推定」〜「第4章 統計的仮説検定」に該当します。

私見ではカイ2乗分布、t分布、F分布の3つが2級の中心になります。これらさえ使えるようになれば2級の内容はわかったようなものです。
筆者はこのt分布で躓きました。t検定の説明で「母分散が未知の場合は母分散を標本不偏分散で置き換えてt検定をしてください」って書いてあったりしますが、なんだか都合よすぎて全然受け入れられませんでした。t分布の定義をちゃんと読まなかったからいけなかったと反省しています。

ではこれらは何者なのか。先の表にまとめた二項分布のような確率分布は「分布の意味」が直感的に理解でき、確率変数の意味から確率(/密度)関数を導出できました。でもカイ2乗分布、t分布、F分布は、同じく確率分布ではありますが、ちょっと毛色が違っていて、「こんなのあったら便利だよね」くらいのノリで編み出されたものです。何に便利かといえば、検定や推定をするときに便利なんですね。

検定だろうと推定だろうとやることは3つだけです。

  1. 既知の確率分布を利用して、問題文で与えられた確率(5%や95%など)から確率変数の範囲を決める
  2. 前提や仮説から計算した確率変数の値を求める
  3. 上記2つを比較する

この「範囲」が、区間推定の場合は信頼区間って呼ばれていて、検定の場合は棄却域と呼ばれているだけの違いです。

ここで「既知の確率分布」って何だってことですが、確率分布であれば何でもいいのですが、現実の現象に適用できるものじゃないと役に立ちません。ここで正規分布が登場します。どんな分布に従う確率変数だろうと、それらをたくさん集めて平均したら正規分布に従っちゃうなんていう最強の確率分布が正規分布で(中心極限定理)、これが現実の現象によく当てはまるんですね。

で、この正規分布を使って「与えられた確率から確率変数の範囲を決めたい」のですが、自分で計算するのは大変なので、確率と確率変数の変換表があったら便利。でも正規分布自体は平均も分散もいろんな値を取れるから、変換表も無限に必要になる。だから確率変数を標準化して、平均や分散がどんな値のときでも同じ変換表を使えるようにしましょうということで、標準正規分布があるわけです。ここで初めて公式教科書の最後の方にある「付表」が使えるようになります。

確率変数の範囲を決めたら、次にその範囲と「前提や仮説から計算した確率変数の値」を比べるのですが、標準正規分布の場合、母分散と母平均がないと確率変数を計算できません。でも、どんな場面でもこの2つが揃っているとは限らない。だから標準正規分布とは別に、母分散と母平均の組み合わせ以外で確率変数を計算できるような「便利な」確率分布が他にあったいいなということで、カイ2乗分布、t分布、F分布が登場します。

どれも標準正規分布から順番に導出されるので、現実の現象によく当てはまります。また、標準化されているので、t分布であればt分布用の変換表がひとつに決まります。これを使えば「与えられた確率から確率変数の範囲を決める」ことができます。あとは確率変数を組み立てるときに使う部品がそれぞれ異なるので、場面に合わせて使う分布を変えればいいだけです。

標本分布について駆け足で説明しましたが、余計混乱させてしまったらすみません。
最後にそれぞれの分布の確率変数を記載します。標準正規分布が基礎になっていることを確認してください。
(記号の意味は公式教科書で確認してください。)

標準正規分布の確率変数

{
z = \frac{\overline{X}-μ}{\sqrt{σ^2/n}} (nが十分大きい場合) \\
z_i = \frac{X_i-\overline{X}}{σ} (確率変数X_iが正規分布に従う場合)
}

カイ2乗分布の確率変数

{
\begin{eqnarray*}
χ^2[n-1] &=& z_1^2 + z_2^2 + \ldots + z_n^2 \\
&=&\sum_{i=1}^{n} \frac{(X_i-\overline{X})^2}{σ^2} \\
&=&\frac{1}{σ^2}(n-1) \left\{ \frac{1}{n-1}\sum_{i=1}^{n} (X_i-\overline{X})^2 \right\} \\
&=&(n-1)\frac{S^2}{σ^2}
\end{eqnarray*}
}

t分布の確率変数

{
\begin{eqnarray*}
t[n-1]  &=& \frac{z}{\sqrt{χ^2[n-1]\frac{1}{n-1}}} \\
&=&\frac{\overline{X}-μ}{\sqrt{σ^2/n}} \frac{1}{\sqrt{(n-1)\frac{S^2}{σ^2}\frac{1}{n-1}}} \\
&=& \frac{\overline{X}-μ}{\sqrt{S^2/n}}
\end{eqnarray*}
}

確かに標準正規分布の確率変数におけるσをS(不偏分散)で置き換えたものがt分布の確率変数になっていますね。
でもただ「置き換えた」という表現は正しくなくて、t分布の定義式から結果としてそういう形になるということなんですね。

F分布の確率変数

{
\begin{eqnarray*}
F[m-1,n-1] &=& \frac{χ^2[m-1]/m-1}{χ^2[n-1]/n-1} \\
&=& \frac{(m-1)\frac{S_1^2}{σ_1^2}\frac{1}{m-1}}{(n-1)\frac{S_2^2}{σ_2^2}\frac{1}{n-1}} \\
&=& \frac{S_1^2}{σ_1^2} \frac{σ_2^2}{S_2^2}
\end{eqnarray*}
}

検定は何個ある?

公式教科書だと「第4章 統計的仮説検定」と「第6章 その他の分析法」に該当します。

検定の説明を読んだとき、「~の場合」という記述がたくさん出てきて、「もう勘弁してくれ」ってなりました。なのでせめて一覧にしてみようと思います。
証明したいこと=対立仮説({H_1})があって、それをひっくり返したのが帰無仮説({H_0})。さらに帰無仮説と前提(問題文)からどの検定統計量が組み立てられるかによって、使える検定が決まります。

教科書的には「~の検定」を1列目に持ってくるのでしょうが、日本語が嫌いなので、あえて帰無仮説を1列目に持ってきました。なお、統計検定量の導出過程を意識できるように、帰無仮説を用いてさらに計算できる場合でも敢えて途中経過を記載しています。

帰無仮説 {H_0} 統計検定量 検定名 説明
{μ=μ_0} {\frac{\overline{x}-μ_0}{\sqrt{σ^2/n}}} z検定 ・母分散が既知の場合の母平均の検定
{μ=μ_0} (σ未知) {\frac{\overline{x}-μ_0}{\sqrt{\hatσ^2/n}}} 自由度n-1のt検定 ・母分散が未知の場合の母平均の検定
{σ^2=σ_0^2} {(n-1)\frac{\hatσ^2}{σ_0^2}} 自由度n-1のカイ2乗検定 ・母分散の検定
{p=p_0} {\frac{n\hat{p}-np_0}{\sqrt{np_0(1-p_0)}}} z検定 ・母比率の検定
{μ_1=μ_2} {\frac{(\overline{x}-\overline{y})-(μ_1-μ_2)}{\sqrt{\frac{σ_1^2}{m} + \frac{σ_2^2}{n}}}} z検定 ・母分散が既知の場合の母平均の差の検定
({σ_1 = σ_2}の場合もある)
{μ_1=μ_2} (σ未知) {\frac{(\overline{x}-\overline{y})-(μ_1-μ_2)}{\sqrt{\frac{\hatσ_1^2}{m} + \frac{\hatσ_2^2}{n}}}} 自由度n-1のt検定 ・母分散が未知の場合の母平均の差の検定
({\hatσ_1 = \hatσ_2}の場合もある)
・対応のある2標本の場合の母平均の差の検定
{σ_1^2=σ_2^2} {\frac{\hatσ_1^2}{σ_1^2}\frac{σ_2^2}{\hatσ_2^2}} 自由度m-1, n-1のF検定 ・母分散の比の検定
{p_1=p_2} {\frac{n\hat{p}-np_0}{\sqrt{np_0(1-p_0)}}} z検定 ・母比率の差の検定
{P(A_i)=p_i} {\sum_{i=1}^{k} \frac{(O_i-E_i)^2}{E_i}} 自由度k-1のカイ2乗検定 ・適合度のカイ2乗検定
{P(A_i \cap B_j)=P(A_i)P(B_j)} {\sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(O_{ij}-E_{ij})^2}{E_{ij}}} 自由度(r-1)(c-1)のカイ2乗検定 ・独立性のカイ2乗検定

線形モデル分析も帰無仮説がキモ

公式教科書だと「第5章 線形モデル分析」に該当します。

線形モデル分析でも検定が登場しますが、既述の表には含めませんでした。2級では、t値やF値が与えられていている状況で回帰係数の有意性やモデルの優劣を判定する問題に対応できればよいと思います。ただ、t値やF値が何を意味するのかがわからないと解けないので、そこだけまとめてみました。混乱したら帰無仮説を思い出してください。

モデル 統計検定量 帰無仮説 {H_0} 示したいこと(対立仮説 {H_1})
線形単回帰モデル t値 {β=0} 説明変数xが役立つかどうか
線形重回帰モデル t値 {β_j=0} 説明変数{x_j} が役立つかどうか
線形重回帰モデル F値 {β_1=\ldots=β_p=0} 説明変数の中にひとつでも役立つ変数があるかどうか
分散分析モデル F値 {α_1=\ldots=α_a=0}
({μ_1=\ldots=μ_a})
水準間で母平均(効果)に差があるか

おまけ1(勉強方法の一例)

勉強時間など

スタートライン 某大学理学部入学程度
(諸事情でその後一切数学・統計学には触れていない状態)
勉強期間 3ヶ月
ペース 週2〜3日、1日3時間程度
正答率 2/3

時間かけた割に点が低い。こういう人もいます。優秀な方ならもっと短期間で高得点が取れるんでしょうね。
理学部なので数学は得意なはずでしたが、10年近いブランクがありますし、統計学は独特な世界なので、先に述べた通り大変苦戦しました。
スタートもゴールもみんな違うはずなので、人の体験談は本当おまけ程度に聞くのがいいと思います。

最初の1ヶ月

試験の3ヶ月前に受検しようと思い立ったので期間は3ヶ月でした。
教材どうしようと思って、とりあえず体験談を読みました。

文系人間がゼロから統計検定2級を取るための最短ルート:けっこんしきごっこ。
文系OLが統計検定2級に合格するまで - ぽんこつOLのあかるい毎日

紹介されている書籍の数が多いのでかなり参考になるはずです。
統計学を知らなかったので、とりあえずここで紹介されていた書籍の中から簡単そうな2冊を買って、最初の1ヶ月で読みました。

本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本

本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本

よくわかる心理統計 (やわらかアカデミズム・わかるシリーズ)

よくわかる心理統計 (やわらかアカデミズム・わかるシリーズ)

感想は、どちも文字が多くて、途中で嫌になりました。なんだかもやもやだけが残ってしまいました。多分いい本なんでしょうけど、人によって合う合わないがあるんだろうなと思います。統計学と一概に言っても、心理学や経済学、社会学などの文系から入る人と、理系から入る人に分かれているので、万人向けの書籍は難しいでしょう。上記2冊は文系(特に心理学)向けのようです。

ということで正直この1ヶ月はいらなかったなと思います。「検定と推定があるんだな」くらいはわかりましたが、問題を解けるレベルではなかったかなと思います。覚えなきゃいけないこと多いなという印象でした。

2ヶ月目

とにかくもやもやしていたので、とりあえず公式教科書を2周読みました。

改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎

改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎

これが曲者で、「理解しよう・受け入れよう・諦めよう」の線引きがとても難しくて、自分が悪いのか本が悪いのかもよくわからず、とにかくフラストレーションが溜まりました。特にt検定ってなんだっていう状況でした。

そこで、ネットで評判だったこちらの教科書も並行して1回通し読みしました。

統計学入門 (基礎統計学)

統計学入門 (基礎統計学)

数式も多いですし、統計検定用に書かれたものではなかったので、全部頭に入れるというよりは参考書として読みました。
所々飛ばしながら読みましたが、説明の粒度が自分に合っていたのか、これのお陰でt検定がわかりました。

とにかく2ヶ月目はもやもやから始まりましたが、「全部理解できなくていい」「試験で点が取れる程度にわかっていることが重要」と思ったので、公式問題集を2回分解いてゴールを明確にしました。
この段階では「自力で解けなくても答えを見て理解できればいいや」と思ってやっていました。

日本統計学会公式認定 統計検定 2級 公式問題集[2013〜2015年]

日本統計学会公式認定 統計検定 2級 公式問題集[2013〜2015年]

最後の1ヶ月

知識が抜けないように公式教科書を2・3周読みました。ここで最終的な「理解しよう・受け入れよう・諦めよう」の線引きをしていった感じです。
2ヶ月目から始めた問題集も最終的に2年分を解きました。わからない問題がなくなるまで繰り返し3周解きました。

最後の1週間

公式教科書と公式問題集でマークした部分の復習をしながら、「勉強が嫌になった時に知りたかったこと」に記載したような表を作成しました。試験直前の確認にも使いました。

おまけ2(電卓について)

受験票に持ち物が書いてあるのですが、その中に電卓があります。
電卓なんて普段使わないので検定を期に購入するという方も多いのではないかと思いますが、何でもいいわけではないみたいです。

使用可の電卓
四則演算(+-×÷)や百分率(%)、平方根(√)の計算ができる一般電卓又は事務用電卓
使用不可の電卓
上記の電卓を超える計算機能を持つ関数電卓やプログラム電卓、電卓機能を持つ携帯端末
統計検定 2級|統計検定:Japan Statistical Society Certificate

要は簡単なやつでいいみたいですが、桁数が少ないと対応できない問題があるそうです。

表示桁数が多い電卓(12桁以上のもの)を買った方がよいでしょう
日本統計学会認定「統計検定2級」に合格しました - akiyoko blog

12桁なくても工夫すれば大丈夫かもしれませんが、不安な方は12桁以上のものを探しましょう。
筆者の場合、簿記検定の体験記を読んで、おすすめされていた電卓(↓)を購入しました。
(どの記事だったかは忘れてしまいました。)

カシオ スタンダード電卓 時間・税計算 ジャストタイプ 12桁 JF-120GT-N

カシオ スタンダード電卓 時間・税計算 ジャストタイプ 12桁 JF-120GT-N

結構するんですが、液晶の角度を変えられる点と、滑り止めがある点がいいです笑。もちろんソーラーです。
よかったら使ってみてください。