「データサイエンス基礎(DS基礎)」とは、一般財団法人である統計質保証推進協会が認定している「統計検定」の中の1資格です。
統計検定のDS資格は、近年注目度の高まっているデータサイエンスについて、統計学とデータハンドリングの両面から理解度をはかる資格で、DS基礎はその中で最も入門向けのものです。
この記事ではデータサイエンス基礎(DS基礎)について、試験の概要や学習方法について解説します。
目次
データサイエンス基礎(DS基礎)とは?
統計検定のデータサイエンス基礎(DS基礎)は、2021年から試験が開始された新しい資格です。
データサイエンスについて、その基礎となる統計学を中心に能力を問う問題が出題されます。
ExcelやPythonの操作やモデル選択などの実務的な内容を身につけることができるため、学習内容を実際のデータ分析業務に活用したい場合は、統計検定のデータサイエンス資格の取得を目指すと良いでしょう。
試験中にもExcelでの実技が必要になる点が特徴で、DS基礎ではピボットテーブルや各種関数 (AVERAGE, VARなど) など、実際にExcelを使ったデータハンドリングをして分析を行い、解答する問題が出題されます。
DS基礎は、データサイエンスの技能と思考力を評価する試験の中では最も難易度が低いため、データ分析の初学者にもおすすめの資格です。
求められる数学知識
DS基礎では、大学入試レベルにあたる確率や線形代数(行列やベクトル)、微積分といった内容が含まれます。
これは、統計検定では3級から2級に相当する数学知識です。
もっとも、DS基礎では理論的な部分を問われるというよりは、これらの数学を下敷きにしたデータハンドリングや解析手法の理解度を問われることが多いです。
数式の持つ意味や、Excelでのどのような処理に対応するのかを意識して学習すると良いでしょう。
統計検定のデータサイエンス資格
統計検定では、「DS基礎」「DS発展」「DSエキスパート」3つのデータサイエンス関連資格があります。
これらのうち、DS基礎はもっとも難易度の低い入門用の資格です。
試験の内容も、DS基礎はExcelを用いたデータハンドリングスキルが最重要視されるのに対し、DS発展以上では数学・統計の深い知識が求められます。
資格 | 求められる数学知識 | どんなスキルを証明できるか |
DS基礎 | 大学入試レベル | 実際のデータセットを目的に応じてハンドリングし、その結果を問う能力 |
DS発展 | 大学基礎課程レベル | 数理、情報、統計、倫理・AIに関する大学教養レベルの能力 |
DSエキスパート | 大学専門課程レベル | 計算、統計、モデリング、領域知識に関する大学専門レベルの能力 |
DSエキスパートは2022年9月よりスタートする新しい区分で、大学専門レベルの数学知識が要求される高度な内容となっています。
自身のスキルと知識に合わせて受験する資格を選択すると良いでしょう。
データサイエンス基礎の試験内容
DS基礎では以下の3つのスキルが問われます。
- データハンドリング技能
- データ解析技能
- 解析結果の適切な解釈
名称 | データサイエンス基礎 |
受験日程 | 通年 |
出題形式 | CBT (多肢選択と数値・文字入力) |
受験料 | 一般:7000円(税別) 学生:5000円(税別) |
問題数 | 45問程度 |
試験時間 | 90分 |
合格点 | 正答率60% |
試験会場のパソコン上でExcelを使って処理した結果を基に、多肢選択や数値・文字入力で問題に答える形式の試験です。
問題数は大問が8問で、それぞれ小問5問程度から構成されています。
出題の傾向
DS基礎では以下のような内容の問題が出題されます。
- 実際のデータセットをハンドリングし、その結果を問う問題
- 分析を実行しその結果を問う問題
- 分析結果を読み取り、文脈に応じた適切な解釈を問う問題
実際にExcelでデータをハンドリングすることが中心になる実践的な試験です。
出題範囲は下表の通りです。
大項目 | 小項目 | 求められるスキル |
データベース・データマネジ メント | データベースマネジメント | 分析目的に応じた構造化データ構築やデータ形式の変換、データ抽出等のデータ整理・整形ができる。 |
データベースマネジメント | データの種類や尺度を理解し、層別、水準(レベル)化、変数変換等のデータ処理ができる。 | |
データの可視化 | データの可視化 | データを目的に応じて可視化するための統計グラフの作成と解釈ができる。 |
質的データの分析 | 1変量の質的データの分析 | 質的データを用いて、問題の可視化や現状分析のためのパレート分析(ABC 分析)ができる。 |
2変量の質的データの分析 | 2つ以上の質的データを用いて、連関分析や要因探索のためのクロス集計表の分析ができる。 | |
量的データの分析 | 1変量の量的データの分析 | 量的データを用いて、問題の可視化や現状分析のためにデータの分布構造を分析できる。 |
2変量以上の質的データ の分析 | 2つ以上の質的データや量的データを用いて、要因探索のための分布の比較や相関分析、単(重)回帰分析による予測モデル構築ができる。 | |
確率による意思決定 | 確率と確率分布 | 確率と確率分布による推測の考え方を理解し、シミュレーションを実行できる。 |
推定 | 標本変動と誤差を理解し、母集団特性値の推定ができる。 | |
検定 | 仮説検定の考え方を理解し、文脈に応じた検定を行い、結果の適切な解釈ができる。 | |
時系列データの分析 | 時系列データの分析 | 時系列データの構造を理解し、特徴を分析できる。 |
テキストマイニング | テキストマイニング | テキストマイニングの意味を知り、単語や品詞の出現頻度を分析できる。 |
統計検定 CBT「データサイエンス基礎」 出題範囲表より抜粋
データサイエンス基礎の受験資格
統計検定はいずれの難易度も受験資格が設けられていません。
DS基礎を含めたデータサイエンス関連資格も、どのレベルからでも受験が可能です。
統計検定のデータサイエンス資格は「DS基礎」「DS発展」「DSエキスパート」の3種があります。
自分に合った難易度から受験を目指すと良いでしょう。
データサイエンス基礎の難易度
DS基礎試験の難易度は、経験者にとっては比較的易しいと言えるでしょう。
一方、統計学やエクセルによるデータ処理に慣れていない場合は難易度が高くなります。
DS基礎試験では大学入試レベル相当の数学知識と、Excelを用いたデータ処理スキルが必要になります。
未経験の場合はその両方を学習する必要があるため、しっかりと学習時間を確保しておきたいところです。
DS基礎試験の合格率は公開されていません。
ですが、DS基礎の難易度は統計検定2級よりやや易しい程度と言われています。
統計検定2級の2021年の合格率はそれぞれ34.1%でしたので、DS基礎の合格率は40-50%前後と予想されます。
統計検定2級以上を取得済みの場合は難易度が大幅に下がる
DS基礎で求められる統計学の知識は統計検定3級から2級相当といわれています。
統計検定2級以上をすでに取得している場合は、内容の復習とExcelによるデータ処理の練習で試験範囲をカバーできるため、学習時間を大幅に短縮できるでしょう。
また、業務などでExcelを用いたデータ処理など経験がある場合は、さらにハードルが下がります。
データサイエンス発展(DS発展)などの上位の資格からの挑戦も視野に入るでしょう。
データサイエンス基礎の勉強方法
DS基礎の学習は、大きく分けて統計学の理論を学習するパートと、Excelを用いた処理の仕方を学ぶパートに分けられます。
そのため、統計学の事前知識によって勉強の仕方や所要時間が大きく異なってきます。
DS基礎の学習時間の目安は以下の通りです。
- 統計検定2級以上の保有者:20時間程度
- データサイエンス未経験者:40〜60時間程度
統計学の知識がある場合はExcelによる統計処理を学び、未経験で1から学習する場合はまず統計学の基礎知識を一通り学んだあと、Excel処理をしながら理解を深めていく学習方法をお勧めします。
DS基礎試験は、公式の参考書や過去問がありません。
統計の理論部分の理解を深めたい場合は、統計検定2級の公式テキストである「統計学基礎(東京図書刊)」を用いると良いでしょう。
データのハンドリングについては、公式から提供されているサンプルデータセットを用いて処理方法を学ぶことができます。
統計学未経験から学習する場合
未経験からDS基礎の学習をする場合、まずは統計学で用いられる手法や数式について把握し、そのあと実際に手を動かしながら学習する方法が知識も定着しやすいためおすすめです。
先ほど挙げた「統計学基礎(東京図書刊)」のうち、DS基礎の試験範囲に当たる内容にひととおり目を通し、量的データや質的データ、確率分布といった統計知識を習得しましょう。
もっとも、本書は内容が初学者向けではなく、理解が難しい内容が多くあります。
より入門向けの一般書籍として、「ゼロから始める 統計入門(マイナビ出版)」をおすすめします。
こちらの書籍はDS基礎の試験範囲をカバーしており、さらにExcelを使いながら学習を進めていく構成になっています。
複雑な数式も少なく直感的に理解できる内容なので、初学者から統計処理に必要な理論をわかりやすく身につけることができます。
本書で理解を深めた後、不足している部分を「統計学基礎」を確認して知識を定着させると良いでしょう。
ある程度データ処理の手法が理解できたら、公式のサンプル問題や学習サービスなどで提供されているデータセットを用いて、実際に分析をしてみましょう。
Excelを用いたデータ処理は慣れが必要なので、わからない部分を調べながらどんどん実践してみることが重要です。
統計検定2級以上を保有している場合
統計学の基礎知識が十分にある場合は、主にExcelを用いたデータ処理の演習を行うことになります。
データのソートやデータの可視化といった基礎的な内容に加え、欠損数の確認、変数変換などの統計処理に必要な関数を理解し、自在に呼び出せるようにする必要があります。
また、データ分析ツールを使用した統計量の算出など、Excelの操作方法を覚える必要があるので、さまざまなデータデットを用いてどんどんデータ処理の経験を積むといいと思います。
まとめ
統計検定DS基礎は、データサイエンスの基本となる統計学の知識と、Excelを用いたデータ処理のスキルを問う資格です。
理論を押さえながら実務的なデータハンドリングスキルも身につけることができる実践的な内容となっており、勉強で身につけたExcelでのデータ処理は、実務でもすぐに生かすことができます。
業務に直接活用できる知識を習得できる点でも、DS基礎は非常に良い資格と言えるでしょう。
本記事を参考に、ぜひ取得を目指してみてはいかがでしょうか。