Python 3 データ分析試験の勉強方法

Python 3 データ分析試験の勉強方法

まず試験概要は下記になります。



認定テキストは下記です。

こちらを読み込めば大丈夫なのですが
完全に読み込むのは初学者にはきついです。
受験した記憶から出題された問題をまとめてみました!
※問題を持ち帰ることはできないので私の記憶の限り記載しています。
※過去問は配布されておりません。

1.データエンジニアの役割

機械学習の処理手順になります。
正しい手順を選択せよという問題がありました。
処理の流れを記憶しておきましょう。

  • データ入手
  • データ加工
  • データ可視化
  • アルゴリズム選択
  • 学習プロセス
  • 精度評価
  • 試験運用
  • 結果利用

2.pythonの基礎

例外処理についての問題です。
try exceptで行います。
例外が発生した場合はexcept節の中が実行されます。

文字列操作の問題です。
a = “ abcdef  ”
b= ”  abc def  “
print(a.split())
print(b.split())
以下のようにスペースで文字列を分割します。

リスト型となっています。


左右のスペースを削除する関数も覚えておきましょう。
a = “ abcdef  ”
b= ”  abc def  “
print(a.strip())
print(b.strip())

型はstrのままですね。

3.Jupyter Notebook

%または%%からはじまるマジックコマンドについての出題がありました。
%timeit・・・1行のプログラムに対して実行時間を計測してくれるコマンド
%%timeit・・・セル全体のプログラムに対して実行時間を計測してくれるコマンドとなっています。

4.数式を読むための基礎知識

対数関数の出題がありました。
y=logaXのような数式で表現される関数を対数関数といいます。
log₂8ならば2を3乗すれば8ですので答えは3となります。
log₄16ならば4を2乗すれば16ですので答えは2となります。

5.線形代数学

ユークリッド距離の問題がありました。
ピタゴラス定理を活用して直線的な最短距離を算出する問題です。
c² = a² + b²  っていう公式です。

ピタゴラス定理は3次元、4次元となっても成立します
d² = a² + b² + c²
e² = a² + b² + c² + d²


行列の掛け算についてです。
m × s の行列にs × n の行列を掛けるとm × n の行列になります。

6.基礎解析

下記のような微分の問題が出題されておりました。
ネイピア数eのx乗を微分したらどうなるか?
答えは変化なしとなります。

7.確率と統計

分散と標準偏差の定義は理解しておく必要があります。
データから平均値を引いた値を二乗します。
すべてのデータをそのようにしてデータ数で割った値が分散です。
その平方根が標準偏差となります。

相関係数についても理解しておきましょう。
相関係数はー1から1の間で変化します。
絶対値が1に近ければ相関が強く0に近ければ弱いといえます。

8.NumPy

Numpyの基礎的なところは下記で解説しています。

データの再代入についてです。
import numpy as np
a = np.array([1,2,3])
print(a)
a[2] = 4
print(a)

インデックス値[2]の値3を4に書き換えました。

9.pandas

pandasの基礎的なところは下記で解説しています。

10.Matplotlib

Pythonで主に2次元のグラフを描画するためのライブラリになります。
このライブラリについての問いもそこそこあったかと思います。

matplotlib.pyplot をインポートします。
import matplotlib.pyplot as plt

それからグラフ化したいデータを用意します。
ndarray形式で作成します。

import numpy as np
y = np.random.rand(5)
y = y*10
print(y)

以下のようにランダムなデータが出来上がりました。

それではこのデータをグラフ化します。
plt.plot(y)
plt.show()



x軸についてのデータも任意の値を設定することができます。
x = np.array([1,2,3,4,5])
plt.plot(x,y)
plt.show()

※y軸の値はランダム関数を利用していますので値は毎回変化します。