「ゼロから作るDeepLearning」で気づいたこと

3.6.3 バッチ処理

以下の計算過程をもう少し詳しく記述してみた。

図 3-27 バッチ処理における配列の形状の推移

ここで、 W1、W2、W3での行列の演算結果をそれぞれ、a1、a2、a3とすると、

a1 = X・W1 ⇒ 100(行)×50(列)

従って、

 

W1とW2の間の演算は

a2 = a1・W2 ⇒ 100(行)×100(列)

 

W2とW3の間の演算は

a3 = a2・W3 ⇒ 100(行)×10(列)

 

出力層Yへは活性化関数hを適用して

Y = h(a3) ⇒ 100(行)×10(列)