「ゼロから作るDeepLearning」で気づいたこと
3.6.3 バッチ処理
以下の計算過程をもう少し詳しく記述してみた。
ここで、 W1、W2、W3での行列の演算結果をそれぞれ、a1、a2、a3とすると、
a1 = X・W1 ⇒ 100(行)×50(列)
従って、
W1とW2の間の演算は
a2 = a1・W2 ⇒ 100(行)×100(列)
W2とW3の間の演算は
a3 = a2・W3 ⇒ 100(行)×10(列)
出力層Yへは活性化関数hを適用して
Y = h(a3) ⇒ 100(行)×10(列)