誤差逆伝播法

伝播逆伝播誤差逆伝播バックプロパゲーションごさぎゃくでんぱほう誤差機械学習勾配降下法 backpropagation

誤差逆伝播法

2021/2/23 12:32:00

『Gradients without Backpropagation』誤差逆伝播法と制約条件の理論誤差逆伝播法の組織への応用あれ『はじめてのパターン認識第7章パーセプトロン型学習規則』あれ『深層学習 Part 2』微分の連鎖律を用いた誤差逆伝播法の導出誤差逆伝播法の導出 Cartesian Genetic Programmingにおける誤差逆伝播法の導出 Cartesian Genetic Programmingで生成したプログラムを誤差逆伝播で学習『Learning Multiagent Communication with Backpropagation』

深層学習誤差逆伝播法

『深層学習 Part 2』

2023/8/22 4:10:00

https://www2.kaiyodai.ac.jp/~takenawa/learning/lecture_Part2.pdf

あれ

誤差逆伝播法遺伝的プログラミング

Cartesian Genetic Programmingで生成したプログラムを誤差逆伝播で学習

2023/9/18 20:18:00

あれあれあれ

誤差逆伝播法 Cartesian Genetic Programming 誤差逆伝播法の導出

Cartesian Genetic Programmingにおける誤差逆伝播法の導出

2023/9/6 2:09:00

まだ導出途中

Cartesian Genetic Programmingの模式図

準備

記号の準備

入力層の出力：$ x_i $
中間層の出力：$ y_j = f_j(x_{o(j)}, x_{p(j)}, a_j) $
出力層の出力：$ z_k = g_k(y_{m(k)}, y_{n(k)}, b_k) $

$z_k$の入力1：$y_{m(k)}$
$z_k$の入力2：$y_{n(k)}$

$y_j$の入力1：$x_{o(j)}$
$y_j$の入力2：$x_{p(j)}$

中間層のj番目のノードが持つ関数：$f_j$
出力層のk番目のノードが持つ関数：$g_k$

中間層のj番目のノードが持つ定数：$a_j$
出力層のk番目のノードが持つ定数：$b_k$

出力層の出力と教師信号からなる損失関数：$E$

ゴール

損失関数について中間層のj番目のノードが持つ定数$a_j$と出力層のk番目のノードが持つ定数$b_k$で微分

損失関数$E$を出力層の入力値で微分

$$ \frac{\partial z_k}{\partial y_{m(k)}} = \frac{\partial g_k(y_{m(k)}, y_{n(k)}, b_k)}{\partial y_{m(k)}} $$

$$ \frac{\partial z_k}{\partial y_{n(k)}} = \frac{\partial g_k(y_{m(k)}, y_{n(k)}, b_k)}{\partial y_{n(k)}}$$

$$ \frac{\partial z_k}{\partial b_k} = \frac{\partial g_k(y_{m(k)}, y_{n(k)}, b_k)}{\partial b_k}$$

$$ \frac{\partial E}{\partial y_{m(k)}} = \frac{\partial E}{\partial z_k} \frac{\partial z_k}{\partial y_{m(k)}}$$

$$ \frac{\partial E}{\partial y_{n(k)}} = \frac{\partial E}{\partial z_k} \frac{\partial z_k}{\partial y_{n(k)}}$$

$$ \frac{\partial E}{\partial b_k} = \frac{\partial E}{\partial z_k} \frac{\partial z_k}{\partial b_k}$$

$ \frac{\partial E}{\partial z_k} $の値はいい感じにプログラマが計算して与えるものとする。損失関数を数値微分しても良い。

損失関数$E$を中間層の入力値で微分

$j = m(k)$あるいは$j = n(k)$のときの$\frac{\partial E}{\partial y_j}$についてはすでに上にて計算済みであり、使いまわすことができる。

$$ \frac{\partial y_j}{\partial x_{o(j)}} = \frac{\partial f_j(x_{o(j)}, x_{p(j)}, a_j)}{\partial x_{o(j)}} $$

$$ \frac{\partial y_j}{\partial x_{p(j)}} = \frac{\partial f_j(x_{o(j)}, x_{p(j)}, a_j)}{\partial x_{p(j)}} $$

$$ \frac{\partial y_j}{\partial x_{o(j)}} = \frac{\partial f_j(x_{o(j)}, x_{p(j)}, a_j)}{\partial a_j} $$

$$ \frac{\partial E}{\partial x_{o(j)}} = \frac{\partial E}{\partial y_j} \frac{\partial y_j}{\partial x_{o(j)}} = \frac{\partial E}{\partial y_j} \frac{\partial f_j(x_{o(j)}, x_{p(j)}, a_j)}{\partial x_{o(j)}} $$

$$ \frac{\partial E}{\partial x_{o(j)}} = \frac{\partial E}{\partial y_j} \frac{\partial y_j}{\partial x_{o(j)}} $$

あれ Cartesian Genetic Programmingの模式図あれあれあれ

誤差逆伝播法

誤差逆伝播法の導出

2023/9/6 1:59:00

合っているかは保証しない。ちょっと自信がない。

前置き

ニューラルネットワークの構成

変数の整理

入力層の出力を$z_i$, 中間層の出力を$y_j$, 出力層の出力を$o_k$と置く。
入力層から中間層への重みを$ v_{ji} $, 中間層から出力層への重みを$ w_{kj} $と置く。
$f$をsigmoidなどの活性化関数と置く。

ニューロンの出力の計算

$$y_j = f({\sum_{i=1}^{I} v_{ji} z_i})$$

$$o_k = f({\sum_{j=1}^{J} w_{kj} y_j})$$

微分の伝播

損失関数を出力層の出力$o_k$で微分

教師信号を$t_k$, 損失関数を$L = \cfrac{1}{2}\sum_{k=1}^{K}(t_k - o_k)^2$と置くと、損失関数$L$を出力層の出力$o_k$について微分した関数は

$$\frac{\partial L}{\partial o_k} = -(t_k - o_k)$$

となる。

損失関数$L$についている$\cfrac{1}{2}$は、微分時に発生する2の乗算を打ち消し、微分後の数式を単純化して良い気分になるためについている。実用上はあってもなくても変化がない。学習率で調整される。

出力層の出力$o_k$を出力層の重み$w_{kj}$で微分

$$\frac{\partial o_k}{\partial w_{kj}} = \frac{\partial f({\sum_{j=1}^{J} w_{kj} y_j})}{\partial w_{kj}} = f'({\sum_{j=1}^{J} w_{kj} y_j}) y_j$$

損失関数を出力層の重み$w_{kj}$で微分

$$\frac{\partial L}{\partial w_{kj}} = \frac{\partial L}{\partial o_k}\frac{\partial o_k}{\partial w_{kj}} = -(t_k - o_k) f'({\sum_{j=1}^{J} w_{kj} y_j}) y_j$$

のちの計算のために、

$$\delta_{o_k} = -(t_k - o_k) f'({\sum_{j=1}^{J} w_{kj} y_j})$$

としておく。

出力層の重みの更新

最急降下法を用いて更新する。
$w_{kj}$の変量を$\varDelta{w_{kj}}$, 学習率を$\eta$と置くと、

$$\varDelta{w_{kj}} = - \eta \frac{\partial L}{\partial w_{kj}} = - \eta \delta_{o_k} y_j$$

となり、$w_{kj}$は

$$ w_{kj} = w_{kj} + \varDelta{w_{kj}} $$

のように更新する。

損失関数を中間層の出力で微分

$$\frac{\partial L}{\partial o_k} = -(t_k - o_k)$$

$$\frac{\partial o_k}{\partial y_j} = \frac{\partial f({\sum_{j=1}^{J} w_{kj} y_j})}{\partial y_j} = f'({\sum_{j=1}^{J} w_{kj} y_j}) w_{kj}$$

$$\delta_{o_k} = -(t_k - o_k) f'({\sum_{j=1}^{J} w_{kj} y_j})$$

より

$$\frac{\partial L}{\partial y_j} = \frac{\partial L}{\partial o_k} \frac{\partial o_k}{\partial y_j} = \frac{\partial \cfrac{1}{2}\sum_{k=1}^{K}(t_k - o_k)^2}{\partial o_k} \frac{\partial o_k}{\partial y_j} = \sum_{k=1}^{K}-(t_k-o_k) f'({\sum_{j=1}^{J} w_{kj} y_j}) w_{kj} = \sum_{k=1}^{K} \delta_{o_k} w_{kj}$$

となる。

損失関数を中間層の重みで微分

$$\frac{\partial y_j}{\partial v_{ji}} = \frac{\partial f({\sum_{i=1}^{I} v_{ji} z_i})}{\partial v_{ji}} = f'({\sum_{i=1}^{I} v_{ji} z_i}) z_i$$

$$\frac{\partial L}{\partial v_{ji}} = \frac{\partial L}{\partial y_j} \frac{\partial y_j}{\partial v_{ji}} = \sum_{k=1}^{K} \delta_{o_k} w_{kj} f'({\sum_{i=1}^{I} v_{ji} z_i}) z_i$$

簡単化のために

$$\delta_{y_j} = \sum_{k=1}^{K} \delta_{o_k} w_{kj} f'({\sum_{i=1}^{I} v_{ji} z_i})$$

と置くと、

$$\frac{\partial L}{\partial v_{ji}} = \delta_{y_j} z_i$$

となる。