Алгоритм обратного распространения ошибки - часть 3
4. Описанный процесс следует повторить для всех обучающих примеров задачника, продолжая его вплоть до выполнения условия остановки алгоритма. Действие алгоритма завершается в момент, когда норма градиента упадет ниже априори заданного значения, характеризующего точность процесса обучения.
Руководствуясь рис. 2, можно легко определить все компоненты градиента целевой функции, т.е. все частные производные функции



Так, например, чтобы посчитать производную



![\pi_1=(y_1 - d_1)\times[\partial f(u_1^{(2)}) /\partial u_1^{(2)}] w_{12}^{(2)}](../../../../img/tex/1/3/7/137c2b0546bff09bd921605d52967b34.png)
и
![\pi_2=(y_2 - d_2) [\partial f(u_2^{(2)}) / \partial u_2^{(2)}] w_{22}^{(2)}](../../../../img/tex/b/d/e/bde3f18a67f4a44594e6d8bca8ddbed3.png)
и затем сложить эти произведения и результат умножить на

и

Таким образом, получим
![\partial E / \partial w_{12}^{(1)}=(\pi_1+\pi_2)[\partial f(u_2^{(1)}) / \partial u_2^{(1)}] x_1 =\\](../../../../img/tex/4/b/2/4b201f5c384bda181479c21513a99b62.png)
![=[(y_1-d_1)[\partial f(u_1^{(2)})/\partial u_1^{(2)}]w_{12}^{(2)} + (y_2 -d_2) [\partial f(u_2^{(2)})/\partial u_2^{(2)})]w_{22}^{(2)}]\times\\](../../../../img/tex/0/7/6/076a8e4bc12ff1ce97efa8500da4d6a5.png)
![\times [ \partial f(u_2^{(1)})/\partial u_2^{(1)}] x_1 = x_1 \sum^2_{k=1} (y_k-d_k)[\partial f(u_k^{(2)})/ \partial u_k^{(2)}]w_{k2}^{(2)} [\partial f(u_2^{(1)})/ \partial u_2^{(1)}].](../../../../img/tex/c/4/d/c4df0d5f340152996d657a0b794e7b45.png)