Нейрокомпьютерные системы



              

Одномерная оптимизация


Все пошаговые методы оптимизации состоят из двух важнейших частей:

  • выбора направления,
  • выбора шага в данном направлении (подбор коэффициента обучения).

Методы одномерной оптимизации дают эффективный способ для выбора шага.

В простейшем случае коэффициент обучения фиксируется на весь период оптимизации. Этот способ практически используется только совместно с методом наискорейшего спуска. Величина подбирается раздельно для каждого слоя сети по формуле

 \alpha \le min(1/n_i),

где

n_i
обозначает количество входов
i
-го нейрона в слое.

Более эффективный метод основан на адаптивном подборе коэффициента

\alpha
с учетом фактической динамики величины целевой функции. Стратегия изменения значения
\alpha
определяется путем сравнения суммарной погрешности
\varepsilon
на
t
-й итерации с ее предыдущим значением, причем рассчитывается по формуле

 \varepsilon = [ \sum_{i=1}^M (y_i - d_i)^2]^{1/2}.

Для ускорения процесса обучения следует стремиться к непрерывному увеличению

\alpha
при одновременном контроле прироста погрешности
\varepsilon
по сравнению с ее значением на предыдущем шаге. Незначительный рост погрешности считается допустимым.

Если погрешности на

t
-1-й и
t
-й итерациях обозначить соответственно
\varepsilon_{t-1}
и
\varepsilon_t
, а коэффициенты обучения на этих же итерациях —
\alpha_{t-1}
и
\alpha_t
, то значение
\varepsilon_{t+1}
следует рассчитывать по формуле

 \alpha_{t+1} = \alpha_t \rho_d, \t{ если } \varepsilon_t > k_w \varepsilon_{t-1},

 \alpha_{t+1} = \alpha_t \rho_i, \t{ если } \varepsilon_t \le k_w \varepsilon_{t-1}.

где

k_w
- коэффициент допустимого прироста погрешности,
\rho_d
- коэффициент уменьшения
\alpha, \rho_i

- коэффициент увеличения

\alpha
.

Наиболее эффективный, хотя и наиболее сложный, метод подбора коэффициентов обучения связан с направленной минимизацией целевой функции в выбранном направлении

s_t
. Необходимо так подобрать значение
\alpha_t
, чтобы новое решение
w_{t+1}=w_t+ \alpha_t s_t
соответствовало минимуму целевой функции в данном направлении
s_t
.

Поиск минимума основан на полиномиальной аппроксимации целевой функции. Выберем для аппроксимации многочлен второго порядка

 E(w) = P_2(\alpha) = a_2 \alpha^2 + a_1 \alpha + a_0 ,

где

a_2
,
a_1
и
a_0
— коэффициенты, определяемые в цикле оптимизации. Для расчета этих коэффициентов используем три произвольные точки
w_1, w_2, w_3
, лежащие в направлении
s_t
, т.е.

 w_i = w + \alpha_i s_t,\quad i = 1,2,3.

Соответствующие этим точкам значения целевой функции

E(w)

обозначим как

 \begin{equation} P_2(\alpha_i) = E_i = E(w_i),\quad i = 1,2,3. \end{equation}

(5)

Коэффициенты

a_2
,
a_1
и
a_0

рассчитываются в соответствии с решением системы уравнений (5).


Содержание  Назад  Вперед