Нейрокомпьютерные системы



              

Определение значимости параметров на основании функции оценки


Есть набор

x^i
,
i=1, \ldots, n
размерности
N, M
-мерный вектор параметров
w
и функция оценки
H(x,w)
, оценивающая работу системы с параметрами
w
на векторе
x
(например, расстояние от вектора выходных сигналов системы до нужного ответа или до множества правильно интерпретируемых ответов). Требуется выделить наименее значимые параметры
w_k, k \in \{1,\ldots, M\}
и компоненты данных
x_j
и модифицировать систему, отбрасывая наименее значимые параметры. Процедура отбрасывания неоднозначна. Простейший вариант - обращение в ноль - не всегда лучший: он не учитывает корреляции между данными. Учитывая корреляцию, следует отбрасываемые компоненты заменять на функции остающихся компонент.

Пусть для каждого

w_k
определено фиксированное значение
w_k^0
. Отбрасывание
j
-ой компоненты для
i
-го примера означает приравнивание
x_j:=x_j^0
. В качестве простейшего варианта примем
w_k^0=0
и для любого
i
полагаем

 x_j^0=(1/n) \sum_{p=1}^n x_j^p

(параметры обращаются в ноль, данные заменяются средним по выборке). Более тонкие методы предполагают замену отбрасываемых параметров и сигналов на некоторые функции оставшихся.

Показатели значимости вычисляются в два этапа: сначала они оцениваются для одного вектора (примера), потом для всей выборки.

1. Для данного

x^p
значимости
w_k
и
x_j
оцениваются как

 \begin{align*} \chi(w_k|x^p)=|\partial H(x^{p},w)/ \partial w_k| \times | w_k - w_{k}^{0}|,\\ \chi(x_{j}^{p} |x^p)=|\partial H(x^{p},w)/ \partial x_{j}^{p}| \times |x_{j}^{p} - {x_{j}^{p}}^0|. \end{align*}

Здесь

\chi
- вычисленные в линейном приближении абсолютные величины изменения
H
при сокращении описания. Оценка на всей выборке
x^p, p=1, \ldots, n
может проводиться по-разному. Например, может использоваться одна из следующих норм:

1. Сумма модулей:

 \begin{align*} \chi(w_k)= \sum_p \chi(w_k|x^p),\\ \chi(x_j)= \sum_p \chi(x_j|x^p).\vspace{-2mm} \end{align*}

2. Максимум модуля

 \begin{align*} \chi(w_k)= \max_p \chi(w_k|x^p),\\ \chi(x_j)= \max_p \chi(x_j|x^p). \end{align*}

Часто приходится иметь дело с системой, которая меняет свои параметры (например, в ходе обучения). Тогда к моменту принятия решения о значимости может быть накоплена информация о частных производных

H
в разных точках
w \in \{w_1, \ldots, w_q\}
. Ее можно использовать следующим образом.

Обозначим угловыми скобками процедуру усреднения по множеству параметров

\{w^1, \ldots, w^q\}
:

 \begin{align*} < f(w,\ldots)> = (1/q)\sum_{i=1}^q f(w^s,\ldots) \end{align*}

положим

 \begin{align*} \chi(w_{k}|x^{p})= < |\partial H(x,w)/ \partial w_{{k|\chi = \chi}^p} > \cdot w_k - |w_{k}^{0}|,\\ \chi(x_{j}|x^{p})= < |\partial H(x,w)/ \partial x_{{j|\chi = \chi}^p} > \cdot x_{j}^{p} - |{x_{j}^{p}}^{0}|. \end{align*}

Усредняются абсолютные значения производных, а приращения берутся в тех точках, в которых будет проводиться процедура сокращения описания. Усреднение параметров

w
по нескольким значениям важно для нелинейных систем, в которых производные
H
могут сильно меняться от точки к точке.

Главная задача при сокращении описания - сохранить качество работы системы, оцениваемое с помощью

H
. Для этого требуется знать назначение системы и иметь способ оценки ее соответствия своему назначению.

Возможен другой подход, не предполагающий никакого знания о способах оценки. Ставится задача сохранить описание, минимально изменяя функционирование системы. В этом случае роль оценки играет изменение выходного сигнала системы после сокращения.




Содержание  Назад  Вперед