Нейрокомпьютерные системы



Сигмоидальный нейрон


Нейрон сигмоидального типа имеет структуру, подобную модели МакКаллока-Питса, с той разницей, что функция активации является непрерывной и может быть выражена в виде сигмоидальной униполярной или биполярной функции. Униполярная функция, как правило, представляется формулой (рис.2)

 f(x)=1/(1+exp(-\beta x)),

Униполярная функция (? =1)

Рис. 2.  Униполярная функция (? =1)

тогда как биполярная функция задается в виде (рис.3)

 f(x) = tanh(\beta x).

Биполярная функция (?=1)

Рис. 3.  Биполярная функция (?=1)

Параметр

\beta
влияет на крутизну графика функции
f(x)
. При
\beta\rightarrow\infty
сигмоидальная функция превращается в функцию ступенчатого типа, идентичную функции активации персептрона. На практике чаще всего используется значение
\beta = 1
.

Важным свойством сигмоидальной функции является ее дифференцируемость. Для униполярной функции имеем

 df(x)/dx = \beta f(x)(1 - f(x))

тогда как для биполярной функции

 df(x)/dx = \beta (1 - f(x))^2.

Применение непрерывной функции активации позволяет использовать при обучении градиентные методы оптимизации. Проще всего реализовать метод наискорейшего спуска, в соответствии с которым уточнение вектора весов

w = [w_0,w_1, \ldots, w_N]^T

проводится в направлении отрицательного градиента целевой функции

E=(y - d)^2/2
, где

 y=f(u)=f(\sum_{i=0}^N {w_{i}x_{i}} ).

Компонента градиента имеет вид

 \nabla_{i}E=dE/dw_i=ex_{i}df(u)/du,

где

e=y-d
означает разницу между фактическим и ожидаемым значением выходного сигнала нейрона. Если ввести обозначение
\delta = e\cdot df(u)/du
, то можно получить выражение, определяющее
i
-ю составляющую градиента в виде

 \nabla_{i}E= \delta x_i.

Значения весовых коэффициентов уточняются по формуле

 w_{i}(t+1)=w_{i}(t)-\alpha \delta x_i,

где

\alpha\in(0,1)
.

Применение градиентного метода для обучения нейрона гарантирует достижение только локального минимума. Для выхода из окрестности локального минимума результативным может оказаться обучение с моментом. В этом методе процесс уточнения весов определяется не только информацией о градиенте функции, но и предыдущим изменением весов. Подобный способ может быть задан выражением

 \triangle w_{i}(t+1) = - \alpha\delta x_{i} + \beta \triangle w_{i}(t),

в котором первый член соответствует обычному методу наискорейшего спуска, тогда как второй член, называемый моментом, отражает последнее изменение весов и не зависит от фактического значения градиента. Значение

\beta

выбирается из интервала (0,1).




Содержание  Назад  Вперед