194
имеющихся наблюдений и сравнения выходных значений с желаемыми,
целевыми значениями [
Круглов и Борисов, 2000
]. Эти разности позволяют
сформировать функцию ошибок (критерий качества обучения). В качестве
такой функции чаще всего берется сумма квадратов ошибок.
Все алгоритмы обучения можно разделить на две большие группы
[
Хайкин, 2006
]. Первая группа методов носит название «обучение
с учителем». Этот термин отражает принцип настройки ИНС – при
обучении нейросети предъявляются пары значений вход-выход.
В дальнейшем такая нейросеть должна будет самостоятельно генерировать
выход на заданный вход. Вторая группа – «обучение без учителя».
В данном случае выход заранее не определен, и ИНС, выступая в роли
эксперта, должна самостоятельно его сгенерировать. После выбора
конкретной топологии необходимо выбрать параметры обучения. Этот
этап особенно важен для сетей, обучающихся с учителем. От правильного
выбора параметров зависит, насколько быстро ответы сети будут
сходиться к правильным ответам. Например, выбор низкой скорости
обучения увеличит время схождения, однако иногда он позволяет избежать
паралича сети. Увеличение скорости обучения может привести как
к увеличению, так и к уменьшению времени сходимости в зависимости
от формы поверхности ошибки. Исходя из такого противоречивого
влияния параметров, можно сделать вывод, что их значения нужно
выбирать экспериментально, руководствуясь при этом критерием
завершения обучения (например, минимизация ошибки или ограничение
по времени обучения). В процессе обучения сеть в определенном порядке
просматривает обучающую выборку. Порядок просмотра может быть
последовательным или случайным. Некоторые сети, обучающиеся
без учителя, например, сети Хопфилда, просматривают выборку только
один раз. Другие, например, сети Кохонена, а также сети, обучающиеся
с учителем, просматривают выборку множество раз, при этом один полный
проход по выборке называется эпохой обучения [
Круглов и Борисов, 2000
].
При обучении с учителем набор исходных данных делят на две
части – собственно обучающую выборку и тестовые данные. Принцип
разделения может быть произвольным. Обучающие данные подаются сети
для обучения, а проверочные используются для расчета ошибки сети, и
при этом проверочные данные никогда для обучения сети не применяются.
Таким образом, если на проверочных данных ошибка уменьшается, то сеть
действительно выполняет обобщение. Если ошибка на обучающих данных