Название | Machine learning – от модели PyTorch до Kubeflow в облаке для BigData |
---|---|
Автор произведения | Евгений Сергеевич Штольц |
Жанр | Прочая образовательная литература |
Серия | |
Издательство | Прочая образовательная литература |
Год выпуска | 2020 |
isbn |
При обучении нейрона с учителем мы на него подаёт обучающие сигналы и получаем на выходе результаты. На каждый сигнал входной и выходной мы получает результат о степени ошибки в предсказании. Когда мы прогнали все обучающие сигналы, мы получили набор (вектор) ошибок, который может быть представлен в виде функции ошибок. Эта функция ошибок зависит от входных параметров (весов) и нам нужно найти веса при который эта функции ошибок становится минимальной. Для определения этих весов применяется алгоритм Градиентного спуска, суть которого заключается в постепенном движении к локальному чинимому, а направление движения определяется производной от этой функции и функции активации. В качестве функции активации обычно выбирают сигмойду для обычных сетей или усечённую ReLU для глубоких сетей. Сигмойда на выходе даёт диапазон от нуля до единицы всегда. Усечённая ReLU всё же позволяет при очень больших числах (очень важно информации) на входе передать больше единицы на выход, там сами повлиять на слои, удущие после непосредственно следующим. К примеру, точка над чёрточкой отделяет букву L от буквы i, а информация одного пикселя влияет на принятия решения на выходе, поэтому важно не потерять этот признак и передать его на последний уровень. Разновидностей функций активации не так много – их ограничивает требования к простоте обучения, когда требуется взять производную. Так сигмойда f после произвольно превращается в