Из книги "Глубокое обучение" (Николенко С. И., Кадурин А. А., Архангельская Е. О.):
Пытаюсь понять, как продифференцировать функцию RSS по w. Исходя из моего понимания, нужно вычислить производную по направлению w. Для этого я решил вычислить градиент функции и, согласно свойству производной по направлению, результат должно дать скалярное произведение градиента и направления w (будем считать, что w - единичный вектор). Функцию RSS(w) я записал как скалярное произведение (y-Xw, y-Xw), затем использовал линейность скалярного произведения и представил в виде суммы скалярных произведений. Дифференцирование первых трех слагаемых не вызвало сложности - оператор X при w во 2-м и 3-м слагаемом я просто "перекидывал" на другую сторону, транспонировав его матрицу, и для этих слагаемых производная считалась как производная скалярного произведения переменного вектора w на некий константный вектор. Но у меня вызвало сложность вычислить производную скалярного произведения (Xw, Xw). Подскажите, какие соображения нужно использовать для вычисления данной производной? И корректен ли в целом мой подход или дифференцирование исходной функции можно было бы произвести проще исходя из каких-то других соображений? задан 1 Янв '18 22:59 DarkGenius |
Исходя из моего понимания, нужно вычислить производную по направлению w. - нет... то что делают тут скорее вычисление градиента, где $%\omega$% - это вектор составленный из переменных... Если вкратце, то посмотрите, например, учебник Я. Магнус, П. Катышев, А. Пересецкий: Эконометрика. Начальный курс стр. 69 и приложение, посвящённое дифференцированию матричных выражений по векторному аргументу, на стр. 505-506... Пы.Сы.: Кстати, $%\omega^{\ast}$% - это уже решение уравнения $%\dfrac{d RSS(\omega)}{d\omega}=0$% ... отвечен 2 Янв '18 0:53 all_exist Спасибо за учебник. Однако меня смутило определение производной скалярной функции от векторного аргумента. В учебнике сказано, что эта производная - вектор. Но как это может быть,если по определению производная это предел отношения двух скалярных величин? Приведенный в учебнике вектор - это градиент.
(3 Янв '18 15:32)
DarkGenius
1
@DarkGenius, не надо пропускать слова... Вы всё время пытаетесь притянуть просто производную функции одной переменной, а здесь производная скалярной функции от векторного аргумента - это вектор ... Фактически здесь переобозвали градиент, чтобы можно было говорить про аналогичное дифференцирование матриц...
(3 Янв '18 15:43)
all_exist
|