Нужно найти все частные производные функции, которая используется в машинном обучении.

Есть набор точек из $%R^{n+1}$%. Элемент внутри набора индексируется двумя индексами : верхний - номер набора, нижний - номер элемента в наборе.
Например:
$%\big(x_{1}^{(1)},x_{2}^{(1)},...,x_{n}^{(1)},y^{(1)}\big),$% $%\big(x_{1}^{(2)},x_{2}^{(2)},...,x_{n}^{(2)},y^{(2)}\big),$%$%...$% $%\big(x_{1}^{(j)},x_{2}^{(j)},...,x_{n}^{(j)},y^{(j)}\big),$%$%n\in N, j = (1,M), M\in N$%
Вводится обозначение $%x^{(j)} = \big(x_{1}^{(j)},x_{2}^{(j)},...,x_{n}^{(j)}\big)$%.
Тогда исходные точки можно переписать в виде: $%\big(x^{(1)},y^{(1)}\big),\big(x^{(2)},y^{(2)}\big),...,\big(x^{(j)},y^{(j)}\big)$%
И введем вектор $%\theta = (\theta_1,\theta_2,...,\theta_n)$%

Функция : $%J(\theta)=\sum_{i=1}^{M} \begin{bmatrix}y^{(i)}log(h_{\theta}(x^{(i)}))+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))\end{bmatrix}$%
Общий вид частной производной функции имеет вид : $%\frac{\partial J}{\partial \theta_j}=\sum_{i=1}^{M}(h_{\theta}(x^{(i)})-y^{(i)}){x_{j}}^{(i)}$%
Где $%h_{\theta}(x^{(i)})=\frac{1}{1+e^{\theta_0+\theta_1x_1+...+\theta_nx_n}}$%

Я не могу понять как пришли к такому виду частной производной.

задан 2 Апр '16 17:58

изменен 2 Апр '16 18:04

10|600 символов нужно символов осталось
1

Да, здесь частные производные именно такие получаются. Проверим это, чуть упростив обозначения. Проверяем равенство для фиксированного $%i$%-го слагаемого по переменной $%\theta_j$%. Упростим запись $%y^{(i)}$% до $%y$%; $%x_j^{(i)}$% до $%x$%; $%\theta_j$% до $%\theta$%; $%h_{\theta}(x^{(i)})$% до $%h$%.

Нужно продифференцировать по $%\theta$% функцию $%y\ln h+(1-y)\ln(1-h)$%. Обозначая производную по $%\theta$% в виде обычного "штриха", а $%e^{\theta_0+\cdots+\theta_jx_j+\cdots}$% через $%H$%, для начала заметим, что $%h'=(\frac1{1+H})'=-\frac{H'}{(1+H)^2}=-\frac{Hx}{(1+H)^2}=xh^2(1-\frac1h)=xh(h-1)$%.

Отсюда производная нашей функции получается равна $%\frac{yh'}{h}-\frac{(1-y)h'}{1-h}=y(h-1)x+(1-y)hx$%, то есть $%(h-y)x$%, как и утверждалось.

ссылка

отвечен 2 Апр '16 20:23

Большое спасибо. Вопрос насчет $%h'$%. У меня выходит так: $%h'= \big(\frac{1}{1+H}\big)' = -\frac{(1+H)'}{(1+H)^{2}}H'=- \frac{{(H')}^2}{(1+H)^{2}}$% Из-за того, что $%H$% это функция, то по правилу производной сложной функции нужно домножить дробь на производную внутренней функции, из-за чего и выходит квадрат производной.

(3 Апр '16 11:16) Alex23

И еще. "Упростим запись $%{x_{j}}^{(i)}$% до $%x$%". Я не уверен, но мне кажется что должно быть $%x^{(j)}=x$%, т.е. $%x=(x_1,x_2,...,x_n)$%. А $%{x_{j}}^{(i)}$% означает элемент $%j$% набора $%i$%, а не сам набор.

(3 Апр '16 11:20) Alex23
1

@Alex23: по поводу упрощённых обозначений -- тут разберитесь сами. Это не принципиально. Что касается h', то с какой это стати вдруг появился квадрат производной? Производная суммы равна сумме производных, производная 1 равна 0. Поэтому (1+H)'=H' всегда верно, о чём бы ни шла речь. А на производную внутренней функции всё уже домножили: это как раз и есть (1+H)'.

(3 Апр '16 12:36) falcao

Теперь ясно. Спасибо еще раз.

P.S. Если у кого-то возникнет мой вопрос, то я нашел еще одно решение (нужно прокрутить страницу) https://share.coursera.org/wiki/index.php/ML:Logistic_Regression

(3 Апр '16 12:43) Alex23
10|600 символов нужно символов осталось
Ваш ответ

Если вы не нашли ответ, задайте вопрос.

Здравствуйте

Математика - это совместно редактируемый форум вопросов и ответов для начинающих и опытных математиков, с особенным акцентом на компьютерные науки.

Присоединяйтесь!

отмечен:

×340
×57
×8

задан
2 Апр '16 17:58

показан
650 раз

обновлен
3 Апр '16 12:44

Отслеживать вопрос

по почте:

Зарегистрировавшись, вы сможете подписаться на любые обновления

по RSS:

Ответы

Ответы и Комментарии

Дизайн сайта/логотип © «Сеть Знаний». Контент распространяется под лицензией cc by-sa 3.0 с обязательным указанием авторства.
Рейтинг@Mail.ru