Дана выборка значений $%X1, X2, ..., Xn$% и их веса $%W1, W2, ..., Wn$%. Средневзвешенное выборки равно: $%\sum(Xi*Wi) / \sum(Wi)$%. Как оценить ошибку такого среднего и дисперсию?

задан 30 Апр '13 12:47

изменен 30 Апр '13 15:46

Angry%20Bird's gravatar image


9125

10|600 символов нужно символов осталось
0

Как я понял из рассуждений @falcao дисперсия будет следующей: $% \sum(x_i^2 w_i) / \sum(w_i) - ( \sum(x_i w_i) / \sum(w_i) )^2 $%

ссылка

отвечен 30 Апр '13 19:00

@Иванушка: да, всё так. Это будет статистическая оценка дисперсии. А квадратный корень из неё принимается за "ошибку среднего".

(30 Апр '13 22:14) falcao

Так бы сразу и написали :) Спасибо!

(30 Апр '13 23:24) Иванушка

@Иванушка: если Вам нужна была только формула, чтобы подставить туда числа, то это всё можно найти в каких-нибудь справочниках. Я счёл нужным дать объяснение того, в силу чего эта формула имеет такой, а не иной вид. Вся информация для выписывания формулы у меня при этом была в наличии. Может быть, здесь сказались мои собственные предпочтения: я готовых формул обычно не запоминаю, а помню лишь идеи, на основании которых эти формулы выводятся.

(30 Апр '13 23:44) falcao

Да, мне нужна была только формула и обижаться на это не стоит.

(7 Май '13 12:44) Иванушка
10|600 символов нужно символов осталось
1

Такие вещи предпочтительнее всего обсуждать на языке случайных величин, то есть на более современном языке теории вероятностей. К сожалению, пока ещё не искоренена традиция описывать эти вещи на "старомодном" языке статистики, который был введён ещё в XIX веке. Приходится постоянно переводить с одного языка на другой.

Я постараюсь дать описание в тех и других терминах, указывая на связи. Прежде всего, как звучит этот вопрос на современном языке? Есть дискретная случайная величина $%X$%, принимающая значения $%x_1$%, ..., $%x_n$% с вероятностями $%p_1$%, ..., $%p_n$%. Вероятности -- это "частоты", связанные с "весами". Смысл числа $%w_i$% -- это сколько раз при испытаниях мы наблюдали значение $%x_i$%. Понятно, что вероятность такого значения равна $%w_i/(w_1+...+w_n)$%, то есть это число принимается за $%p_i$%.

Математическим ожиданием (или средним значением) случайной величины $%X$% называется число $%MX=p_1x_1+\cdots+p_nx_n$%. Дисперсией случайной величины $%X$% называется число $%DX=MX^2-(MX)^2$%. Эквивалентное определение: это математическое ожидание квадрата отклонения от среднего значения, то есть $%M(X-MX)^2$%. Удобнее бывает считать по первой формуле: там мы $%MX$% уже нашли, а для матожидания квадрата $%X$% мы имеем формулу $%MX^2=p_1x_1^2+\cdots+p_nx_n^2$%.

Далее, среднеквадратическим отклонением случайной величины $%X$% называется корень квадратный из её дисперсии, то есть число $%\sigma=\sqrt{DX}$%. Это и есть то, что в статистике подразумевается под "ошибкой среднего". Понятно, что значения случайной величины могут как-то отклоняться от среднего в ту и другую сторону, и "нормой" такого отклонения считается величина "плюс-минус сигма".

Из этого описания должно быть понятно, как сделать пересчёт всех упомянутых величин в терминах весов. Зная веса $%w_i$%, мы по указанным выше формулам можем найти вероятности $%p_i$%, и далее воспользоваться математическими определениями. Скажем, вместо $%MX^2$% у нас получится величина $%\sum_i (x_i^2w_i)/\sum_i w_i$%, и так далее.

ссылка

отвечен 30 Апр '13 14:11

Спасибо за ответ, но нельзя ли проще? Формула для дисперсии вот такая-то...

(30 Апр '13 14:51) Иванушка

А самому слабо?

(30 Апр '13 15:12) DocentI

falcao, по-моему, Вы используете не совсем верную терминологию...

Например, "Смысл числа $%w_i$% -- это сколько раз при испытаниях мы наблюдали значение $%x_i$%" ... то есть вес - это частота варианта $%x_i$%... в этой ситуации $%\frac{w_i}{w_1+...+w_n}$% - это относительная частота, которая не является вероятностью, а лишь её статистическим приближением...

Дальше у Вас идёт описание определения моментов СВ... это повторяется в мат. статистике под названием "метод моментов"... только не сказали о том, что такая оценка дисперсии не будет лучшей...

(30 Апр '13 15:32) all_exist

@Иванушка: Так ведь я же написал формулы! Из того, что у меня написано в самом конце, с квадратами, надо вычесть квадрат той величины, которая у Вас написана в условии. Это и будет дисперсия. А квадратный корень из неё -- это среднеквадратическое отклонение, оно же "ошибка среднего".

(30 Апр '13 15:35) falcao

@all_exist: я понимаю все эти тонкости и различия. Понятно, что вероятностей мы в таких случаях обычно не знаем, но вынуждены отождествлять их с частотами, так как ничего другого нет. Соответственно, мы имеем статистические матожидание и дисперсию, но высчитываются они всё равно по тем же формулам, как если бы вероятности были "настоящими". Бывают, конечно, исключения (типа деления где-то на $%N-1$% вместо $%N$%), но такое дело обычно оговаривается. Что Вы имеете в виду под лучшей оценкой дисперсии, я пока не могу угадать.

(30 Апр '13 18:07) falcao

falcao, "(типа деления где-то на N−1 вместо N)" - вот исправленная дисперсия и является лучшей оценкой при неизвестном матожидании...

"я понимаю все эти тонкости и различия." - так и другим объясните...а то фразы про "старомодный язык статистики" не преободряют... Ведь ТВ всего лишь основа матстата, но не замена...

(30 Апр '13 18:24) all_exist

@all_exist: а каким образом я могу угадать, требуется ли здесь "улучшенная" оценка? Это должно как-то оговариваться в учебном курсе, и в таких случаях поступают по-разному. Угадывать же я не люблю, поэтому остановился на самом простом варианте. Объяснения тонкостей тут как бы никто не просил. Что касается языка, то я считаю себя "филологом" по "призванию", хотя и занимаюсь математикой. "Кондовый" инженерно-технический язык, на мой взгляд, ужасно неэстетичен и неточен в выражении мыслей. И перевод, как правило, не лучший: error здесь скорее "погрешность", а не ошибка.

(30 Апр '13 18:32) falcao
показано 5 из 7 показать еще 2
10|600 символов нужно символов осталось
Ваш ответ

Если вы не нашли ответ, задайте вопрос.

Здравствуйте

Математика - это совместно редактируемый форум вопросов и ответов для начинающих и опытных математиков, с особенным акцентом на компьютерные науки.

Присоединяйтесь!

отмечен:

×239

задан
30 Апр '13 12:47

показан
3353 раза

обновлен
7 Май '13 12:44

Отслеживать вопрос

по почте:

Зарегистрировавшись, вы сможете подписаться на любые обновления

по RSS:

Ответы

Ответы и Комментарии

Дизайн сайта/логотип © «Сеть Знаний». Контент распространяется под лицензией cc by-sa 3.0 с обязательным указанием авторства.
Рейтинг@Mail.ru