Дана выборка значений $%X1, X2, ..., Xn$% и их веса $%W1, W2, ..., Wn$%. Средневзвешенное выборки равно: $%\sum(Xi*Wi) / \sum(Wi)$%. Как оценить ошибку такого среднего и дисперсию? задан 30 Апр '13 12:47 Иванушка |
Как я понял из рассуждений @falcao дисперсия будет следующей: $% \sum(x_i^2 w_i) / \sum(w_i) - ( \sum(x_i w_i) / \sum(w_i) )^2 $% отвечен 30 Апр '13 19:00 Иванушка @Иванушка: да, всё так. Это будет статистическая оценка дисперсии. А квадратный корень из неё принимается за "ошибку среднего".
(30 Апр '13 22:14)
falcao
Так бы сразу и написали :) Спасибо!
(30 Апр '13 23:24)
Иванушка
@Иванушка: если Вам нужна была только формула, чтобы подставить туда числа, то это всё можно найти в каких-нибудь справочниках. Я счёл нужным дать объяснение того, в силу чего эта формула имеет такой, а не иной вид. Вся информация для выписывания формулы у меня при этом была в наличии. Может быть, здесь сказались мои собственные предпочтения: я готовых формул обычно не запоминаю, а помню лишь идеи, на основании которых эти формулы выводятся.
(30 Апр '13 23:44)
falcao
Да, мне нужна была только формула и обижаться на это не стоит.
(7 Май '13 12:44)
Иванушка
|
Такие вещи предпочтительнее всего обсуждать на языке случайных величин, то есть на более современном языке теории вероятностей. К сожалению, пока ещё не искоренена традиция описывать эти вещи на "старомодном" языке статистики, который был введён ещё в XIX веке. Приходится постоянно переводить с одного языка на другой. Я постараюсь дать описание в тех и других терминах, указывая на связи. Прежде всего, как звучит этот вопрос на современном языке? Есть дискретная случайная величина $%X$%, принимающая значения $%x_1$%, ..., $%x_n$% с вероятностями $%p_1$%, ..., $%p_n$%. Вероятности -- это "частоты", связанные с "весами". Смысл числа $%w_i$% -- это сколько раз при испытаниях мы наблюдали значение $%x_i$%. Понятно, что вероятность такого значения равна $%w_i/(w_1+...+w_n)$%, то есть это число принимается за $%p_i$%. Математическим ожиданием (или средним значением) случайной величины $%X$% называется число $%MX=p_1x_1+\cdots+p_nx_n$%. Дисперсией случайной величины $%X$% называется число $%DX=MX^2-(MX)^2$%. Эквивалентное определение: это математическое ожидание квадрата отклонения от среднего значения, то есть $%M(X-MX)^2$%. Удобнее бывает считать по первой формуле: там мы $%MX$% уже нашли, а для матожидания квадрата $%X$% мы имеем формулу $%MX^2=p_1x_1^2+\cdots+p_nx_n^2$%. Далее, среднеквадратическим отклонением случайной величины $%X$% называется корень квадратный из её дисперсии, то есть число $%\sigma=\sqrt{DX}$%. Это и есть то, что в статистике подразумевается под "ошибкой среднего". Понятно, что значения случайной величины могут как-то отклоняться от среднего в ту и другую сторону, и "нормой" такого отклонения считается величина "плюс-минус сигма". Из этого описания должно быть понятно, как сделать пересчёт всех упомянутых величин в терминах весов. Зная веса $%w_i$%, мы по указанным выше формулам можем найти вероятности $%p_i$%, и далее воспользоваться математическими определениями. Скажем, вместо $%MX^2$% у нас получится величина $%\sum_i (x_i^2w_i)/\sum_i w_i$%, и так далее. отвечен 30 Апр '13 14:11 falcao Спасибо за ответ, но нельзя ли проще? Формула для дисперсии вот такая-то...
(30 Апр '13 14:51)
Иванушка
А самому слабо?
(30 Апр '13 15:12)
DocentI
falcao, по-моему, Вы используете не совсем верную терминологию... Например, "Смысл числа $%w_i$% -- это сколько раз при испытаниях мы наблюдали значение $%x_i$%" ... то есть вес - это частота варианта $%x_i$%... в этой ситуации $%\frac{w_i}{w_1+...+w_n}$% - это относительная частота, которая не является вероятностью, а лишь её статистическим приближением... Дальше у Вас идёт описание определения моментов СВ... это повторяется в мат. статистике под названием "метод моментов"... только не сказали о том, что такая оценка дисперсии не будет лучшей...
(30 Апр '13 15:32)
all_exist
@Иванушка: Так ведь я же написал формулы! Из того, что у меня написано в самом конце, с квадратами, надо вычесть квадрат той величины, которая у Вас написана в условии. Это и будет дисперсия. А квадратный корень из неё -- это среднеквадратическое отклонение, оно же "ошибка среднего".
(30 Апр '13 15:35)
falcao
@all_exist: я понимаю все эти тонкости и различия. Понятно, что вероятностей мы в таких случаях обычно не знаем, но вынуждены отождествлять их с частотами, так как ничего другого нет. Соответственно, мы имеем статистические матожидание и дисперсию, но высчитываются они всё равно по тем же формулам, как если бы вероятности были "настоящими". Бывают, конечно, исключения (типа деления где-то на $%N-1$% вместо $%N$%), но такое дело обычно оговаривается. Что Вы имеете в виду под лучшей оценкой дисперсии, я пока не могу угадать.
(30 Апр '13 18:07)
falcao
falcao, "(типа деления где-то на N−1 вместо N)" - вот исправленная дисперсия и является лучшей оценкой при неизвестном матожидании... "я понимаю все эти тонкости и различия." - так и другим объясните...а то фразы про "старомодный язык статистики" не преободряют... Ведь ТВ всего лишь основа матстата, но не замена...
(30 Апр '13 18:24)
all_exist
@all_exist: а каким образом я могу угадать, требуется ли здесь "улучшенная" оценка? Это должно как-то оговариваться в учебном курсе, и в таких случаях поступают по-разному. Угадывать же я не люблю, поэтому остановился на самом простом варианте. Объяснения тонкостей тут как бы никто не просил. Что касается языка, то я считаю себя "филологом" по "призванию", хотя и занимаюсь математикой. "Кондовый" инженерно-технический язык, на мой взгляд, ужасно неэстетичен и неточен в выражении мыслей. И перевод, как правило, не лучший: error здесь скорее "погрешность", а не ошибка.
(30 Апр '13 18:32)
falcao
показано 5 из 7
показать еще 2
|