Допустим, есть некий коллективный литературный блог. И в этом блоге множество статей с разными ярлыками, например: пушкин, лермонтов, ахматова, гумилев и т.п. Каждый ярлык встречается какое количество раз $%n_i$%, причем $%\sum n_i=N$%. Исходя из этих данных можно попробовать сделать вывод об интересах авторов блогов, исходя из долей ярлыка в общей массе заметок. Например, пушкин - 25%, лермонотов - 20%, и т.д. Вопрос. Как оценить статистическую значимость, точность (я не уверен, что правильно употребляю термин) такой оценки? задан 15 Фев '12 18:32 Иванопуло |
Не очень понятно, что оценивается. Интересы пользователей? Это не математическая категория. Задача нуждается в уточнении постановки. Обычно статистическая задача исследует массовое явление по его "представителям", выборке. У вас же "явление" одно - один блог. Что же оценивается? отвечен 16 Фев '12 9:28 DocentI Идея такова. Пусть таких коллективных блогов, вообще говоря, много (десятки, сотни, тысячи). Мы рассматриваем только один. И исходя из данных этого единственного блога, пытаемся сделать вывод обо всех блогах вообще. То есть это блог - это некая выборка. Другой пример. Проходят выборы по стране. Есть определенное распределение голосов по кандидатам. Как определить значимость результатов по отдельно взятой области?
(16 Фев '12 11:35)
Иванопуло
Многое зависит от распределения данных. По одному элементу выводов не сделаешь! Если бы Вам была известна, например, дисперсия, то можно построить доверительный интервал, т.е. примерные границы, в которые попадают "истинные" данные. Но откуда взять такую информацию? Что касается выборов, ситуация еще хуже, т.к. распределение явно неравномерное, и результаты по разным областям могут сильно отличаться друг от друга. Это все равно, как Вы измерили рост своего знакомого и хотите узнать средний рост всех мужчин такого возраста! (А для выборов - вообще любого человека)
(16 Фев '12 16:37)
DocentI
|