Привет! Приступив к задаче разработки алгоритма-формулы расчета рейтинга объектов на сайте, пришел к тому, что задача порядком сложнее, чем может показаться на первый взгляд. Учитывая, что своих знаний явно не достаточно, решил обратиться к сообществу за советом. Собственно задача. У объекта есть n критериев. Каждый из критериев оценивается по шкале [-5; 5] с шагом 1. Для удобства выполнения расчетов значения могут быть нормализованы к диапазону [-1; 1] с шагом 0,25. Вывод результирующих рейтингов должен выполняться в виде дробных чисел в том же диапазоне [-5; 5]. Оценка пользователя может принимать значение 0 (оценка по критерию не указана). Для каждого из объектов в момент выставления оценок необходимо рассчитывать среднее значение критерия, а так же общее значение рейтинга объекта на основании значений отдельных критериев. В результате выборки объектов они могут сравниваться (сортироваться) как по отдельным критериям, так и по общим рейтингам. При расчете общего рейтинга объекта для каждого из критериев должен использоваться свой весовой коэффициент. Формула должна быть стойка к малому количеству голосов. Формула должна возвращать сравнимые значения по отдельным критериям и общим рейтингам объектов для всех объектов системы. Смотрел сюда.
В целом от минимального порога голосов за объект хотелось бы если не отказаться вообще, то установить его максимально низким, скажем = 3 задан 20 Ноя '12 19:26 dmsrsh |
Я так понимаю вы можете попробовать использовать корреляционный коэффициент Пирсона. (Возможно я что-то понял не так.) Вообще рекомендую хорошую книгу по рейтингам, системам рекомендаций и прочему - Тоби Сегеран "программируем коллективный разум" отвечен 21 Ноя '12 0:27 Diagon За рекомендацию литературы спасибо. Почитаю в самое ближайшее время. По "корреляционный коэффициент Пирсона" если сложно описать его практическое применение для решения описанной задачи - буду благодарен.
(21 Ноя '12 11:49)
dmsrsh
Насколько я знаю, корреляция берется между двумя величинами (например, случайными). А здесь что будет играть их роль?
(21 Ноя '12 23:11)
DocentI
|
Не являюсь профессионалом в этой области, но все же хочу вставить свои 5 копеек. Проблема выбора формулы в том, чтобы дать предпочтение одним наборам оценок перед другими. Значит, нужно сформулировать (хотя бы качественно) правила такого выбора. Например:
Ну, или иные какие-нибудь правила. Что касается статистики, тут многое непонятно. Ясно, что малая выборка не репрезентативна, она не дает достоверной информации. Но это значит, что таковую информацию из нее извлечь нельзя. Можно только построить оценку для "истинного" значения. И тут важно, какую: нижнюю (осторожную) или верхнюю (оптимистичную). Или среднюю. Но в последнем случае достаточно просто взять среднюю оценку. Чем именно она плоха? отвечен 23 Ноя '12 0:26 DocentI |
Спасибо за интересную тему. Будет время - почитаю Ваши ссылки подробнее.
Но вот с чем я согласна (в обсуждении по первой ссылке). Если не сформулировано, что именно мы хотим от рейтинга, то неясно, какой рейтинг лучший. Как должны влиять разные оценки (от -5 до 5)? Что важнее: учесть голоса за или не пропустить голоса против? И много других вопросов. Так сказать, предъявите ТЗ!
Да собственно вся постановка задачи изложена выше. По вопросам: 1. Как должны влиять разные оценки (от -5 до 5)? Соответственно пропорционально выставленной оценке изменяет значение оцениваемого критерия и оказывает влияние на общее значение рейтинга объекта. Естественно отрицательные значения рейтинг занижают, положительные - приращивают. 2. Что важнее: учесть голоса за или не пропустить голоса против? Вопрос наверняка больше риторический. Равноценно важны как положительные оценки, так и отрицательные (голоса за и против)
Если есть еще важные вопросы, не отраженые выше, готов ответить на них
То есть при большом числе отзывов рейтинг будет рассчитываться как средняя оценка? И только для малого числа надо узнать статистическую погрешность?
Что лучше: (1; 2; 2; 0; -5) или (5; -5; 5; -5; 1)? В первом случае средняя оценка равна 0, во втором - 0,2. Зато здесь много убежденных противников.
Логика в использовании единой формулы рассчета рейтинга для всех объектов независимо от кол-ва голосов.
Другими словами должен быть введен параметр, который с ростом количества оценок будет терять свою силу.
По примеру, считаю что фактор "здесь много убежденных противников" можно упустить.