Об онлайн голосованиях. Средства борьбы с роботами

В качестве преамбулы.
Вчера я весь день провёл на «II международном форуме» «ГОСУДАРСТВЕННЫЕ ЗАКУПКИ: ПЕРСПЕКТИВЫ РАЗВИТИЯ»». Интересного довелось услышать много, а кое что даже и самому рассказать в теме методов прозрачности госзаказа. Об этом я ещё напишу позже, как только утрясу в голове всю накопленную информацию.

Сейчас же о другом. Текущее голосование в ЖЖ навеяло мне мысли о существовании таких же проблемах прозрачности и для, вроде как, более простых явлений таких как рейтинги и голосования.
То что методика голосований СУПа непрозрачна — это понятно. А кто-нибудь пытался описать эту непрозрачность системно? Если да — киньте ссылку. Далее же будут мои размышления.

Что вообще основа прозрачности:
1. Публичность!
2. Полнота (достаточность)
3. Системность
4. Оперативность
P.S. конечно критериев больше, но начнём хотя бы с этих.

Начну с того какие меры вообще можно предпринимать для минимизации влияния роботов
Публичность
1. Публикация всех первичных данных голосования в открытом доступе

2. Сохранение этих данных в течении времени, в случае наличия технических ограничений предварительная фиксация продолжительности доступности первичных данных (в неделях, месяцах)

3. Отсутствие юридических и иных ограничений как то NDA и прочее ограничивающих доступ к публикуемой информации.

4. Предупреждение всем голосующим что голосование есть публичное открытое действие и участвуя в нём голосующий соглашается с размещением данных о нём в открытом доступе.

5. В крайних случаях невозможности предоставления всей описанной информации в открытом доступе, размещение правил описывающим данные ограничения.

Вопрос — зачем это нужно? Потому как если данные доступны и могут быть подвергнуты машинной обработке, то желающих провести детальный анализ наберётся, особенно если тема имеет общественное значение. Технически вопросы публичности решаются просто, а иногда и совсем просто. Это в большей степени мотивационный и организационный вопрос и по стремлению организации к подобной публичности или стремлению её избежать можно судить о доверительности результатов. Пример с СУПом показателен и не единичен.

Полнота (достаточность)

1. Раскрываемой информации должно быть достаточно для последующего анализа и включать всю ту информацию которую участник голосования подменить не может.

2. Обязательными полями необходимо считать: дата и время отдачи голоса, аккаунт, IP адрес, перечень выбранных полей голосования

3. Крайне желательными для последующего анализа также можно отметить:

  • авторитетность (в Яндекс.Блоги или Социоранке)
  • дата регистрации участника в соц. сети
  • местонахождение (можно рассчитать по IP адресу Geo2IP или профиль участника)
  • временной сдвиг от гринвича (можно рассчитать по местонахождению)

Зачем нужна вся эта информация? Потому как публичность и возможность кого бы то ни было проводить последующий анализ будет эффективно только при наличии достаточного объёма информации для выявления аномалий. Так по IP адресу можно с высокой вероятностью узнать местонахождение и временную зону участника, вместе со временем отдачи голоса эта информация может помочь определись в какое свое локальное время данный участник проголосовал. Так для большинства людей с 2 до 6 часов ночи период когда они спят и повышенная активность в голосовании в этом время может показать необходимость в более детальном анализе.

Авторитетность — это ещё один из важных критериев выявления ботов.

Системность

1. Экспорт данных должен производится изначально в машиночитаемых форматах данных. В любом случае если информация будет публичной, то пользователи найдут способ её выгрузить и обработать. Машиночитаемые форматы — это шаг в сторону повышения доверия со стороны участников.

2. Процедуры раскрытия информации должны не только соблюдаться они ещё и должны быть описаны и закреплены в явной форме и их описание должно быть доступно всем желающим.

3. Время — это один из лучших критериев «нарезки данных». Экспорт данных в CSV, за каждый час голосования вполне достаточен для всех промежуточных аналитических срезов.

Оперативность

1. Идеальное голосование должно включать доступность результатов его в реальном времени.

2. Поскольку идеальное голосование требует ряда технических мер, иногда они непросты, то хотя бы должны быть определены сроки в течении которых результаты должны быть доступны.

3. Обязательно должны публиковаться промежуточные результаты (в первичных данных) за пройденные этапы времени.

Вопрос — почему время и промежуточные результаты имеют значение? Потому как чем больше лаг между окончанием подведения итогов их публикацией тем меньше доверия ресурсу где данное голосование проводится, поскольку если процедура голосования будет включать последующую чистку ботов, то без публичности этой процедуры результаты могут быть «аккуратно изменены в нужную сторону». Промежуточные результаты, также гарантируют меньший риск последующего сглаживания информации, того что активность роботов особенно если это «свои роботы» не будет мягко скорректирована так чтобы избежать выявления прямым анализом.

Когда все описанные выше критерии и правила соблюдаются, то многие вопросы отпадут полностью.

About This Author

Яндекс.Метрика