Добавление данных перебивает алгоритмы

Anand Rajaraman (Ананд Раджаман) интересно пишет о том как использование большего числа данных «бьёт» более продвинутые алгоритмы More data usually beats better algorithms

Он приводит хороший пример с Adwords и его сравнение с Overture. По сути аукцион рекламы в Adwords не был чем-то революционно новым, в Overture это появилось гораздо раньше, важне было то что создатели Google стали учитывать новые данные — CTR. В итоге это оказалось решающим преимуществом, а новые данные смогли значительно изменить, и алгоритмы, и рынок как следствие.

Другой пример — это две команды студентов Ананда работали над алгоритмами в конкурсе для Netflix Challenge где одна команда сосредоточилась на улучшениях алгоритма, а другая добавила к базе Netflix данные из IMDB. Угадайте у кого получилось лучше? У тех кто использовал дополнительные данные.

В этом есть одна очень важная идея. В обработке данных разработка алгоритмов это очень нетривиальная задача, зачастую лучших результатов можно достигнуть поняв как расширить анализируемую выборку, как извлечь дополнительные метаданные, ответить на вопрос — «что ещё необходимо для принятия решения?»

Я столкнулся с этой же проблемой весьма плотно разбираясь с распознаванием платных ссылок. Так первоначальный алгоритмический подход неизбежно наткнулся на собственные ограничения и невысокую степень отличия от ссылок используемых в SEO, и ссылок по обмену между «белыми ресурсами». В итоге, подозреваю, что алгоритмически бороться тут можно долго и безуспешно.

В итоге, в нотой версии алгоритма которая уже врядли будет в публичном доступе, математика минимизирована насколько возможно. Итоговый результат — это определение для каждой ссылки её платности как 3 простые категории «Да», «Нет» и «Может быть», сужая группу «может быть» до 10% и менее. Главное же — это те метаданные на основе которых принимается решение с оглядкой на то что за спиной нет крупной поисковой базы чтобы по ней можно было уточнить многие детали.

Впрочем это весьма узкоспециализированный пример, главное то что информация, и чем её больше, тем больше, сама по себе уже является частью решения, а понимание связности и доступности информационных массивов может быть более важным чем десятки математиков в штате.

У этого явления давно существует определение «connectionism» (Коннективизм) и сейчас оно вновь возвращается в умы людей.

About This Author

Яндекс.Метрика