Подробнее Rambler.Beta с точки зрения работы с информацией

Начну с того что проект мне лично интересен тем что я и сам плотно занимаюсь вопросом фокусированного индексирования и структуризации данных (Focused Indexing and Feature Extraction) и новинки по теме всегда любопытны. Коротко я по этой теме уже писал, продолжу в деталях.

Далее что лично мне не нравится в Рамблер.Бета и почему лично я считаю что в текущем виде этот проект если и выживет то популярности не приобретёт.

1. Онтология информационных объектов

На начальной странице сайта видно некоторое число информационных срезов — это поиск по Википедии, Вакансиям, Ценам и многим другим характеристикам. Иначе говоря есть некий перечень объектов которые можно извлечь в сети и в некотором виде представить пользователям. Особенность в том что в одну кучу скинуты неравновесные объекты, если для одних из них вертикальный поиск логичен и разумен, то для других неестественнен и проистекает это от того что у информации разного рода и разной природы также присутствуют различные «темпоральная модель» и «среда обитания». Темпоральная модель — это изменение рассматриваемой фокус группы объектов с течением времени.

Например, массив вакансий характеризуется тем что:

  • постоянно поступает новая информация;
  • уже проиндексированная информация не обновляется;
  • объект обладает «сроком полезности» так как где-то через месяц вакансия становится неактуальной.
  • каждый объект обладает рядом характеристик общего рода — дата публикации, гео-метка
  • каждый объект обладает рядом специализированных характеристик не гармонизируемых с существующими классификаторами;
  • выборка вакансий характеризуется поведенческой моделью — «найти лучшее из нескольких». А то есть последовательная серия действий — поисков пользователем

С другой строны информация о погоде отличается коренным образом:

  • новая информация о погоде отсутствует;
  • информация о погоде обновляется не реже раза в сутки, это именно обновления, не новая публикация;
  • объект не обладает «сроком полезности», но обладает историей значений неважной для 99% пользователей;
  • объект безусловно и обязательно связан с географическим местом — единственной его общей характеристикой
  • информация о погоде характеризуется 100% соответствием известной географической точки и не поведенческая модель большинства пользователей не предусматривает навигации по ним, важна лишь актуальность;

А также статьи в Википедии:

  • Новая информация появляется, но не является самоцелью поиска;
  • Информация обновляется достаточно часто (не реже появления новых статей);
  • Объект не обладает сроком полезности, история его значений присутствует, но неважна для 99% пользователей;
  • поведенческая модель пользователей зависит от характера поискового запроса и в большинстве случаев, работа с ВикиПедией осуществляется посредством соответствия 1-к-1 ключевого понятия и статьи и навигацией между статьями.

Вышеперечисленные характеристики сознательно представлены в описательной форме и их несложно превратить в набор метрик для формальной оценки, было бы желание.

Аналогичным образом можно провести анализ другой информации — курсов валют, гороскопов и новостей и, убедиться что это разная информация подчинающаяся различным поведенческим моделям пользователей. Часть её можно и нужно представлять в виде виджетов, остальное требует различных подходов к представлению.

2. Поиск и навигация

То что следует из поведенческих моделей пользователей выходит в то что где-то пользователь готов переходить по ссылкам навигации, но чаще когда поиск целевой по вакансиям или ценовым предложениям то необходим и поиск с тематическими фильтрами — по вилке зарплаты, региону и многим другим критериям связанным со схемой данного тематического объекта. Так, если мне потребуется найти резюме я скорее пойду на сайты ХедХантер.ру (hh.ru) или Улов-Умов где такие возможности есть.

3. Обработка поисковых запросов

Если я набираю ключевое слово «бухгалтер» в строке поиска, то сразу же получаю возможность поиска по тематическому срезу — Вакансиям. Это правильно. Неправильно, то что если я наберу » бухгалтер в Хабаровске» ничего подобного не будет. Принципы автоматического подбора срезов в текущем виде наводят на мысль что детального анализа текста и структуры запроса не производится, что значительно снижает удобство использования.
4. Управление аудиторией

Заинтересовать пользователя ходить на сайт предоставляющий меньшую структуризацию и более слабый поиск чем тот на котором находится первичная информация можно лишь в том случае когда этот сайт собирает её с десятков и сотен малых, несравнимых с ним ресурсов. Когда же источник информации 1 или же до 80% информации покрывается 3-4 подобными источниками, то для поисковика это потерянная аудитория. Отсюда у меня есть сомнения в эффективности поиска по вакансиям когда в источниках только hh.ru, job.ru и rabota.ru. Потенциальному соискателю обойти эти сайты труда не составит, а удобства поиска там заметно выше, не говоря уже о сопровождающих возможностях.

Общее впечатление получилось довольно критическим и явных идейных прорывов найти не удалось. Сильно сомневаюсь что Рамблеру этот проект поможет даже только удержать существующую аудиторию.

About This Author

  • http://netbee.ua/ Netbee

    Интересная статейка, спасибо

Яндекс.Метрика