Продолжение рассуждений о Semantic Web и Linked Data

Если говорить о классических поисковых системах и наиболее распространенных поисковых алгоритмах, то неизбежно приходится возвращаться к PageRank или его аналогам. Причем не только для Web, но и для всех случаев связанных ссылками информационных массивов, например, базы научных работ. Особенность PageRank в том что ссылка в нём — это просто ссылка. Она не несёт в себе ничего кроме изменения веса обоих узлов (страниц/документов), но лишь в соответствии с весами этих узлов и принятыми коэффициентами.

Вопрос в том — равны ли все ссылки между собой или некоторые равнее других?
Есть ли разница в ссылке из поста блога между ссылокой из комментария?
Важны ли лишь тематика обоих сайтов или же это не единственное что играет роль?

Например, TrustRank добавляет PageRank’у алгоритмическую адаптацию к чёрному списку, вводя первый уровень отношений — отношения недоверия и, понижения, ранга сайта при подобном выявленном недоверии.

Но, недоверие, это только недоверие. Да или нет, 1 или 0, максимум — с добавлением коэффициентов, но без учёта предметной специфики. Что PageRank, что TrustRank исходят из принципов изначального недоверия и неучитывания содержимого того что они охватывают. Неважно, что является информационной базой — веб страницы, научные исследования или же личные отношения между людьми, важны только ссылки.

Linked Data — это, фактически, развитие Semantic Web в сторону уже не раз упоминавшегося мной принципа доверенных источников. Основная идея в том что содержимое первично над отношениями. Фактически это модель ВикиПедии перенесённая с фактологических баз, на условно неограниченное число информационных источников.

В этом случае отношения учитываются уже не как ссылки, а как смысловые пути от одной концепции к другой.  Примечательна, например, разработка  MindNet MNEX демонстрирующая cхему подобных отношений с точки зрения лингвистики и встречаемости слов совместно. В MNEX от одного понятия, до другого рассчитывается логическое расстояние по заренее известному корпрусу текстов. И, хотя его цель, как я понимаю была иной — для семантического веба и связной модели данных применима аналогичная модель отношений построенной на расчёте смыслового пути от одной сущности другой в связке с поисковым запросом, также, анализируемом с точки зрения его смысла.

Semantic Web + Linked Data — это не поисковая система. Точнее поисковая система может быть построена сверху и использовать как PageRank/TrustedRank, так и семантические цепочки, но по, сути, это модель управления и работы со знаниями.

Слабость этой идеи и, одновременно, её сила в отсутствии за ней бизнес модели и в возможном  разрушении существуещей модели в медиа компаниях. Так прибыль существующих поисковых систем за исключением Live.com базируется на интернет рекламе и, несмотря на их условное стремление на максимальное упрощение поиска пользователю, реальный их интерес не в том чтобы пользователь мгновенно находил то что ему нужно, а в том чтобы он находил достаточно быстро чтобы его не разражала реклама и потраченное время. Равно как не последнюю роль играет то что бы пользователи посещали как можно чаще те сайты которые используют рекламу именно этой медиа компании (поисковика).

Создание Linked Data как единой и распределённой базы доверенных источников — это сужение источников информации, сайтов посещаемых пользователями, при этом все основные доверенные сайты не показывают рекламы. Также как произошёл «эффект Википедии», когда оказалось что самая большая энциклопедия в мире была создана огромным числом энтузиастов, также и здесь направление Semantic Web по максимальному упрощение подключения своих данных в единую структуру может привлечь и уже привлекает массу организации готовых бесплатно отдавать свои данные. Это одно преимущество и, наконец, другое в том что одной из причин почему именно Yahoo, MS а также многие стартапы, но в меньшей степени Google, пытаются играть на поле Semantic Web в том что они текущую борьбу за поиск они существенно проигрывают Гуглу и большой вопрос куда сдвинутся весы после возможного появления MicroYahoo. И именно поэтому, как я лично могу судить, их активности в Semantic Web гораздо выше. Запустив свой продукт на базе Linked Data, он может как провалится и ничего не принести, так и оторвать у Гугла ощутимую часть аудитории.

При этом пользователь в любом случае остаётся в выигрыше, поскольку лишь конкуренция даёт возможность выбора и развития.

About This Author

Яндекс.Метрика