Вопросы построения семантического веба

Собираю вопросы по семантизации (структуризации) веба. На часть из них ответы у меня уже есть, хотя бы частичные, но многие всё ещё нераскрытые.

1. Как мотивировать создателей веб ресурсов и информационных банков делиться информацией через открытые API?

2.  Можно ли определить тип веб-ресурса (сайта) по его содержимому? Можно ли определить тип информационного блока (запись в блоге, комментарий, статья, закон, научное исследование) по его содержимому или происхождению?

3. Как представить онтологические модели в виде удобном для понимании простыми людьми, а не только учёными.

4. Должны ли онтологические сущности покрывать максимум классов и атрибутов информационных блоков или же они должны быть нацелены на максимальную гибкость и возможность расширения?

5.  Каковы должны быть принципы «семантического поиска» учитывая возможные последствия «атак на алгоритм» которые сейчас можно наблюдать в работе чёрных SEO против поисковиков вроде Google или Yandex? Если модели ссылочного рейтинга цитирования PageRank и иных в данном случае не применимы, так как ссылки могут и отсутствовать, то каким образом должен осуществляться поиск.

6. Как обеспечить локализуемость и адаптируемость онтологических моделей для различных языков и социо-культурных сред?

7. Как автоматизировать декомпозицию данных представленных в неизвестных форматах или текстах? Способны ли алгоритмы машинного обучения выявить модели аналогов и подбирать онтологические модели автоматически?

8. Как добиться чтобы всё вышеперечисленное работало с приемлимой производительностью?

9. Является ли исскуственный интеллект безусловно необходимым компонентом для смыслового распознавания  и декомпозиции текстов? В каких случаях возможен поиск подобий и аллегорий запросов не теряя смысла текстов?

10. Как обеспечить эффективное хранение извлекаемых метаданных исходя из триллионов пар «ключ-значение» ?  Ответ: MapReduce, Hadoop, SimpleDB, HBase, HyperTable

11. Как моделировать «жизненный путь» информационного блока (повода, объекта) от зарождения до дублирования? Пример, распространение новостной информации от одного или нескольких оригинальных источников на неограниченное их число.

12.  Как определить отношения между источниками информации? Ответ: частично алгоритмическим образом,  выявление покупных ссылок как один из примеров такого алгоритма.

About This Author

Яндекс.Метрика