Вопросы построения семантического веба
Собираю вопросы по семантизации (структуризации) веба. На часть из них ответы у меня уже есть, хотя бы частичные, но многие всё ещё нераскрытые.
1. Как мотивировать создателей веб ресурсов и информационных банков делиться информацией через открытые API?
2. Можно ли определить тип веб-ресурса (сайта) по его содержимому? Можно ли определить тип информационного блока (запись в блоге, комментарий, статья, закон, научное исследование) по его содержимому или происхождению?
3. Как представить онтологические модели в виде удобном для понимании простыми людьми, а не только учёными.
4. Должны ли онтологические сущности покрывать максимум классов и атрибутов информационных блоков или же они должны быть нацелены на максимальную гибкость и возможность расширения?
5. Каковы должны быть принципы «семантического поиска» учитывая возможные последствия «атак на алгоритм» которые сейчас можно наблюдать в работе чёрных SEO против поисковиков вроде Google или Yandex? Если модели ссылочного рейтинга цитирования PageRank и иных в данном случае не применимы, так как ссылки могут и отсутствовать, то каким образом должен осуществляться поиск.
6. Как обеспечить локализуемость и адаптируемость онтологических моделей для различных языков и социо-культурных сред?
7. Как автоматизировать декомпозицию данных представленных в неизвестных форматах или текстах? Способны ли алгоритмы машинного обучения выявить модели аналогов и подбирать онтологические модели автоматически?
8. Как добиться чтобы всё вышеперечисленное работало с приемлимой производительностью?
9. Является ли исскуственный интеллект безусловно необходимым компонентом для смыслового распознавания и декомпозиции текстов? В каких случаях возможен поиск подобий и аллегорий запросов не теряя смысла текстов?
10. Как обеспечить эффективное хранение извлекаемых метаданных исходя из триллионов пар «ключ-значение» ? Ответ: MapReduce, Hadoop, SimpleDB, HBase, HyperTable
11. Как моделировать «жизненный путь» информационного блока (повода, объекта) от зарождения до дублирования? Пример, распространение новостной информации от одного или нескольких оригинальных источников на неограниченное их число.
12. Как определить отношения между источниками информации? Ответ: частично алгоритмическим образом, выявление покупных ссылок как один из примеров такого алгоритма.
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






