Сегодня обнаружил интересное явление. Оказывается Гугл научился автоматически индексировать PDF файлы содержащие отсканированные страницы документов. Соответственно эти документы теперь находятся через поиск.
Например, вот такой документ МинЭкономРазвития (ссылка на документ со сканами страниц) можно найти через поиск — например, вот так и щелкнув на ссылку «просмотреть» переходим в Google Docs где ещё одним [...]
В прошлой заметке я писал про построение объектной карты сайта в практическом применении к поиску новостных страниц на сайтах для распознавания новостей. Разумеется, кроме этого применения есть и множество других, в основном не напрямую коммерческих или самозначных, но вспомогательных для других задач.
Интересно и другое — анализ веб ресурсов очень тесно перекликается с их информационной [...]
Прежде чем продолжить рассуждения, а что же такое данные с нечеткой структурой? Начну с примера.
При преобразовании HTML в RSS, как, например, это происходит в Скиуре, очень часта ситуация когда структура данных меняется. Это может быть из-за того что немного подкрутили верстку или, к примеру, у новости появилась метка которая при обучении на данных сайта не [...]
Моё личное мнение на тему сможет ли Google выдавить Яндекс с места лидируещего поисковика в России или нет заключается в том что решение кроется не только в техническое конкуренции, но и целенаправленном лоббировании своих сервисов на государственном уровне. Благо есть значительное число онлайн сервисов которые государству нужны сейчас или будут нужны далее. Пример того же [...]
Задача которую я затрагивал в предыдущем посте, конечно, решаема и даже понятно как её решать, вопрос лишь во времени и в оценке достаточности решения для решаемых задач.
Например, лично я считаю что рассматривая регулярные выражения с целью их индексирования необходимо забыть про DFA и NFA и не вспоминать столь долго сколь это только возможно.
Для [...]
Социальные сети, Twitter, Evernote и так далее:
TWHirl — удобное настольное ПО для работы с Twitter’ом изготовленный с помощью Adobe AIR. Бесплатный, удобный, англоязычный. У него есть и российский сайт — http://twhirl.ru, но пока его не пробовал. CEO/CIO/CTO Twitters list — большая подборка на Twitter Feeds различных CIO, CTO и CEO американских [...]
Гугл опубликовали у себя в блоге 22 страничный PDF документ с рекомендациями по оптимизации сайтов под поисковые системы.
Нового там мало, основной акцент на правильной подачи собственного контента.
В то же время, что характерно, правила описанные там значительно пересекаются с общими правилами подачи информации которые я ранее упоминал у себя в блоге.
Кстати, [...]
Alipr — Automatic Photo Tagging and Visual Image Search Simplicity — Semantics-sensitive Integrated Matching for Picture LIbraries a-LIP — Automatic Linguistic Indexing of Pictures Tiltomo — поиск изображений по похожести Cydral — поисковик родом из франции (на английском) Gazopa — поисковик как венчурный проект Hitachi работающий в полузакрытом режиме. [...]
Что меня удивляло и продолжает удивлять так это так это нерасторопность поисковых машин, за исключением Google, в продвижении своих сервисов везде где только возможно.
Например, организация поиска по собственному сайту с помощью внешнего поисковика требует хоть и не слишком многих, но всё же усилий и хотя бы небольшого понимания HTML. Да и многие просто ленятся [...]
Относительно недавно, размышляя над антипаттернами юзабилити, там же я упоминал про такое явление как сдвиге идентификаторов элементов веб списках. Это довольно большая тема сама по себе и я раскрою её подробнее.
Вначале озвучу проблему: подавляющее число информационных систем никак не учитывают формы представления информации которую они предоставляют пользователям и не только им.
Рассмотрим несколько [...]
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (925)
- eGov (944)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (197)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (49)
- открытые данные (8)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (943)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability


