Как и обещал публикую документ описания алгоритма.
Выявление групп платных ссылок в сети Интернет
Альтруизма в данной публикации немного, так как уже есть понимание ограничений алгоритма и того что нужно для их преодоления, поэтому в документе не все критерии которые я считаю важными при отсеве естественных и неестественных ссылок, но значительная их часть. Также, [...]
Размышляю о возможности раскрытия части алгоритма и исходного кода выявления платных ссылок о котором я писал ранее. Сам алгоритм состоит из двух частей — выявление ссылочных блоков и ранжирование найденных ссылок. В данном случае речь идёт о части с ранжированием.
Во-первых потому как уже есть понимание его текущих ограничений и как их обойти, но [...]
Собираю вопросы по семантизации (структуризации) веба. На часть из них ответы у меня уже есть, хотя бы частичные, но многие всё ещё нераскрытые.
1. Как мотивировать создателей веб ресурсов и информационных банков делиться информацией через открытые API?
2. Можно ли определить тип веб-ресурса (сайта) по его содержимому? Можно ли определить тип информационного блока (запись в [...]
С интересом обнаружил для себя блог Yahoo! Hadoop, оказывается на сегодняшний день у них самый большой Hadoop кластер из имеющихся.
10 тысяч процессоров; 300 терабайт сжатых данных 5 петабайт данных всего
Судя по тому что они пишут про использование данных собранных в Hadoop для поисковых запросов, не удивлюсь что они постепенно заменяют (или уже [...]
Весьма интересное в загадочном боте EnaBot (http://www.enaball.com/crawler.html) — это то, откуда он приходит — ec2-67-202-55-112.compute-1.amazonaws.com
А это не что иное как Amason EC2, не удивлюсь если при таком раскладе и база хранится в Amazon S3 и Amazon SimpleDB, наверняка не скажешь, но по логике и производительности это должно быть быстрее чем держать свою распределённую [...]
Читаю пресс-релиз MS об открытии документации по протоколам и внутренним форматам.
Хорошее начинание, нет честно, хорошее. Лет 7 назад оно было бы манной небесной, тогда активно решая проблемы увязки Linux и Windows систем лично мне нехватало очень многого. Полноценно работающего Samba сервера, Linux приложений способных работать с RDP в любых вариациях с и так [...]
В последнее время, нечто вроде хобби, в свободное время анализом того как работают поисковые машины и их применимости семантическому вебу. И, также, моделями распространения информации. Одно из наблюдений — это время реакции поисковой машины на появление новой информации.
Быстро сделанный для этих целей мини-проект — Урлус (urlus.ru) который работает укорачивателем ссылок по аналогии [...]
Человек лишающий себя права на ошибку,
рано или поздно сталкивается с тем что
это и есть его самая большая ошибка (c)
В прошлой заметке я писал о стратегии минимизации ошибок и для чего она нужна и услышал ряд откликов с критикой нехватки примеров. Эта заметка будет посвящена как раз примерам и [...]
В своё время мне довелось слышать такую классификацию что разработчики деляться на группы:
неопытных — тех кто считает что всё надо делать идеально и входят в диссонанс при необходимости «некрасивых» решений; опытных — тех кто знает что они могут ошибаться, как и люди вокруг них и стараются экономить своё время на избежании наиболее частых ошибок [...]
Недавно, просматривая статистику поисковых роботов на нескольких своих сайтах я не без удивления обнаружил что один из самых активных по числу обращений и трафику — это snap.com.
К разговорам о Search 2.0 и о радикальных изменения в поисковых алгоритмах. Собственно их подход весьма отличается от остальных, индексировать не всё что попало, а только то чем [...]
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (925)
- eGov (944)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (197)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (49)
- открытые данные (8)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (943)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability


