Посты за: Февраль, 2008

Алгоритм выявления покупных ссылок. Часть 5. Документ алгоритма

Как и обещал публикую документ описания алгоритма.

Выявление групп платных ссылок  в сети Интернет

Альтруизма в данной публикации немного, так как уже есть понимание ограничений алгоритма и того что нужно для их преодоления, поэтому в документе не все критерии которые я считаю важными при отсеве естественных и неестественных ссылок, но значительная

Читать больше

Вопросы построения семантического веба

Собираю вопросы по семантизации (структуризации) веба. На часть из них ответы у меня уже есть, хотя бы частичные, но многие всё ещё нераскрытые.

1. Как мотивировать создателей веб ресурсов и информационных банков делиться информацией через открытые API?

2.  Можно ли определить тип веб-ресурса (сайта) по его содержимому? Можно ли определить тип информационного

Читать больше

О распределённых поисковых машинах, Enabot и HyperTable

Весьма интересное в загадочном боте EnaBot (http://www.enaball.com/crawler.html) — это то, откуда он приходит — ec2-67-202-55-112.compute-1.amazonaws.com

А это не что иное как Amason EC2, не удивлюсь если при таком раскладе и база хранится в Amazon S3 и Amazon SimpleDB, наверняка не скажешь, но по логике и производительности это должно быть

Читать больше

Некоторые наблюдения за поисковыми машинами. Жизнь ссылки

В последнее время, нечто вроде хобби, в свободное время анализом того как работают поисковые машины и их применимости семантическому вебу. И, также, моделями распространения информации. Одно из наблюдений — это время реакции поисковой машины на появление новой информации.

Быстро сделанный для этих целей мини-проект — Урлус (urlus.ru) который работает

Читать больше

Стратегия минимизации ошибок

В своё время мне довелось слышать такую классификацию что разработчики деляться на группы:

  • неопытных — тех кто считает что всё надо делать идеально и входят в диссонанс при необходимости «некрасивых» решений;
  • опытных — тех кто знает что они могут ошибаться, как и люди вокруг них и стараются экономить своё время на

    Читать больше

Алгоритм выявления покупных ссылок. Часть 4. Вопросы

Размышляю о возможности раскрытия части алгоритма и исходного кода выявления платных ссылок о котором я писал ранее. Сам алгоритм состоит из двух частей — выявление ссылочных блоков и ранжирование найденных ссылок. В данном случае речь идёт о части с ранжированием.

Во-первых потому как уже есть понимание его текущих ограничений и

Читать больше

Yahoo и Hadoop

С интересом обнаружил для себя блог Yahoo! Hadoop, оказывается на сегодняшний день у них самый большой Hadoop кластер из имеющихся.

  • 10 тысяч процессоров;
  • 300 терабайт сжатых данных
  • 5 петабайт данных всего

Судя по тому что они пишут про использование данных собранных в Hadoop для поисковых запросов, не удивлюсь что они постепенно заменяют (или

Читать больше

Открытые протоколы — хорошо, но поздно.

Читаю пресс-релиз MS об открытии документации по протоколам и внутренним форматам.

Хорошее начинание, нет честно, хорошее. Лет 7 назад оно было бы манной небесной, тогда активно решая проблемы увязки Linux и Windows систем лично мне нехватало очень многого. Полноценно работающего Samba сервера, Linux приложений способных работать с RDP в любых

Читать больше

Практика минимизации ошибок

Человек лишающий себя права на ошибку,
рано или поздно сталкивается с тем что
это и есть его самая большая ошибка (c)

В прошлой заметке я писал о стратегии минимизации ошибок и для чего она нужна и услышал ряд откликов с критикой нехватки примеров. Эта заметка будет посвящена как раз

Читать больше

Snap.com — конкурент Google или потенциальное приобретение?

Недавно, просматривая статистику поисковых роботов на нескольких своих сайтах я не без удивления обнаружил что один из самых активных по числу обращений и трафику — это snap.com.

К разговорам о Search 2.0 и о радикальных изменения в поисковых алгоритмах. Собственно их подход весьма отличается от остальных, индексировать не всё что

Читать больше

Яндекс.Метрика