Посты в категории: poisk

Ссылочный спам. Подходы к решению проблемы

Я давно не затрагивал тему ссылочного спама, собственно мои исследования уже с месяц как закончились и за рутинными делами и другими исследованиями было немного времени уделить теме больше внимания.

Как я и упоминал ранее, борьба со ссылочным спамом — это скорее рутинная чем сложная задача.

Помня своё обещание рассказать о том как

Читать больше

Google Begun

Reuters cообщает о том что зарегистрированная в Великобритании компания Рамблер.Медиа продала сервис  контекстной рекламы «Бегун» (ЗАО «Бегун») компании Google.

Про то как это хорошо для Гугла написали и пишут уже немало. Пусть Бегун и не самый удобный сервис, но клиентская база у него несомненно есть. Куда интереснее вопрос о том

Читать больше

Техническое Yahoo! BOSS API

Yahoo! анонсировали доступ к BOSS (Build Your Own System) и это не просто API, это несколько более интересный сервис. Подробнее о нём можно почитать на странице этого SDK

Фактически, они сняли все ограничение на число обращений и пошли по пути предоставления расширенных возможностей для выдачи — map, reduce, sort

Читать больше

Уходы из Yahoo и слухи о изменениях в Яндексе

BusinessWeek пишет что Yahoo покидает сразу несколько известных в поисковом мире людей — Vish Makhidjani, Brad Garlinghouse и Qi Lu.
Подробнее в статье Yahoo’s Executive Brain Drain Continues

Что более всего интересно так это слухи что Vish Makhidjani уходит в Yandex на роль CEO (возможно, это не так, читайте

Читать больше

Geotagging. Ссылки

Ссылки на память, материалы по теме:

Что радует так примерно там написанное

Читать больше

Техническое. Google Protocol Buffers

Google на днях открыли спецификацию и код Protocol Buffers (http://code.google.com/p/protobuf/), IDL для описания структур данных и обмена ими.

Что-то в их подходе безусловно есть, читать такие спецификации проще чем XML и уж тем более RDF, но и ограничения тоже должны присутствовать.

Что важнее — их подход из мира высоких нагрузок и

Читать больше

Регулярные выражения на больших выборках данных

Обнаружил интересное исследование A Fast Regular Expression Indexing Engine и подход к применению регулярных выражений на больших датасетах в вебе на основе предварительного индексирования NGram.

Учитывая что я сейчас активно размышляю (активное размышление=проведение экспериментов) над схожей темой, мне вспомнилось как ещё пару лет назад у меня выдался разговор с разработчиком

Читать больше

Мир как поток и совокупность информации. Часть 2

В первой части я писал о восприятии информации в рамках модели событие-факт и о понятиях информационного потока и связанных с ним явлений. Далее я подробнее остановлюсь на структуре и метриках информационных потоков.

Одна из основных задач при отделении потоков информации друг от друга — является разделение их на основе метрик

Читать больше

Подробнее Rambler.Beta с точки зрения работы с информацией

Начну с того что проект мне лично интересен тем что я и сам плотно занимаюсь вопросом фокусированного индексирования и структуризации данных (Focused Indexing and Feature Extraction) и новинки по теме всегда любопытны. Коротко я по этой теме уже писал, продолжу в деталях.

Далее что лично мне не нравится в Рамблер.Бета

Читать больше

Automatic Geotagging experiments

Продолжая тему работы с информацией и нетривиальной классификацией, на прошедших выходных я решил поставить эксперимент. Перечитав работу сотрудников Яндекса — Automatic Geotagging of Russian Web Sites я таки решился на эксперимент и поставил сам себе небольшую, но определённую задачу задачу из следующих пунктов.

1. Разобраться в механизме назначения гео-меток. Понять

Читать больше

Яндекс.Метрика