Посты в категории: algoritmyi

Анализ ссылок — окончательные итоги

Подводя черту под всем что я ранее писал про выявление поискового спама, задачи которую я лично рассматриваю лишь как малое подмножество понимание связей между ресурсами вцелом и автоматической структуризацией информации, так вот итоги которые я могу назвать если не окончательными, то завершающими мой основной интерес к теме.

Всё что я писал

Читать больше

Лингвистические трюки и распознавание национальности по имени

вопросам о том какую информацию можно извлечь из такого простого понятия как личное имя.

Специфика личного имени человека в его происхождении, причём для разных народов, этносов даже в рамках общей среды обитания выбор имени всё ещё остаётся национальной традицией.

Есть некоторые правила которые можно вывести из языковых традиций — это происхождение слов.

Читать больше

Лингвистика. Частотный анализ — 2.

Ранее я писал про работу с текстом и частотный анализ, например, то что при наличии первой и последней буквы и перемешанных остальных слово прочитать возможно. Несмотря на сомнения некоторых читателей, я всё же ещё раз хочу подтвердить — для того чтобы понимать слово, особенно в контексте, часто достаточно только

Читать больше

Светлое будущее поиска

Читаю обзор по КИБу относительно поиска. Читать интересно, хотя и местами странно.

Например, отношение к проблеме seo-спама которую там упоминает Илья Сегалович меня искренне удивляет. Технически, ограничить индексирование платных ссылок не такая уж сложная задача. В своё время я оценивал примерно в два месяца мой собственный алгоритм (алгоритмы) до доведения до

Читать больше

Структуры данных и их анализ. Сугубо техническое

Я периодически публикую записи о том как выявляются платные ссылки — это что-то вроде хобби, довольно  непростая задача, со множеством весьма нетривиальных выводов, к счастью, в ней оказалось меньше необходимости в сложных мат. формулах, во всяком случае пока. На самом же деле смысл не в ссылках как таковых, ссылки следствие, а

Читать больше

Полнота модели vs. частные решения

Чем больше я читаю исследований по работе с информацией в самых разных формах — алгоритмы поиска, разпознавания музыки, голоса и изображений, тем более убеждаюсь в верности того утверждения что больше данных, действительно, бьёт лучшие алгоритмы.

При том что во множестве исследований проводятся весьма интересные эксперименты, а также выводятся весьма точные алгоритмы,

Читать больше

Поисковый антиспам. Алгоритмы

Продолжая тему борьбы с поисковым спамом, основные направления я уже описывал по отдельности, чуть подробнее о всех вместе, на основе публично доступных материалов.

1. Анализ хостграфов и плотности PageRank

Подход на 100% математический и требующих больших вычислительных мощностей для работы. В частности детально рассматриваются все аномалии в разницах весов ссылающихся страниц и

Читать больше

Ссылки на 26.04.2008

Англоязычные ссылки

  • YouTube — Jurassic Park — Unix System Scene — «Это Юникс! Я знаю Юникс!». Именно благодаря этому эпизоду есть отчётливое понимание почему же время реакции интерфейса так важно.
  • The new Attack on RDBMS — автор «наезжает» на классические RDBMS системы и описывает CouchDB. Он не так уж

    Читать больше

Ensemble Learning

Продолжая тему участников Netflix Prize и алгоритмов вокруг конкурса — ещё один интересный блог A Beautiful WWW и несколько публикаций в нём посвящённых Ensemble Learning:

Смысл тот же о чём я писал в прошлом посте о размышлениях превосходстве данных

Читать больше

Лингвистика, работа с текстом и частотный анализ

По рзеультатам одонго орпоса слато пноятно. Не иемет занчнеия,

в кокам пярокде рсапожолены бкувы в солве. Галвоне,

чотбы превая и посляендя бквуы блыи на совём мсете.

Читая материалы по статистике частоты употребления слов в русских и английских текстах убеждаюсь что и среди них тоже очень много «измерений средней

Читать больше

Яндекс.Метрика