Посты в категории: algoritmyi

Будет книга по АнтиСЕО

Пособирав в последнее время  все имеющиеся материалы прихожу к выводу что на пару книг у меня их хватит. А если писать активно, а не как сейчас — 2-3 страницы в день, то и на большее число. 

Тем, в принципе много, но конкретно сейчас есть желание завершить книгу которую я начал ещё

Читать больше

Расшифровка счетов кредитных организаций

В продолжение моего поста по расшифровке БИК, расчетного и корреспондентского счетов — теперь эта же расшифровка доступна внутри Енота Поискуна посредством инструмента по расшифровке счетов кредитных организаций. Примеры расшифровки можно посмотреть такой 30401810701200001022 или такой 40402810500000000009

Работает всё это на нескольких несложных справочниках главная морока с которыми — это их

Читать больше

Онтология веб’а. Тематическая, географическая и иная классификация веб сайтов

В том что касается онтологии веб и задач классификации — я несколько раз касался этой темы ранее в публикации «Эффективное геокодирование данных» и метапосте с полным перечнем моих заметок и рассуждений.

Я чуть подробнее остановлюсь на том что же являлось основной моих рассуждений и общем подходе к

Читать больше

Скиур — развитие и регулярные выражения

Хотя я давно не писал про Скиур, который экспериментальный ресурс и алгоритм по преобразованию веб-страниц в RSS, тем не менее не забыл о нём. Сейчас основная загвоздка в его развитии алгоритмическая поскольку несмотря на то что мне удалось частично оптимизировать используемые внутри регулярные выражения и уменьших их число до

Читать больше

Скиур. Обновления

Скиур, экспериментальный проект по извлечению новостей из HTML обновился. Основные изменения были внутренними, но кое что будет заметно и пользователям сервиса:

  • вместо Couchdb теперь используется связка Couchdb + MySQL. Couchdb, конечно, прекрасный продукт, но производительность его пока оставляет желать лучшего. Поэтому иерархические данные, такие как веб страницы краулера хрянятся в

    Читать больше

Расшифровка кодов ИНН, КПП и ОГРН

Вдогонку к посту Расшифровка кодов ИНН, КПП и других ноября 2008 года, я всё таки решился и понял что сервис проверки кодов необходим и сделать его не очень сложно, главное было понять как именно он должен выглядеть и как представлять информацию по расшифровке отдельных и идентификации организаций.

В итоге в составе

Читать больше

Выявление смысловых блоков в веб страницах (построение карты объектов)

Поскольку меня довольно часто спрашивают как работает тот или иной алгоритм о которых я здесь пишу — я распишу подробнее что и почему, за исключением тех вопросов которые относятся к know-how.

Для начала к вопросу о том для чего это нужно и лишь потом что это такое. На самом деле задач

Читать больше

Ещё о регулярных выражениях и их анализе

Задача которую я затрагивал в предыдущем посте, конечно, решаема и даже понятно как её решать, вопрос лишь во времени и в оценке достаточности решения для решаемых задач.

Например, лично я считаю что рассматривая регулярные выражения с целью их индексирования необходимо забыть про DFA и NFA и не вспоминать столь долго сколь

Читать больше

Алгоритмы. Индексирование регулярных выражений

За что я люблю тему IR — так это только приготовление (и поедание) пищи может сравниться в разнообразности и возможности занять свободное время.

Ещё одна порция ссылок и размышлений, на сей раз по индексированию регулярных выражений.

(далее…)

Читать больше

Яндекс.Метрика