Посты в категории: algoritmyi

Cсылки на 1.01.2009: Twitter, IR, инструменты, профили в соц. сетях и другое

Социальные сети, Twitter, Evernote и так далее:

  • TWHirl — удобное настольное ПО для работы с Twitter’ом изготовленный с помощью Adobe AIR. Бесплатный, удобный, англоязычный. У него есть и российский сайт — http://twhirl.ru, но пока его не пробовал.
  • CEO/CIO/CTO Twitters list — большая подборка на Twitter Feeds различных CIO, CTO

    Читать больше

Техническое. Бенчмарки по опечаткам

Наконец-то я прогнал несколько полноценных тестов по оптимизированному алгоритму и словарю в 1 361 764 слов (1.3 миллиона слов) — спасибо Андрею Сатеренко за словари с скрипт по генерации словоформ. Далее результаты бенчмарков и комментарии.

(далее…)

Читать больше

Систематизация расшифровки кодов и управление справочниками

Проанализировав ещё пару десятков кодов я убеждаюсь что сам процесс расшифровки, предварительный анализ и наглядное представление результатов поддаются систематизации. Причём как систематизации процесса — в виде описания необходимых шагов для структуры кодов, так и построение онтологии кодов.

Эту онтологию, в первом приближении, мне даже удалось подготовить, но, подтвердилось одно немаловажное опасение

Читать больше

Про поисковики и то чем занимаюсь я

Поскольку мне периодически задают вопросы отчего же я пишу столько всего про механизмы поиска, классификации и прочих темах которыми занимаются поисковики, но при этом ни в одном из них не работаю, то я лучше отвечу на эти вопросы заранее.

Всерьёз темой поиска, классификации и т.д. я интересуюсь сравнительно недолго — чуть

Читать больше

Систематизация контентного анализа

Задачка по систематизации которую я в шутку привёл ранее — это, на самом деле, только лишь простой пример того что, например, необходимо делать при любом серьёзном контентном анализе.

До появления любого решения — идёт систематизация этого решения. Эта систематизация может занимать долгое время, но алгоритмы/решения созданные по её результатам могут

Читать больше

Видеотрансляции Совета Федерации РФ

Сегодня совершенно случайно обнаружил что на сайте Совета Федерации РФ появились видеотрансляции. Всем интересующимся как происходят обсуждения законов, рекомендую к посещению по ссылкам на основной странице — http://council.gov.ru/index.html.

Прямо сейчас слушаю вместо заместо музыки, медитативно, хотя и на любителя. Можно прописывать в умерянных дозах вместо снотворного и успокоительного.

Ещё бы они

Читать больше

Алгоритмы. Опечаточное — интересны ли результаты?

Вернувшись таки к теме исправления опечаток — я, наконец-то, подвёл эксперименты под теоретическую основу, а то всё ранее по наитию, и завершил тесты.

В итоге среднее время проверки одного слова по словарю из 108 070 слов занимает от 0.02 до 0.3 секунды для MySQL и от 0.01 до 1.8 секунды для

Читать больше

Техническое. Опечаточное. Продолжение и окончание

В качестве итогов.

После включения основного фильтра проверка одного слова занимает не больше 1 секунды, из которой 0,3-0,4 — это отработка SQL запроса.

Можно ещё посмотреть какие слова проверяются быстрее, а какие медленнее. Включить доп. фильтры, то, наверное, можно ускорить ещё, но это уже нужно только при расширении словаря.

Пока же выборка из

Читать больше

Алгоритмические задачки по регулярным выражениям

Накопилась уже множеством. На некоторые я ответы знаю, на некоторые нет.

——

Дано два регулярных выражения.

Необходимо:

1. Определить существуют ли строки к которым подойдут оба из них.

2. Определить конечность и число (в случае конечности) числа строк к которым подойдут оба из них.

3. Сформировать регулярные выражения:

3.1. Охватывающее пересечение двух

3.2. Охватывающее все элементы не входящие

Читать больше

Мои заметки по IR и род деятельности

Поскольку заметок по IR (Information Retrieval) у меня в блоге накопилось уже порядочно и периодически я слышу вопросы о том что я пишу и почему я об этом пишу, то хочу заведомо уточнить.

Кто-то то увлекается машинами, кто-то футболом, я увлекаюсь информацией в общем случае и принципами работы с ней.

Собственно и

Читать больше

Яндекс.Метрика