Посты в категории: algoritmyi

Регулярные выражения — материалы

Спасибо, всем кто накидал ссылок и материалов по теме, в данной записи я опишу собранное.

Вот некоторые публикации:

Некоторые результаты по Скиуру — превращению новостных страниц в RSS

Поскольку удалось поднять хотя бы часть информации с дисков,  удалось восстановить и часть результатов обновлённого алгорима Скиура.

Суммарно по результату анализа 22 000 сайтов, новостные ленты были обнаружены у 4 600. Что порядка 21% от всех ресурсов где было найдено 86 тысяч новостных сообщений. При этом анализировались только «морды сайтов», начальные

Читать больше

Техническое: Про исправление опечаток продолжение

Вдогонку к предыдущему тексту, исправляю упущение отсутствия цифр.

Так вот задачка с использованием расстояния Левенштейна решается очень быстро фильтрами и созданием специальных индексов объём которых может достигать и превосходить объём выборки слов.

Например мои короткие тесты на базе в 100 000 русских слов из словаря Зализняка и расстояния Левенштейна равное 2 показали

Читать больше

Эффективное геокодирование данных

Продолжая тему геокодирования или геотеггинга веб сайтов и любых объектов в принципе опишу чуть подробнее даже не сами алгоритмы, а принципиальный подход к подобной классификации — поскольку геокодирование это именно классификация и, более того, это можно сравнить с назначением тэгов. Подход описываемый мною далее, в общем случае, применим к любому

Читать больше

Ссылочный спам. Цифры, принципы и онтологии

Поскольку Яндекс занялся очередным витком борьбы с SEO-ссылками, я напомню и про мои исследования по этой теме.

Последнее Выявление ссылочного спама на основе анализа
гиперссылок и предварительной классификации веб ресурсов (PDF)
было в мае месяце и некоторые цифры я там приводил как и принципиальные подходы.

У Яндекса, конечно, всё по

Читать больше

Скиур — первое обновление

Копия из анонса в skyur_project

Завершилось первое обновление алгоритма. Это обновление является промежуточным и будет дополнятся в дальнейшем.

В это обновление вошли:
— поддержка 44 форматов дат (по сравнению с 20 в прошлой версии);
— поддержка дат обрамлённых текстом слева или справа, например, blog.lexa.ru
— ряд малых исправлений в точности интерпретации

Читать больше

Техническое: Решение с расчетом расстояния Левенштейна для исправления опечаток

Про эту задачку и что у неё есть решения я писал раньше и всё таки решил описать один из способов как её можно решить без использования n-gram.

Предупрежу заранее далее пойдёт техническое описание, я, по возможности, буду избегать использования формул и описывать всё своими словами.

Рассмотрим что у нас есть:

1. Слово, предположительно

Читать больше

Техническое: Алгоритмические подходы

Чем дальше тем больше я убеждаюсь что все существующие подходы к оптимизации алгоритмов и повышению производительности и точности алгоритмов можно свести к 3 разным подходам.

1. Технологический

Подход по оптимизации «в лоб». Переписать алгоритм на ассемблер, взять другой компилятор, запустить расчёты в сети распределённой сети, задействовать более быстрые процессоры, диски и память,

Читать больше

Лингвистика. Частотный анализ и простая каптча

Про анализ текстов и частот букв в частности я писал ранее в «Лингвистика. Частотный анализ — 2«.

Сейчас же приведу пример для чего создаются и могут применяться частотные таблицы и позиционно-частотные таблицы. Одна и наиболее напрашивающихся областей применения — это преодоление блокировки каптчей.

Например, если для каптчи используются слова английского или

Читать больше

Интернет статистика и чего в ней нет. Планы

Не так давно наткнулся на сервис 1stat.ru — актуальная статистика по доменам в Рунете, с грамотно сделанным интерфейсом.

Сбор данных и их визуализация у них явно неплохо налажены — я для себя нашёл много интересного, а заодно понял чего мне нехватает и собственно это то какими исследованиями я уже давно

Читать больше

Яндекс.Метрика