Посты в категории: algoritmyi

Про метаданные документов. Без примеров

Последний раз про метаданные в офисных документах я писал более года назад в этой заметке «Извлечение скрытых метаданных из документов MS Office«.

Я какое-то время назад очень активно интересовался этой темой, в последнее время появилось много другого любопытного и метаданные документов отошли на второй план, однако в практических целях иногда

Читать больше

Сервисы извлечения информации о веб-сайтах

В последнее время всё больше появляется сервисов по извлечению информации из веб-сайтов. Например, сравнительно давно существует BuiltWith и недавно появился W3Tech.com.

Оба позволяют увидеть о сайте много всего интересного типа какие счетчики используются, какие технологии используются и какая CMS применяется.

BuiltWith мне нравится чуть больше, но, если говорить начистоту, то оба

Читать больше

Обновление Скиура

Как многие заметили в последнее время Скиур не распознавал многие из новостных страниц.
Основной проблемой этого являлась нарастающая нагрузка на и увеличивающееся число страниц для распознавания что и приводило к таймаутам и т.д. до ненахождения информации.

Чтобы решить эту проблему Скиур был довольно серьёзно изменён внутри:
— заменён парсер на более

Читать больше

Онлайн API и идентификация языка

На днях искал онлайновые сервисы способные помочь при работе с разного рода информацией, в частности одна из задач в определении кодировок и языка веб-страниц, ибо возможность переложить эту рутинную задачу на какой-либо сервис онлайн часть ресурсов может высвободить.

В результате посмотрел на LangId.net и AlchemyAPI и там

Читать больше

В продолжение АнтиSEO

Хотя и может показаться обратное, но я не забыл про эту тему, хотя и она сейчас мне уже менее интересна чем ранее.

Сейчас моя книга «подвисла» посередине — готово 30 страниц, плюс несколько десятков разрозненных заметок и исследований которые надо сводить вместе.

Особенность в том что я не описываю алгоритмы, их нет

Читать больше

Техническое: про регулярные выражения и Яндекс PIRE

Что-то давно я не писал про технологии и алгоритмы.

А тем временем, на днях, представители Яндекса выложили в открытый доступ ряд open source проектов — http://clubs.ya.ru/company/replies.xml?item_no=30753

Самый интересный из которых, на мой взгляд — это PIRE, https://github.com/dprokoptsev/pire Perl Incompatible Regular Expressions Library.

Весьма интересная штука для тех кто когда либо прогонял

Читать больше

Языки программирования и регулярные выражения

Оказывается на http://shootout.alioth.debian.org/ публикуют метрики большинства современных языков программирования из тех что можно запустить на Ubuntu, а то есть практически всех.

Из особенно интересного там есть метрики применения регулярных выражений — http://shootout.alioth.debian.org/u32q/benchmark.php?test=regexdna&lang=all&box=1 на Intel QuadCore Q6600.

Кстати, там много и других интересных сравнений реализаций алгоритмов.

Ну а для регулярных выражений, судя

Читать больше

Онтология и примеры анализа кодов и идентификаторов

Почти год назад я писал на эту  тему в заметке Систематизация расшифровки кодов и управления справочниками, а сейчас продолжу приостановленные тогда размышления.

Если вкратце, то основной постулат такой — подавляющее число маркирующих кодов и уникальных идентификаторов создаются по ограниченному числу правил и подлежат разложению на ряд признаков позволяющих связывать эти

Читать больше

Техническое. Почему Скиур иногда подтормаживает

Буквально несколько дней назад удалось выявить в Скиуре довольно неприятный баг и, частично его исправить. Проблема оказалась в том что мои предыдущие предположения что сервис подтормаживает на прогоне страницы по базе регулярных выражений, конечно были справедливы, но в значительной степени эту проблему удалось решить ещё раньше введя предварительную фильтрацию

Читать больше

Скиур: некоторые цифры и развитие

Для тех кто может быть не знает, Скиур — мой небольшой экспериментальный проект продолжает жить, правда пока его развитие несколько притормозилось, но не от того что нет идей куда развивать, а поскольку есть другие не менее интересные проекты.

Цифры

Пока же приведу некоторые цифры:

— всего из активно используемых веб страниц имеется

Читать больше

Яндекс.Метрика