Повторно решил собрать в один пост все свои заметки по алгоритмам, структурам данных и практикам работы с информацией. В основном это небольшие тексты рассуждений, но есть и значительные по объёму тоже.
Из HTML в RSS
- Из HTML в RSS и другие форматы
- Анонс: Преобразование из HTML в RSS в закрытом тестировании
- Скиур. Ленты новостей университетов
- Скиур. Новые примеры извлечения новостей
- Веб, списки и уникальность страниц
- Подборка RSS лент ФОИВов из Скиура
- Скиур. Технологическое
- Скиур — первое обновление
- Скиур запущен
- Некоторые результаты по Скиуру — превращению новостных лент в RSS
Классификации: Geotagging — геоклассификация, тематическая классификация
- Тематическая классификация веб сайтов
- Раздача датасетов. Домены с геокодами
- Geotagging — заблуждения и размышления
- Geotagging результаты
- Automatic Geotagging Expreriments
- Эффективное геокодирование данных
Мир как поток и совокупность информации (серия связанных заметок)
- Часть 1
- Часть 2
- Часть 3
- Часть 4. Информационная архитектура и критерии качества раскрытия информации
- Часть 5. Информационная психология
- Часть 6. Конечность форм. Онтология форм
- Целостность формы и представления информации
- О аспектах и особенностях кодирования информации и отдельных кодов
- Вероятностная изменчивость данных
- Между данными и их представлением. Информационные договора
- О шаблонности восприятия мира
Управление справочниками и расшифровка кодов
- Об организации раскрытия информации, реестрах и реестр реестров
- Систематизация расшифровки кодов и управления справочниками
- Расшифровка номера социальной карты и номера SIM карт
- Заметки по расшифровке ФИО
- Расшифровка кодов. Телефонные номера, ISBN
- Ещё немного магии цифр. Расшифровка кодов и чисел
- Расшифровка кодов БИК, кор. счета, расчетного счета
- Расшифровка кодов ИНН, КПП и других
Распознавание платных ссылок
- Выявление ссылочного спама на основе анализа гиперсссылок и предварительной классификации веб ресурсов (PDF)
- Ссылочный спам. Подходы к решению проблемы
- Анализ ссылок — окончательные итоги
- PageRank, поисковики и зона доверия
- Поисковый антиспам. Алгоритмы
- Антиспам. Тезисные рассуждения
- О спаме тезисно и с примерами. Часть 2
- Дополнительные результаты по выявлению поискового спама
- Ссылочный спам. Цифры, принципы, онтологии
Социальные сети и метрики
- Практическое применение социальных метрик. Плюс новые метрики
- Рейтинг вовлечённости и рейтинг группового влияния
- Социальные сети. Продолжение темы кластеров сообществ
- Социальные сети. Кластеры сообществ и авторитет в кластере
- Социальные сети, метрики и их применение
- Социальный рейтинг как спам фильтр
- Социоранкинг, кластеры и выявление групп влияния
- О принципе рейтинга блогов Яндекса
- Рассуждения о социальных сетях
- О Социоранке и социальных сетях
- Социальные рейтинги и метрики — 2. Метрики сообществ
- Социальные сети. Неправильное рейтингование
- Социальные рейтинги и метрики
- Социальный тематический PageRank
- Мысли о социальных сетях
Лингвистика
- Лингвистические трюки и распознавание национальности по имени
- Лингвистика. Частотный анализ -2
- Исправление опечаток. Понимание подходов
- Лингвистика, работа с текстом и частотный анализ
- Алгоритмы. Опечаточное. Микросекунды
- Алгоритмы. Другие подходы к опечаткам
- Техническое. Бенчмарки по опечаткам
- Алгоритмы. Опечаточное. Интересны ли результаты
- Техническое. Опечаточное — постокончательное
- Техническое. Опечаточное — продолжение
- Техническое. Опечаточное
- Систематизация и классификация опечаток
- Техническое. Решение с расчетом расстояния Левенштейна с исправлением опечаток
- Техническое. Про исправление опечаток. Продолжение
- Лингвистика. Частотный анализ и каптча
Онтологии и семантический веб
Анализ регулярных выражений
- Регулярные выражения на больших выборках данных
- Алгоритмы. Регулярные выражения. Пример графика индекса
- Алгоритмы. Регулярные выражения — Know How
- Алгоритмы. Регулярные выражения — Инструменты
- Алгоритмы. Регулярные выражения. Оценка сложности
- Ещё о регулярных выражениях и их анализе
- Скиур. Развитие и регулярные выражения
- Алгоритмы. Индексирование регулярных выражений
- Алгоритмические задачки по регулярным выражениям
- Регулярные выражения. Материалы
- Магия множеств регулярных выражений
Поисковые технологии
- Metadata Analysis and Mining Application
- Поиск дубликатов изображений
- Направленное индексирование и вертикальные поиски. Специфика и особенности
- Подробнее о Rambler.Beta с точки зрения работы с информацией
- О алгоритмах ранжирования и не только. Вопросы и рассуждения
- Смешанные мысли о поисковых машинах, Веб и кризисе
- Систематизация контентного анализа
- Про SEO и ссылки
Разное
- Техническое. Алгоритмические подходы
- Зачем нужны сложные решения простых задач
- Системы управления информацией. Неструктурированный анализ. Структуры данных
- Сложные решения простых задач. Структуризация почтового адреса
- Формы общения и формализация
- Информационные потоки, скрытая информация и связность
- Полнота модели vs. Частные решения
- Раскрытие информации государством плюс поощерение её использования
- О (не) возможности тотального контроля в Интернете
- Cтруктуры данных и их анализ. Сугубо техническое
- Проблема работы с неструктурированными данными
- User taken vs. User generated content
- Качество информации, качество результатов, качество развития






