Посты в категории: %d0%b0%d0%bb%d0%b3%d0%be%d1%80%d0%b8%d1%82%d0%bc%d1%8b

Ссылки: Алгоритмы и массивы данных

Информационная архитектура наоборот и анализ форм

В прошлой заметке я писал про построение объектной карты сайта в практическом применении к поиску новостных страниц на сайтах для распознавания новостей. Разумеется, кроме этого применения есть и множество других, в основном не напрямую коммерческих или самозначных, но вспомогательных для других задач.

Интересно и другое — анализ веб ресурсов очень тесно

Читать больше

Метрики для анализа HTML

 

Я ранее неоднократно писал что при анализе HTML (да и любых других неструктурироанных/полуструктурированных данных) очень важен правильный подбор метрик для анализа. Часть из этих метрик и многие другие используются в Скиуре и ещё ряде алгоритмов анализа HTML о которых я ранее упоминал.

  Уровень тэга (tag level) — это характеристика тэга веб

Читать больше

О данных, их качестве и использование выборок

Работу с данными, особенно с большими и/или сложными их массивами можно сравнить, до некоторой степени, с приготовлением пищи. 

Например, чтобы изготовить булочки с корицей и  черносливом необходим не только главный ингридиент — мука, а ещё и длительный процесс по подготовке наиболее вкучных составщяющих как то сбор корицы, и выращивание и сушка

Читать больше

В поисках коллекций регулярных выражений

В поиске баз регулярных выражений для экспериментов единственное более-менее значительное по объёмам — это правила Snort’а и правила Adblock Plus’а, причём последних хоть и мало, но они весьма любопытны областью их применения.

Как будет время, Snort’овые правила я, скорее всего, опробую со своим алгоритмом благо есть несколько миллионов ссылок которые можно

Читать больше

Министерство Энергетики, банки изображений и TinEye

Захожу я сегодня на новый сайт Министерства Энергетики, а поскольку я обычно просматриваю интересные сайты полностью хотя бы уровня до второго — вдруг что интересное, то и тут посмотрел внимательнее.

Про 8-ФЗ на этот раз не буду, они там даже ссылку на него разместили и это правильно.

Я на сей раз о

Читать больше

Скиур и построение объектных сайтов карт в действии

Как пример того для чего Скиур может использоваться — в каталоге сайтов Енота Поискуна сейчас 2148 ссылок посвящённым тематике закупок и присутствия российского государства в сети.

В своё время, чтобы не делать каталог просто набором ссылок, для него был создан специальный скрипт который время от времени проходил по ресурсам

Читать больше

Работа с данными с нечеткой структурой

Прежде чем продолжить рассуждения, а что же такое данные с нечеткой структурой? Начну с примера.

При преобразовании HTML в RSS, как, например, это происходит в Скиуре, очень часта ситуация когда структура данных меняется. Это может быть из-за того что немного подкрутили верстку или, к примеру, у новости появилась метка которая

Читать больше

Полезные умные алгоритмы и каталоги веб-ресурсов

В  посте от 23 февраля я писал про каталог веб ресурсов в поискуне и, всё таки, удалось запустить его полуавтоматическое наполнение ресурсами по тематикам и из 1668 сайтов сейчас туда внесённых около 900 было внесено роботом, при этом, если сравнить время которое бы потребовалось на ручное внесение ресурсов или внесение

Читать больше

Алгоритмы, их применимость и самообразование

Начал перечитывать теоретические основы и материалы по IR которые ранее обходил стороной и глубоко в них не вникал. В основном потому как использовал другие подходы, а вот когда столкнулся с необходимостью индексировать регулярные выражения стало понятно что простыми решениями тут не обойтись и тут необходимо много понимания как организовать классификацию

Читать больше

Яндекс.Метрика