Посты в категории: poisk

Магия множеств регулярных выражений

Моё знакомство с регулярными выражениями началось более чем давно, ещё в то время когда я активно встречал в кодах скриптов и использовал сам для подготовки скриптов при администрировании юникс серверов.

Признаться, особой любви к ним я никогда не испытвал. Лично мне никогда не нравился подобный способ «упаковки правил», иногда их просто

Читать больше

Некоторые результаты по Скиуру — превращению новостных страниц в RSS

Поскольку удалось поднять хотя бы часть информации с дисков,  удалось восстановить и часть результатов обновлённого алгорима Скиура.

Суммарно по результату анализа 22 000 сайтов, новостные ленты были обнаружены у 4 600. Что порядка 21% от всех ресурсов где было найдено 86 тысяч новостных сообщений. При этом анализировались только «морды сайтов», начальные

Читать больше

Ссылочный спам. Цифры, принципы и онтологии

Поскольку Яндекс занялся очередным витком борьбы с SEO-ссылками, я напомню и про мои исследования по этой теме.

Последнее Выявление ссылочного спама на основе анализа
гиперссылок и предварительной классификации веб ресурсов (PDF)
было в мае месяце и некоторые цифры я там приводил как и принципиальные подходы.

У Яндекса, конечно, всё по

Читать больше

Анонс: Преобразование новостных лент из HTML в RSS в закрытом тестировании

Введение

Часть из моих предыдущих исследований дошла до результата и сейчас, наконец-то, есть показать наглядно, а не только на уровне рассуждений.

Про сервис Page2RSS я упоминал в своём блоге уже неоднократно — это такой удобный сервис отслеживания изменений на веб страницах, но не без недостатков так как с его помощью можно отследить

Читать больше

Cuil

Все обсуждают Cuil и его переспективы и я добавлю свои 5 копеек.

Разговоры насчёт вот он новый «убийца Google» ходят и ходили про десятки разных проектов — Wikia, Powerset, Facebook и т.д. В основном оценки убийственности измерялись в инновационности и посещаемости ресурса.

Сможет ли это сделать Cuil? Сомневаюсь. Google сейчас как

Читать больше

Скиур: технологическое

Поскольку уже было несколько вопросов о том на чём Скиур основан и как работает приведу некоторые подробности.

В проекте используется 3 технологии:

— CouchDb

— Python

— Django

Насколько я знаю, в России, это первое практическое использование CouchDb, но рад буду ошибиться если кто-либо приведёт примеры обратного.

Почему CouchDb? Потому как для подобного типа задач, когда

Читать больше

Вопросы: Датасеты с миллионами ссылок

Однажды я, по моему, уже спрашивал, но может быть кто-то подскажет где бы взять хотя бы несколько миллионов, а лучше больше, ссылок по сайтам в Рунете? Интересуют ссылки хотя до 2-го уровня, но лучше глубже.

По аналогии такие выборки есть для UK в их WEBSPAM выборке — http://www.yr-bcn.es/webspam/datasets/ плюс несколько

Читать больше

Рунет в марте 2008 год в отчёте Алексея Тутубалина

Алексей Тутубалин опубликовал очередной отчёт по состоянию Рунета охватывающий 2008 год. Отчёт в основном охватывает тему домены+хостинг и весьма интересен в части роста доменов запаркованных в Sedoparking и оттока пользователей с площадок российских хостеров на площадки германские.

Есть повод задуматься о причинах которые там также озвучены.

А я обычно внимательно читаю

Читать больше

Статистика по использованию robots.txt

Поскольку в некоторых из моих алгоритмов, в частности, для проверки платности ссылок, помимо всего прочего, ещё и анализируются файлы robots.txt, приведу некоторую статистику накопленную за это время.

Для анализа использовалась сравнительно небольшая выборка зоны .ru в 7224 сайта, что чуть менее 1% от общего размера Рунета если верить черному

Читать больше

PageRank, поисковики и зона доверия

Любопытные вещи выясняются если сравнивать рейтингование сайтов Yandex и Google.

Например, у Яндекса явный и сильный дисбаланс в сторону высоких рейтингов для онлайновых новостных изданий в то время как Google даёт высокие рейтинги государственным ресурсам практически во всех странах и в России тоже.

Не так давно я просматривал списки сайтов с наибольшими

Читать больше

Яндекс.Метрика