Авг 31 2008

Реклама, «СУП» и репутация

Tag: blogging, социальные сетиivbeg @ 5:43 пп

Сейчас многие ругают «СУП» с их «альтернативно умным» ходом по размещению рекламы сразу под постами в ЖЖ и мне вспомнился не так давно прошедший прокате фильм – «Звёздная пыль». Если кто не видел, рекомендую посмотреть, он глубже чем кажется с первого взгляда, но чуть ли не один из забавных и поучительных моментов там сцена которую можно озаглавить как «главное репутация».

Правило это можно распространить буквально на всё, включая бизнес. Какими бы одарёнными не были бы руководители, какими прекрасными не были вспомогательные сервисы, репутацию создают, репутацию создают и разрушают идиотские ошибки и полнейшее нежелание их признавать.

Каким образом «СУП» умудряется ломать и так отсутствующую репутацию можно лишь удивляться. Например, рекламный баланс на веб сайте можно измерить в числе пользователей заходящих на страницу и начинающих искать баннерорезки. Лично я вспомнил про их необходимость только сегодня увидев всё это непотребство на страницах LJ. Рекламу Firefox + AdBlock Plus они сделали отличную. Теперь даже те кто про них не знали начнут резать из ЖЖ всю рекламу, а не только под записями.

В остальном добавлю лишь что по моим расчётам Социоранка «костяк ЖЖ», людей пишущих постоянно и с прицелом на аудиторию – это порядка 10 000 человек и стоит тому же Яндексу подойти более осмысленно и ответственно к собственной блогоплатформе, добавить туда перенос сообществ, Facebook’овость с добавлением своих приложений и возможность массовой миграции с приглашением ЖЖ френдов и СУП останется у разбитого корыта.

В дополнение о ToS LJ где имеется запрет на блокировку рекламу. У меня вопрос к тем кто хорошо понимает в юрисприденции.

  • Может ли медиакомпания продающая рекламу на улицах запретить мне ходить в чёрных очках?
  • Может ли телекомпания запретить мне выключать звук рекламы в телевизоре и ходить за пивом в холодильнике в рекламные паузы?
  • Имеет ли право компания по ремонту автомобилей запретить мне ездить на велосипеде?

Авг 29 2008

Ссылочный спам. Цифры, принципы и онтологии

Tag: web, алгоритмы, информация, поискivbeg @ 10:52 дп

Поскольку Яндекс занялся очередным витком борьбы с SEO-ссылками, я напомню и про мои исследования по этой теме.

Последнее Выявление ссылочного спама на основе анализа
гиперссылок и предварительной классификации веб ресурсов (PDF)
было в мае месяце и некоторые цифры я там приводил как и принципиальные подходы.

У Яндекса, конечно, всё по своему. Основной минус их подхода, на мой взгляд, в том что отсев и пессимизация SEO-ссылок не должны быть самоцелью. Расположение, характер ресурсов, характер связи и многие другие критерии позволяют определять степень близости и отношений между сайтами и страницами и существенно повышать качество результатов и «связность» информации в других сервисах. Это, конечно, сложнее чем прямой тюнинг алгоритмов, но и разница в конечных результатах будет более чем ощутимой.


Авг 28 2008

FedFlix. Государственные фильмы США

Нашёлся ещё один интересный ресурс FedFlix – публикации полнометражных фильмов в хорошем качестве создаваемых госорганами в США. Причём в основном – это обучающие и исторические фильмы.

Отдельно отмечу фильмы NASA и департамента юстиции, а также обучающие фильмы NIST.

Ресурс полезен как тем кто думает о том как государство может раскрывать информацию, так и тем кто просто интересуется раскрытыми там темами.


Авг 28 2008

Онтология государственного веба

Ранее в заметке Государственный веб я приводил оценки по числу государственных сайтов в РФ  что их порядка 10 000.

Чтобы понять происхождение цифр и их предварительность, необходимо вначале сформировать онтологию государственного веба как условный классификатор

Далее я буду перечислять линейным списком основные типы ресурсов и оценки их числа, реальная онтология, конечно, сложнее.

Continue reading «Онтология государственного веба»


Авг 28 2008

Интернет статистика и чего в ней нет. Планы

Tag: web, алгоритмыivbeg @ 12:09 пп

Не так давно наткнулся на сервис 1stat.ru – актуальная статистика по доменам в Рунете, с грамотно сделанным интерфейсом.

Сбор данных и их визуализация у них явно неплохо налажены – я для себя нашёл много интересного, а заодно понял чего мне нехватает и собственно это то какими исследованиями я уже давно занимаюсь – это смысловая классификация веб ресурсов.

Например, ещё в марте я прогонял серии тестов по выявлению различных CMS – в итоге появился алгоритм позволяющий определить где-то с пару десятков наиболее популярных CMS в рунете. Тогда это была не самая интересная для меня тема, но пару десятков тысяч сайтов я так проверил. Задача, в общем-то, простая в реализации, после формирования онтологической основы решения.

Сейчас я практически завершил алгоритм геоклассификации с провязкой к онтологии отношений веб ресурсов, ещё пара-тройка тестов на сложных выборках и всё. Эта задачка посложнее, но тоже решаемая.

Ещё одна тема – плотность и характер отношений между ресурсами – собственно именно её я решал когда публиковал результаты по выявлению платных ссылок. Чтобы понять характер отношений необходимо было вначале отсеять неревантные результаты которыми эти ссылки и являлись.

В итоге наработок накопилось много, плюс ещё многие которые я тут не упоминаю, но все касаются извлечения информации и классификации.

Единственная особенность всех моих алгоритмов – их первоначальная цель точность и провязка с онтологиями (не хочу использовать понятия семантический веб), а не производительность.

Ориентировочно до конца года, после запуска Скиура (преобразователя HTML в RSS), хотя бы часть из этих наработок появится в виде онлайновых сервисов. Во всяком случае все те в которых нет коммерческой составляющей будут доступны публично.


Авг 27 2008

Интервью для TelNews по сервису RSS

Сегодня появилось моё интервью для TelNews по поводу сервиса формирования RSS лент. Для тех у кого были вопросы о том что же это за сервис, как и когда он будет там найдутся ответы.

Почитать его можно по ссылке: http://telnews.ru/Dmitrij_Rodin/c50045/


Авг 26 2008

ГОСТ 34.11.94 и коллизии

Tag: webivbeg @ 3:57 пп

Сравнительно недавно появилось исследование по австро/польской криптогруппы по устойчивости ГОСТ 34.11.94 к коллизиям. Само исследование можно почитать по ссылке, а смысл его в том что и удалось снизить число операций по перебору вариантов до 2105. В любом случае для прямого перебора в разумное время алгоритм всё ещё устойчив, но когда появляются первые такие исследования – это уже первая ласточка, а не пора ли обновить алгоритм от греха подальше, как то сделал NIST в своё время начав рекомендовать использовать SHA-2 (256, 384, 512). Причём сделать это можно аналогичным образом устроив конкурс на лучшую реализацию алгоритма с последующим тестированием.

В остальном же мне до сих пор неизвестна ни одна публичная система где ГОСТовские хэши бы использовались.


Авг 26 2008

Ссылки на 26.08.2008. Массивы данных и e-gov

Tag: links, информацияivbeg @ 2:38 пп
  • theinfo.org – Wiki с большим числом ссылок на инструменты по сбору, обработки и визуализации информации
  • Kirix Strata – коммерческий визуализатор, как альтернатива Tableau. Расширяемость и поддержка Linux это плюсы, меньшая OLAP’овость это минус
  • Open Data Principles – как подтверждение и моих мыслей по раскрытию информации схожая инициатива активистов в США по выработке правил публикации информации гос. органами. Практически все пункты совпадают с тем что писал я – полнота (Complete), целоcтность (Primary), пригодность к автоматической обработке (Machine Processible), доступность (Accessible) плюс ещё множество раскрытых у них куда как лучше – это лицензионная чистота и непроприетарность форматов раскрытия.
  • Finder Geocommons – поисковик структурированных метаданных пригодных для автоматической обработки

Авг 26 2008

Ссылки на 26.08.2008. Веб

Tag: links, web, web 2.0ivbeg @ 12:01 пп
  • Email-Standards.org – проверяют существующие почтовые клиенты на поддержку HTML и пишут по каждому детальный отчёт. Цель проекта – выработка общих стандартов для почтовых клиентов.
  • Yahoo User Interface v3 Preview – новая версия веб интерфейса YUI от Yahoo!. Обещают всё лучше, больше и быстрее.
  • SQL Buddy – смазливая замена для phpMyAdmin. Позволяет управлять базой MySQL через веб интерфейс в удобном виде.
  • Crown Science – анализ Вашей аудитории посредством форм и опросов, от обычных сервисов онлайновых форм отличается чёткой нацеленностью на узкую и нужную задачу.
  • Pencil Project – прототипизатор GUI и дизайна в виде расширения для Firefox.  Доступен также в виде отдельных приложений

Авг 25 2008

Практическое применение социальных метрик и рейтингов плюс новые цифры и метрики

За уже более чем десяток записей я много написал про различные варианты рейтингов с их описанием, но не так много было про то зачем же это нужно в принципе.

Вопрос борьбы со спамом и ботами уже упоминался, для спам фильтра рейтинги авторитетности подходят более чем, но лишь спам фильтром всё не ограничивается.

Приведу некоторые варианты применения:
1. Поиск тематических экспертов.
Это то для чего изначально создавался СоциоРанк и то для что может быть развито до поиска экспертов не просто по сообществам, но по темам когда достаточно ввести набор ключевых слов и знать основных связанных с ними инфлюэнсеров. Реализуется это несложно по упоминаемым мною ранее рейтингам участника в кластере, вначале формируется кластер сообществ/участников вокруг темы, далее рассчитываются наиболее авторитетные.

2. Сервис «найди друга»
Условно сервис поиска и подсказки тех с кем участник соц. сети может быть знаком, но не добавил в друзей. Работать он может на основе анализа несовершенства групп влияния, когда вероятность знакомства может оцениваться по уровню несовершенства групп – чем выше несовершенство, тем ниже вероятность знакомства.
Поскольку ранее этот термин я не вводил. то уровень несовершенства группы - это число отсутствующих связей между её участниками.
Недостаток такого подхода в упомянутой ранее ресурсоёмкости – расчёт взаимосвязанных цепочек может занимать до часа времени на одного участника в зависимости от числа связей, что, конечно можно оптимизировать как технически так и алгоритмически, но это уже совсем другая задача

И дополнительные некоторые наблюдения и возможные метрики:

  • самая длинная цепочка группы влияния обнаруженная точечными проверками – это цепочка из 17 участников. Как и предполагалось, авторитетность и длина цепочки не связаны между собой, что впрочем можно было и так предположить зная алгоритмы их расчёта, но теперь есть подкрепление данной уверенности.
  • цифры читателей сообществ в блогах Яндекса не соответствуют действительностия. В частности видно что число читателей в перечне сообществ является суммой читателей + участников сообщества, хотя единственно верными подходами здесь может быть, либо учёт только читателей сообщества, либо объединение множеств читателей и участников. В любом случае что-то тут не так, некрасивые цифры получаются.
  • у каждой тематической группы есть число участников, а есть число авторитетных участников. В частности число участников с нулевой авторитетностью в среднем варьируется от 30 до 60 процентов от всех участников.

В общем же исследований по этим рейтингам и метрикам у меня уже накопилось лет на 5 вперёд и могу сказать что построение полноценного сервиса рейтингования/анализа блогосферы – это вопрос исключительно инфраструктурный по краулингу блогохостингов. Из интересного для меня лично я пока никак не затрагивал темы онтологии анализа распространения информации в социальных сетях, но это уже тянет на научную работу готовности к которой я в себе не ощущаю, хотя и у темы, безусловно, есть свои практические применения.

В остальном же по теме длительная пауза, социальные метрики безусловно увлекательны, но есть и более увлекательные темы.


Следующая страница »


Rambler's Top100