Янв 26 2010

HTML в RSS: Google Reader vs Скиур.

Tag: google, скиурivbeg @ 7:51 пп

Вчера в блоге Google Reader’а появился пост что теперь он поддерживает создание RSS лент из любой веб страницы.  Это хотя и не новая, но полезная возможность уже реализованная в таких сервисах как Page2RSS, ChangeDetection.com

И, собственно, есть мой сервис Скиур (www.skyur.ru) с похожими возможностями, но принципиально иным принципом построения. Об этом я уже прокомментировал Николаю Двасу в заметке Ruformator’а, а расширенно напишу тут.

Главное отличие в принципиальном подходе.

ChangeDetection, Page2RSS, Femtoo и ещё ряд сервисов практически все основаны на разной степени проработанности алгоритмах HTML Diff – определения отличий веб страниц или выделенных на них участках. Фактически эти алгоритмы сводятся к двум задачам:

1. Найти отличия

2. Выделить из этих отличий значимые и преобразовать их в текст.

Причём решения этих задач существуют уже давно, мне не редко попадались настольные программы которые решали то же самое, разница же в веб-сервисах лишь в том что появились версии алгоритмов достаточно быстрые чтобы обеспечивать массовое использование, ну а в случае Гугла это ещё проще с их огромной инфраструктурой и возможностью выгружать веб-страницы из собственных баз, а не с сайтов.

В основу же работы Скиура положены алгоритмы распознавания повторяющихся блоков и элементов этих блогов. Он не сравнивает страницу с предыдущей, а распознаёт на ней различные смысловые участки, которые в дальнейшем реконструирует в объекты или их списки. Новостная лента – это один из примеров таких объектов. Она определяется, извлекается, сохраняется и далее отдаётся как RSS.

Собственно, изначально я делал этот сервис как экспериментальный, он и сейчас такой же экспериментальный и некоммерческий. И для меня целью его создания было решение всего двух задач:

1. Опробация алгоритмов в действии на большом числе разных страниц – это удалось, сейчас поддерживается более 160 различных форматов новостных лент.

2. Возможность подписаться на новости многих госсайтов, которые я периодически читаю, а RSS у них нет – это также удалось решить.

Собственно таковы главные отличия и предыстория Скиура. Ну а цель и дальнейшее развитие сейчас упираются в наличие у меня на него времени и ресурсов поскольку сейчас Скиур по прежнему является частным решением по автоматическому извлечению новостных лент, а не общим по извлечению разнородного структурированного содержимого.


Дек 03 2009

Google Public DNS

Tag: googleivbeg @ 11:27 пп

Тут оказывается Гугл организовал Google Public DNS. Почитать можно тут – http://code.google.com/intl/ru-RU/speed/public-dns/ или на Хабре – http://habrahabr.ru/blogs/google/77199/

Надо только прописать себе DNS сервера от Google вместо провайдерских и, вуаля!,  блокировки домена на стороне провайдеров не работают, да и скорость, по отзывам, у DNS от Гугл неплохо так работает.

Не то что бы идея новая, достаточно вспомнить про OpenDNS и массу открытых публичных DNS серверов в сети, но определённо впервые о том чтобы запустить публичный, быстрый и бесплатный сервис игрок уровня Гугла.

Но, что лично мне особенно интересно, как теперь будут работать многие провайдерские фильтры во многих странах и как провайдеры теперь будут считать свою статистику?

Варианты я вижу следующие:

1. Заблокировать Гугловские DNS сервера.  Плюс в том что быстро, минус в том что с распространением блогов трудно будет уйти от публичности. А то ведь пользователи это найдут и обязательно об этом напишут.

2. Редиректить на свои DNS сервера. Правда у меня нет 100% уверенности что с DNS запросами так можно и правильно поступать и это должно быть чуть сложнее.

Собственно Гуглу это должно дать прекрасную статистику пользовательской активности в сети. При этом подавая всё как полезный бесплатный сервис. Да, мне лично вспоминается статья Пола Грэхема Microsoft is Dead, а Гугл определённо рвётся в лидерство по большебратовости.



Авг 26 2009

Автоматическое индексирование отсканированных документов

Tag: google, информация, поискivbeg @ 5:01 пп

Сегодня обнаружил интересное явление. Оказывается Гугл научился автоматически индексировать PDF файлы содержащие отсканированные страницы документов. Соответственно эти документы теперь находятся через поиск.

Например, вот такой документ МинЭкономРазвития (ссылка на документ со сканами страниц) можно найти через поиск – например, вот так и щелкнув на ссылку «просмотреть» переходим в Google Docs где ещё одним щелчком на «Обычный формат HTML» документ возвращается в виде текста.

В общем, Google нашли себе ещё один большой срез данных. Осталось лишь дождаться когда поисковик начнет заглядывать в архивы, распознавать текст и объекты на картинках и так далее.


Июл 13 2009

Относительно Google OS

Tag: googleivbeg @ 12:50 пп

К вопросу зачем Гуглу своя операционная система.

Лично я считаю что как продукт, особенно как платный продукт, она ему совершенно ненужна. Больше того, я думаю что Google свою ОС продавать не будут, а ОС нужна будет только и исключительно чтобы потеснить MS, но не на десктопе, а на нетбуках и прочих подключенных к сети устройствах.

Собственно, ключевое отличие будет в том что Google могут воспользоваться принципиально иной моделью – не совместимостью, а перенос ПО в онлайн.

Например, по аналогии с тем как Microsoft поддерживали и развивали рынок настольного ПО  и Shareware , точно также Гуглу будет достаточно запустить партнерскую программу для онлайн сервисов и значительно интенсифицировать создание ПО в рамках Google App Engine.

Получится у них или нет – время покажет.


Апр 13 2009

Госсайты, счетчики и иностранные сервисы

Когда чиновники говорят о принадлежности баз пользователей социальных сетей или систем коротких сообщений зарубежным компаниям, то важно не забывать что эта информация хоть и важная, но и не самая ключевая.

Поставим вопрос шире, а как создаётся и распространяется информация о пользователях в сети, с их ли согласия или без, какую информацию можно подтянуть по «длинному следу»?

Можно быть уверенными что очень немалую. Те же счетчики Google Analytics, Liveinternet, Mail.ru, Rambler.ru и метрика Яндекса позволяют отслеживать активность пользователей, а также по информации о ним в своих соц. сетях и профилях знать о его шаблонах поведения.

Но дело не только в этом, дело ещё и в том в каком виде и сколь долго эту информацию счетчики хранят и как используются. К примеру, даже если на государственном сайте  может быть раздел посвящённый правилам использования информации о пользователе в как логов с указанием сроков хранения, то если используется внешний сервис, то ничего такого нет и в помине. Госсайты повсеместно увешаны счетчиками самого разного толка, точно также они оставляют постоянные куки или используют внешние сервисы которые это делают. 

И в этом плане мы серьёзно отстаём от тех же США в части регулирования приватности – если у них выкладывание на сайте Белого дома видео с Youtube привело к иску со стороны активистов по борьбе за приватность которые указали на меморандум M-03-22 о запрете использоания persitent cookie и, в итоге, добились снятие Youtube с сайта Белого дома, а Google анонсировали сервис delayed cookie.

Но это в США, а у нас на сайте единого окна города Москвы, даже в, условно закрытом, HTTPS разделе висят счётчики Google Analytics и Spylog. Хорошо ещё если сайт организован таким образом что в GET запросах не передаётся приватная информация, но если это всё таки происходит, а у лично у меня уверености такой нет, то это необходимо проверять и тщательно. А то что Google что Spylog могут иметь доступ к персональной информации и о гражданах – вопрос достаточно серьёзный, не единичный и никак не проработанный.

Лично моё мнение прежнее – во всём что делает государство в Рунете, коррупции гораздо меньше чем бессистемности.


Дек 16 2008

Google и Microsoft не попали в 20-ку наиболее доверяемых компаний

Tag: googleivbeg @ 8:53 пп

The Ponemon Institute опубликовали на сайте Trustee исследование с перечнем компаний наиболее заботящихся о приватности пользователей и в 20-ку их списка  не попали Google и Microsoft.

В то же время можно посмотреть как изменились позиции лидеров за это время.

2008 Ranking 2008 Ranking
1 American Express (remained number one) 12 Intuit (+7)
2 eBay (+6) 13 WebMD (-1)
3 IBM (no change) 14 Yahoo! (new to the top 20)
4 Amazon (+1) 15 Facebook (new to the top 20)
5 Johnson & Johnson (+1) 16 Disney (-1)
6 Hewlett Packard (+10) 16 AOL (-12)
6 U.S. Postal Service (+1) 17 Verizon (new to the top 20)
7 Procter & Gamble (+2) 18 FedEx (new to the top 20)
8 Apple (new to the top 20) 19 US Bank (-2)
9 Nationwide (remained the same) 20 Dell (-7)
10 Charles Schwab (-8) 20 eLoan (-9)
11 USAA (+4)

Сама новость подсмотрена здесь: http://www.sfgate.com/cgi-bin/article.cgi?f=/c/a/2008/12/15/BU7F14N56T.DTL

Непосредственно анонс можно прочитать здесь: http://truste.org/about/press_release/12_15_08.php

Правда надо признать что их методика анализа описана более чем скромно и единственный критерий доверия этому исследованию – это репутационное доверие к The Ponemon Institute, чего, на мой взгляд, явно недостаточно.


Ноя 13 2008

Официальный гайд Google по SEO

Tag: google, web, поискivbeg @ 10:49 дп

Гугл опубликовали у себя в блоге 22 страничный PDF документ с рекомендациями по оптимизации сайтов под поисковые системы.

Нового там мало, основной акцент на правильной подачи собственного контента.

В то же время, что характерно, правила описанные там значительно пересекаются с общими правилами подачи информации которые я ранее упоминал у себя в блоге.

Кстати, многие из этих правил поддаются формализации и значительной автоматизации в рамках CMS систем.


Сен 11 2008

German government tells citizens not to use Google Chrome

Tag: google, not so wtf yet, webivbeg @ 8:12 дп

Подробнее в публикации на Blogospcoped и видео с новостью (на немецком) про Chrome, видео начинается с 7:09.

Одновременно хочеться отметить что в России ведомства аналогичного Германскому не существует и по сей день. До сих пор ни Минсвязи, ни силовые ведомства никак не регулировали и не публиковали рекомендаций по информационной политике.

А ведь самое оно время.

Спасибо illyn за наводку.


Сен 04 2008

Сhrome: Обновление EULA

Tag: google, not so wtf yetivbeg @ 11:27 дп

В Гугле таки признали ошибки и поправили лицензию, её можно посмотреть например, тут – http://www.google.com/chrome/intl/en/eula_text.html.

А вот русский вариант, что-то не изменился – http://www.google.com/chrome/intl/ru/eula_text.html

Предлагаю Гуглу идею в следующем Chrome-комиксе на первой странице нарисовать их юристов с плакатом «Мы больше не будем»:)

Ну а если серьёзно, то ложки конечно нашлись, но осадок остался. Такие мелочи способны подорвать репутацию и менее успешных компаний, вспомним тот же СУП.


Сен 03 2008

Anti-Chrome: ToS WTF?

Tag: WTF, google, web, из жизниivbeg @ 5:47 пп

Говорят что на самом деле Тёмный Властелин

не погиб под Барад Дуром, а резко

уменьшился в росте и оброс шерстью.

По наводке в ToS для Chrome обнаружилось следующее:

11. Предоставляемая вами лицензия на Содержание

11.1. Вы сохраняете авторские (и любые другие принадлежащие вам) права на Содержание, которое вы передаете, публикуете и отображаете с помощью Услуг. При отправке, публикации и показе содержания вы предоставляете компании Google бессрочную, неотменяемую, действующую во всех странах, безвозмездную и неисключительную лицензию на воспроизведение, адаптацию, изменение, перевод, публикацию, публичное распространение, публичный показ и копирование любого Содержания, которое вы отправляете, публикуете или размещаете для показа с помощью Услуг. Единственным назначением данной лицензии является предоставление компании Google возможности показа, распространения и рекламирования Услуг. Эта лицензия может быть аннулирована на определенные Услуги, как определено в Дополнительных условиях этих Услуг.

11.2. Вы соглашаетесь с тем, что вместе с этой лицензией компания Google получает право на предоставление этого Содержания другим компаниям, организациям или лицам, с которыми компания Google сотрудничает в рамках предоставления синдицированных услуг, а также на использование этого Содержания в связи с предоставлением этих услуг.

..

оргинальная ссылка на ToS: http://www.google.com/chrome/intl/ru/eula_text.html

А заодно можно обнаружить что пока это единственная такая лицензия у Гугла.

У меня вопрос, мааленький, но животрепещущий.

- Правильно ли я понимаю что если я авторизуюсь в онлайновом банк-клиенте используя Chrome – то я передаю права на логин/пароль и использование этой информации Гуглу?

- Правильно ли я понимаю что данная лицензия не содержит понятий публичности информации и при публикации в сетях ограниченного доступа, интранете и закрытых веб ресурсах, тем не менее я передаю Гуглу право на содержимое?

- Правильно ли я понимаю что ToS не определяет конечного потребителя услуг и если, к примеру, пользователь Chrome в интернет-кафе нарушит какое-либо из приведённых выше правил, то ответственность будет нести то лицо которое установило (и согласилось с ToS)?

Из последних мыслей – Chrome в топку, а заодно имеет смысл внимательно перечитать все лицензии на исходный код его компонентов, нет ли и там чего подобного.

Update: Обсуждение темы на Slashdot  – http://yro.slashdot.org/yro/08/09/03/0247205.shtml и статья в TheRegister – http://www.theregister.co.uk/2008/09/03/google_chrome_eula_sucks/

На Slashdot привели правильную ссылку (https://www.google.com/accounts/TOS?hl=en) что лицензия похода на ToS для Google Accounts, но ToS для услуги и ToS для браузера это совсем разные требования.


Следующая страница »


Rambler's Top100