Наткнулся на ещё один сборщик информации о веб сайтах — http://www.quarkbase.com/ , в отличии от AboutUs.org и BuiltWith он собирает информацию ещё и по ряду социальных и онлайновых сервисов.
Инструменты любопытные, но, признаться, я сомневаюсь в их коммерческой ценности. Несмотря на то что у меня есть несколько алгоритмов довольно подробного извлечения информации о веб [...]
Вдогонку к предыдущему тексту, исправляю упущение отсутствия цифр.
Так вот задачка с использованием расстояния Левенштейна решается очень быстро фильтрами и созданием специальных индексов объём которых может достигать и превосходить объём выборки слов.
Например мои короткие тесты на базе в 100 000 русских слов из словаря Зализняка и расстояния Левенштейна равное 2 показали что при использовании [...]
Чем дальше тем больше я убеждаюсь что все существующие подходы к оптимизации алгоритмов и повышению производительности и точности алгоритмов можно свести к 3 разным подходам.
1. Технологический
Подход по оптимизации «в лоб». Переписать алгоритм на ассемблер, взять другой компилятор, запустить расчёты в сети распределённой сети, задействовать более быстрые процессоры, диски и память, задействовать графический процессор [...]
Психология жизни в информационной среде и восприятия информации отдельным человеком — это, пожалуй, одна из наиболее сложных для меня тем. Причём сложность её даже не столько в отсутствии понимания, сколько в абстрагировании от уже имеющихся подходов психологических — по анализу раздражителей и физиологических — по органам восприятия чувств.
Итак, информационная психология. Чтобы понять что это [...]
Подробнее в публикации на Blogospcoped и видео с новостью (на немецком) про Chrome, видео начинается с 7:09.
Одновременно хочеться отметить что в России ведомства аналогичного Германскому не существует и по сей день. До сих пор ни Минсвязи, ни силовые ведомства никак не регулировали и не публиковали рекомендаций по информационной политике.
А ведь самое [...]
Стоит начать размышлять о промышленной эксплуатации продуктов как то CouchDb, возможностей по управляемости и восстановлению при сбоях — как сбои случаются.
На домашнем сервере у меня посыпался один из дисков, причём основательно — не читается суперблок в ext3fs, похоже что появились и система не грузится и файловая система не распознаётся.
К счастью, большая часть данных [...]
В Юзабилити бюллетене (UPA Russia) опубликовали мою заметку Целостность формы представления информации, интересующимся также могу посоветовать почитать остальные статьи из бюллетеня, там немало интересных материалов.
Может кто сможет помочь с ответами на пару вопросов.
1. Кто знает кто делал новый сайт МинСвязи ?
Мне, как всегда, там нехватает RSS. Правда, что приятно, Скиур изменения на сайте подхватил и RSS мне всё же сформировал.
2. Какие наиболее популярные RSS читалки в Рунете помимо Ленты Яндекса и ридера Гугла? Нужно всё [...]
В эти выходные мне сравнительно немного удалось поработать за компьютером, была уйма других дел, а вот краулеры и нагрузочные тесты на CouchDb как раз смогли отработать полностью.
За пару дней на мой небольшой домашний сервер удалось собрать информацию по доменам в зоне SU, корневые страницы, данные whois и так далее и теперь могу говорить о [...]
Продолжая тему геокодирования или геотеггинга веб сайтов и любых объектов в принципе опишу чуть подробнее даже не сами алгоритмы, а принципиальный подход к подобной классификации — поскольку геокодирование это именно классификация и, более того, это можно сравнить с назначением тэгов. Подход описываемый мною далее, в общем случае, применим к любому типу классификаций объектов.
Пожалуй, первая [...]
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability


