Много разных полезных API

Для тех кто планирует делать проекты по открытым данным и не только у меня накопилось какое-то количество API которыми не терпиться поделиться.

API этих много и разных и все они сделаны для обогащения и улучшения данных. А теперь когда появились такие проекты как Mashape появилась еще и возможность публиковать их в общей инфраструктуре.

Итак, для тех кому нужны полезные инструменты:
извлечение новостей из любой HTML страницы — это API из Скиура (http://www.skyur.ru) позволяет находить на страницах новостные блоки, анализирует их, парсит автоматически и дает списком. Получает ссылку на вход, возвращает JSON список найденных новостей. Этот алгоритм чистое ноу-хау. Он врядли будет доступен под открытым кодом, а вот как API — пожалуйста.

парсер Robots.txt — парсер для файлов robots.txt который понимает почти все команды для краулеров и возвращает разобранный файл в JSON формате. Можно его было бы и открыть исходным кодом, что наверное и будет в будущем поскольку никаких особых баз он не требует.

детектор RSS/ATOM фидов — анализирует страницу и находит на ней все RSS ленты упомянутые как в заголовках, так и просто ссылкой в содержании.

извлекатель информации о веб-сайтах — алгоритм который умеет определять технологии на которых веб-сайт сделан. CMS, веб-сервера, модули веб-серверов, язык программирования и многое другое

парсер ФИО и определитель пола по ФИО — специальный парсер который автоматически разбирает ФИО, определяет шаблон в котором оно написано и определяет пол и этнос (национальность) если это возможно. Очень нужная вещь для всех гендерных исследований. Позволяет получить гендерную структуру любого списка людей, например, послов или депутатов или участковых.

 

About This Author

Яндекс.Метрика