Онлайн API и идентификация языка

На днях искал онлайновые сервисы способные помочь при работе с разного рода информацией, в частности одна из задач в определении кодировок и языка веб-страниц, ибо возможность переложить эту рутинную задачу на какой-либо сервис онлайн часть ресурсов может высвободить.

В результате посмотрел на LangId.net и AlchemyAPI и там и там одна и та же ерунда — до половины всех русскоязычных документов определяются как вьетнамские.

При этом информацию о кодировках они вообще не представляют и, похоже, по кодировкам возвращаемым на сервере и на странице коррекцию определения не производят. Иначе говоря, пользоваться ими нельзя. Разумеется есть разные программные реализации того же и определить язык и кодировку своими силами возможно, но это всегда доп. нагрузка на оборудование.

Понятное дело что сервисных и утилитарных API для Рунета и русского языка в частности практически нет. Разьве что вот Яндекс стал предоставлять http://api.yandex.ru/speller/, но это капля в море.

А кто знает какие-либо полезные онлайн API, применимые к Рунету, русскому языку и распознаванию текста?

About This Author

  • http://daedmen.livejournal.com/ daedmen

    на хабре уже обсуждали на тему языков http://habrahabr.ru/blogs/webdev/52239/

    • http://ivan.begtin.name Ivan Begtin

      Обсуждать то обсуждали, да полезного из этого обсуждения немного — разьве что пара ссылок

  • aprioristaffp

    У нас в строне стока специолистов а мы как сегда пользуемся капле моря

  • aprioristaffp

    В нашей строне стока специолистов а мы как сегда пользуемся каплей моря )

  • aprioristaffp

    У нас в строне стока специолистов а мы как сегда пользуемся капле моря

  • aprioristaffp

    В нашей строне стока специолистов а мы как сегда пользуемся каплей моря )

Яндекс.Метрика