Полный Гид По Семантическим Технологиям. Часть 1

Что такое семантический веб, RDF, микроформаты, основные подходы к реализации семантических технологий на практике, море ссылок на семантические сервисы и сайты, которые эти сервисы используют, чем семантика может быть полезна бизнесу и какие здесь подводные камни… И всё это по максимуму простым языком. Насколько получилось — решать вам.

header

В этой статье, адаптированной и переведенной с оригинала и для удобства разбитой на две части, мы попробуем проанализировать основные тренды и технологии, которые двигают вперёд семантический веб. Мы попробуем обозначить паттерны, которые только начинают быть актуальными, обозначим различные тренды, и даже заглянем в будущее.

Фактически, эти две статьи могут стать полноценном гидом в мире семантических технологий для рядовых пользователей, не заморачивающихся техническими подробностями, а просто желающими знать — что это такое и как это можно использовать.

В недавнем интервью Tim Berners-Lee заметил, что инфраструктура для семантического веба уже готова. Основатель замечательного блога ReadWriteWeb, Ричард МакМанус, даже обозначил это как тренд в 2008 году. И всё правильно. Ибо мы видим не только готовую инфраструктуру, но также и стартапы в этой сфере, и огромные корпорации, работающие над семантическими технологиями. Об этом кстати, MIW писал, и не раз, просто просмотрите рубрику «Семантический веб».

Семантический веб означает абсолютно разные вещи для разных людей, поскольку он состоит из множества разных аспектов. Для некоторых семантический веб — это веб информации, где она представлена в виде RDF и OWL. Некоторые люди вместо термина RDF используют термин «микроформаты». Другие думают, что семантический веб — это веб сервисы, а ещё одни — что это искусственный интеллект. А бизнесмены вообще не заморачиваются такими вопросами, но утверждают, что на семантическом вебе можно будет заработать, как только появятся простые и полезные приложения для конечных пользователей.

Самое главное, что это совсем не разногласия, а просто разные подходы и взгляды.

1. Снизу вверх и сверху вниз

up-down Существует два разных подхода к понятию семантического веба — классический «снизу вверх», и новый «сверху вниз».

Классический подход фокусируется на представлении информации в виде уже структурированных и размеченных специальным образом страниц, что позволяет компьютеру «понимать» такой текст.

А новый подход использует информацию в её первоначальном виде, то есть как чистый человеческий текст без дополнительной разметки. Естественно, подход подразумевает обучение компьютера чтению такого текста.

Надо заметить, оба этих подхода совершили значительные рывки в последнее время, поэтому определить доминирующий или более перспективный тяжеловато.

Хотя субъективно можно говорить о доминировании сейчас классического подхода, хотя бы потому что Yahoo! в этом году анонсировал поддержку RDF и микроформатов. Это, безусловно, победа для интернет-изданий, для Yahoo! и для конечных пользователей, поскольку поисковые механизмы этой компании значительно улучшились и пользователи получили возможность получать более релевантные результаты.

Классичесий подход «снизу ввверх» укрепил свои позиции также благодаря веб-сервису Semantify и сервиса Dapper. Существование этих сайтов позволило издателям добавлять семантические описания к существующим веб-страницам. И чем больше подобных инструментов будет, тем легче будет конечным пользователям готовить страницы для семантического анализа. Автоматические инструменты семантического описания страниц совмещаются с интуитивно понятными ручными, что и делает классический подход более выигрышным сейчас.

Но даже если и существуют инструменты и мотивация к использованию классического подхода, распространить его не так легко, как кажется. Ведь вся прелесть Google заключается в том, что он понимает информацию такой, какая она есть, и вам не обязательно следовать стандартам W3C или оптимизировать сайт, чтобы попасть в выдачу.

Поэтому альтернатива классическому подходу — семантические инструменты, работающие по новому принципу «сверху вниз» фокусируются на использовании необработанной информации. Среди них можно выделить сервисы обработки естественного языка, которые вычленяют из текста так называемые «entity» — логические объекты (например объект («entity») «Путин» относится к категории «персона»). К этим сервисам относятся Calais иTextWise, которые распознают людей, компании, географические места и т.д., технологии вроде Dapper и BlueOrganizer, которые распознают объекты на страницах, а Yahoo! Shortcuts, Snap и SmartLinks распознают объекты в тексте и ссылках.

Технологии, построенные по принципу «сверху вниз» быстро развиваются и, как мне кажется, более перспективны, чем технологии классического подхода. Ведь ничто не мешает им использовать специальную семантическую разметку, например. Таким образом ожидается скорое слияние технологий и прекращение споров на тему, кто лучше.

2. Технологии аннотаций: RDF, микроформаты и мета заголовки

microformats Давайте рассмотрим классический подход аннотирования — «снизу вверх». В этом случае у нас есть несколько вариантов аннотирования (описания) текста. Они не одинаково мощны, но каждый вариант — это балансирование между простотой и полнотой. Наиболее сложный и полный вариант аннотирования — это RDF: мощный, основанный на графах язык для декларирования объектов, атрибутов и отношений между объектами. Говоря проще, вы можете представить RDF как язык, позволяющий выражать истины, например «Игорь ЭТО человек», «Игорь ВЕДЁТ блог», «Игорь И Егор». RDF мощный язык, поскольку он рекурсивный, точный и математически красив, не говоря уже о сложности.

Сегодня основной причиной использования RDF является его функциональная совместимость. Например, медицинское сообщество использует RDF для описания баз данных человеческого генома. А промышленные компании могут использовать его для описания своих продуктов. Стандартизация — вот что привлекает в нём в первую очередь.

Микроформаты предлагают похожий подход к добавлению семантического слоя на существующий HTML документ, но только используя CSS стили. Мета информация компактна и она внедряется прямо в HTML. Популярными микроформатами являются hCard, который описывает персональную информацию и информацию о компании, hReview, который добавляет мета информацию для описания страниц, и hCalendar — для описания событий, как вы можете догадаться.

Микрофоматы популярны из-за своей простоты, но они очень ограничены. Нет способов описать иерархии объектов, что для семантики критично. Также из-за компактности наблюдается недостаток информации о конкретном объекте. Микроформаты сейчас используются такими сервисами, как Flickr, Eventful, и LinkedIn, остальные потихоньку подтягиваются.

Есть ещё более простой способ использовать семантику, чем микроформаты. Это размещение мета информации прямо в мета заголовках. Этот подход настолько очевиден, что любопытно, почему он ещё не внедрён повсеместно. Например, New York Times недавно начали аннотировать таким способом страницы новостей. Преимущество этой технологии в том, что она отлично работает на страницах, фокусирующихся на определённой теме или вещи. Например, новостная страница может быть описана набором ключевых слов, гео локацией, датой, временем, персонами и категориями. Сервис O’Reilly.com размещает в мета заголовках информацию о книгах, описывая автора, ISBN и категорию книги.

Несмотря на то, что эти подходы совершенно разные, они дополняют друг друга и каждый из них полезен в определённой сфере. Чем больше аннотаций (семантических описаний) будет на страницах Сети, чем быстрее будут внедрены стандарты, тем более легко нам станет находить и ориентироваться во всё возрастающем потоке информации.

3. Потребитель и бизнес

dollars Когда говорят о семантических технологиях, никогда не обходят вопрос их использования потребителями и различными индустриями. В потребительском сегменте мы как всегда ищем так называемую «Убийственную программу» («Killer App»), которая должна раз и навсегда показать, кто здесь главный. Людям обычно пофиг, что продукт относится к категории «семантический веб», им просто хочется простоты и полезности.

До сегодняшнего дня, соревнование в области семантического веба было характерно скорее для университетских групп, однако перспектива того, что вся информация рано или поздно будет аннотирована и что веб станет одной гигантской базой данных RDF, привлекает реальный бизнес, цель которого в этом случае — создание конечных пользовательских приложений.

Вот только маленький список пользовательских приложений, которые существуют уже сейчас: родовой и вертикальный поиск, контекстные превью, персональные системы управления информацией, семантические инструменты для сёрфинга по Сети. И снова нужно подчеркнуть — если эти приложения станут массовыми, пользователь не будет заботиться о том, какую технологию они используют, то есть на этом нельзя будет сыграть маркетологам.

Индустрии же, компаниям, выводящим такие продукты на рынок, это наоборот важно. Во-первых, они и так привыкли разговаривать «техническим языком». Для них использование семантики — это прогрессивно, а значит — есть где развернуться маркетологам. «Наши продукты лучше и умнее, потому что они используют семантические технологии» — звучит неплохо.

Но даже в этом случае с компаниями надо общаться не манипулируя терминами типа «RDF», а используя волшебное слово «стандарты». Стандартный протокол, стандартный способ передачи информации и т.д. Вот что имеет значение для индустрии.

Продолжение статьи...