Полный Гид По Семантическим Технологиям. Часть 2

header_semantics

Продолжение. Первая часть статьи находится здесь.

4. Семантические API

old_keyboard С возникновением приложений, использующих семантические технологии, мы наблюдаем возникновение семантических API — интерфейсов, по которым можно обращаться к сервисам, используя их данные.

Классическими примером здесь является Open Calais от Reuters, которому я уже посвящал несколько постов. Принцип действия его прост — он берёт обычный текст, например запись в блоге, и возвращает его протеггированным, с информацией о людях, местах, компаниях, упоминающихся в тексте. Но мы получаем не только теги, но и информацию о том, где в тексте эти теги встречаются. Причём система является самообучающейся — предусмотрен и ручной ввод тегов, которые постоянно добавляются в её словари и она становится всё более «умной».

Ещё один пример — SemanticHacker API от TextWise, который предлагает 1 миллион долларов создателям лучшего коммерческого приложения на его базе.

Здесь уже упоминался Dapper — веб сервис, который ускоряет извлечение структурированной информации из простых HTML страниц. Сервис работает просто. Например, сайт, продающий книги, определяет, где именно на нём находится информация об авторе, универсальном номере книги, количестве страниц. Dapper на основе этих данных распознаёт все эти элементы на всех страницах и открывает доступ к этой информации через API. Далее с ней можно делать всё, что угодно, была бы фантазия. Сделать впечатляющий мэшап или же объединить информацию с ряда таких сайтов и создать одну базу данных — выбор за пользователем.

Хотя с технической точки зрения технология не совсем рациональна, так как требует усилий со стороны создателей сайтов, но она очень полезна в реальном мире. Благодаря понятному даже простым пользователям API каждый может использовать информацию с «размеченных» сайтов. Таким образом, становится возможным превратить обычный веб сайт в полноценный сервис.

5. Поисковые технологии

hakia Говоря о семантическом вебе, многие сразу же представляют все его преимущества для поиска информации. Честно говоря, пока что это наиболее «приземлённое» и бытовое, а значит — и наиболее реальное применение семантике. Тут у нас два конкурента — Hakia и PowerSet. Но им на пятки наступает Google, который на человеческие запросы типа «Кто был первым президентом США» даёт вполне адекватные ответы. А ведь именно этим и должны отличаться семантические поисковики.

Существует мнение, что конкурентам Google так и не удастся оторвать значительную часть рынка, даже после сильного усовершествования технологии. В то же время Google остаётся лишь научиться понимать размётку, как, например, Yahoo! и посмотреть в направлении семантики, как ни у кого не останется вопросов — кто в доме хозяин.

В принципе, если прямо сейчас хотите посмотреть на Google в качестве семантического поисковика, поставьте плагин к Мозилле Google Semantics. Это как раз и есть второй подход к семантическому поиску. Зачем изобретать велосипед, когда есть уже готовые решения?

Мне лично больше интересно, что будет, когда оптимизаторы начнут массово оптимизировать свои говносайты под семантические поисковики и сервисы. Ожидается, что пропихивание своих сайтов под наиболее «вкусные» теги или запросы сведёт на нет все плюсы данной технологии. Посмотрим.

6. Контекстные технологии

google_adsense Мы наблюдаем быстрый рост контекстных инструментов на рынке. Контекстная навигация не только улучшает поиск, но и сокращает время на него. Такие приложения как Snap или Yahoo! или SmartLinks «видят» объекты внутри текста и ссылок и выдают релевантную информацию в виде контекста. Результатом становится то, что пользователю даже не надо искать, чтобы что-нибудь найти:)

Если же углубиться в тему, то становится заметно, что контекстные инструменты используют семантику гораздо более интересным способом, чем кажется. Вместо того, чтобы пытаться распознать, что пользователь вводит в поле поиска, контекстные технологии опираются на анализ контекста. Таким образом, получаемая информация уже не является «тыканием пальцем в небо», как в случае с угадыванием того, что вводится в поле.

Таким образом, контекстные инструменты являются более точными и релевантными. Это кардинально отличается от попыток угадывания из миллионов вариантов во время ввода запроса пользователем.

Количество реальных приложений в этой сфере постоянно увеличивается. Семантические технологии, работающие по принципу «сверху-вниз» работают без участие пользователя, максимум, что от него требуется сейчас — поставить соответствующие расширение в браузер. В случае браузера Firefox это Interclue, ThumbStrips, Cooliris и BlueOrganizer.

7. Семантические базы данных

freebase Семантические базы данных — это ещё один аспект практического использования семантических приложений, фокусирующийся на аннотировании информации с целью сделать её более структурированной. Одно из приложений в этой сфере, Twine, фокусируется на создании персональной базы данных знаний. Twine работает по приниципу абсорбирования неструктурированного контента в различных формах, создавая персональную базу данных людей, компаний, локаций и т.д. Контент посылается в сервис через специальный букмарклет, или по электронной почте, или просто вводится вручную. Сервис становится по-настоящему полезен, как только ваш профиль и профили ваших друзей наполняется достаточным количеством информации. В этом случае вам не составит проблем, например, создать персонализированный поиск, заточенный под ваши нужды.

Radar Networks, компания-создатель Twine, подошла к делу серьёзно. Нижний слой сервиса — это RDF, а значит — информация может быть использована другими семантическими сайтами. Но самое большое достижение — это алгоритмы структурирования информации, которые занимаются извлечением объектов из простого текста. Например, Reuters может извлекать из Twine информацию для Open Calais.

Второй крупный игрок на рынке семантических баз данных — Freebase. Подробнее читайте в этом посте, я уже писал об этом сервисе. Кому лень читать, кратко поясню — это более структурированная версия Википедии, цель которой — создать базу данных всей информации на планете. Можете себе представить, насколько мощной может быть такая база!

Но вот что интересно — как Freebase наполняется информацией? Ведь Google каждый день индексирует миллионы страниц, а в Википедии пишутся тысячи статей. Freebase же позволяет редактировать и добавлять информацию пользователям, но основную её часть берёт из той же Википедии и других баз данных, организовывая её в более структурированный в соответствии с семантическими стандартами массив.

Таким образом, проблемы с базами данных, пытающимися играть на семантическом поле, довольно просты, главный вопрос здесь — «Где взять информацию?». И лучшего решения, чем использовать пользовательский ввод на основе уже существующих неструктурированных баз ещё не придумали. Берём статьи с Википедии, устанавливаем между ними отношения, дополняем информацией из других источников. Всё просто.

Выводы

Для каждой новой технологии очень важным является определиться с терминологией и стандартами. Семантический веб предлагает воодушевляющее решение: улучшить обнаружение информации, автоматизировать сложные запросы, улучшить поиск и процесс сёрфинга в целом. Всё ещё само понятие «Семантический веб» значит разные вещи для разных людей. И всё ещё идёт противостояние различных подходов к практической реализации семантики: сверху вниз и снизу вверх, микроформаты и RDF, базы данных и контекстные инструменты. Все они находятся на ранних стадиях развития и сражаются за то, чтобы занять прочное положение на компьютерах пользователей и навсегда изменить способ, с помощью которого мы общаемся со Всемирной Паутиной.