Поиск информации. Взгляд со стороны

SoftInform

23-08-2005

Вернуться на:
стр.533 категории "Программное обеспепчение"

Каждый из нас не один раз в своей жизни сталкивался с проблемой поиска информации. Не важно, какой источник данных мы используем: интернет, файлы на диске, база данных или глобальная информационная система какой-либо крупной компании.

✐ место для Вашей рекламы

Проблем может быть множество: это и физический объем «базы» в которой осуществляется поиск, и неструктурированность информации, и различные типы файлов, в которых эта информация содержится и даже сложность формулировки поискового запроса. Уже сейчас объемы информации, к примеру, на отдельно взятом персональном компьютере можно сравнить с объемами текстов приличной библиотеки. А потоки неструктурированных знаний в будущем будут только возрастать, притом гигантскими темпами. Если для обычных пользователей это еще пол беды, то для крупных компаний отсутствие контроля за информацией может означать большие проблемы. Таким образом, давно возникла потребность в создании систем и технологий поиска, облегчающих и ускоряющих доступ к нужной нам информации. Таких систем множество, да и не каждая система – это уникальная технология. И какую технологию именно выбрать – напрямую зависит от тех задач, которые предстоит решать. Спрос на совершенные инструменты поиска и обработки информации все более возрастает. Что же обстоит с предложением?

Не особо вдаваясь в различные изюминки технологий, программы и системы поиска можно поделить на три группы. Это глобальные поисковые интернет-системы, готовые решения для бизнеса (корпоративные технологии поиска и обработки информации) и простой файловый или фразовый поиск на локальном компьютере. Различные направления – по идее различное исполнение.

Локальный поиск
С файловым поиском на отдельно взятом персональном компьютере все просто. Он не отличается особыми возможностями и какими-либо изысками, разве что выбором типа файла (медиа, текст и так далее и места поиска). Вводим имя искомого файла (или часть текста, например, документа Word) и вперед. Скорость поиска и результат напрямую зависят от того, что мы вводим в строке запроса. Интеллектуальности тут по нулям – обычный перебор наличествующих файлов на предмет соответствия. Что, в общем-то, и оправдано – зачем создавать навороченную систему для столь нехитрых нужд?

Технологии глобального поиска
Совсем иначе дело обстоит с поисковыми системами, работающими в глобальной сети. Тут уже не до перебора. Гигантские объемы (тот же Яндекс может похвастаться индексацией более чем 11 терабайт данных), специфика организации и структуризации информации и глобальная хаотичность сделают простой поиск не только неэффективным, но и долгим и трудоемким. Поэтому в последнее время так продвинулись вперед разработки именно по оптимизации и улучшению поиска. Но пока схема все еще остается довольно простой (за исключением секретных нововведений каждой отдельно взятой системы) – фразовый поиск в проиндексированной базе документов с учетом морфологии и синонимов. Само собой, такой подход работает, хотя проблемы до конца не решает. Читая десятки страниц из различных статей, посвященных улучшению поиска с помощью того же Google или Yandex, можно прийти к выводу, что без знания скрытых возможностей данных систем найти нужный документ по запросу – дело не одной минуты, а иногда и не одного часа. Проблема в том, что такая реализация «поиска» очень зависима от фразы или слова «запроса», вводимого пользователем. Чем запрос расплывчатей, тем поиск хуже. Это уже аксиома. Или догма – как угодно.
Конечно, при знании и толковом использовании ключевых функций поисковиков и правильном подборе фразы, по которой ищутся документы или сайты можно добиться вполне неплохих результатов. Но это плод кропотливого умственного труда пользователя и времени, затраченного на просмотр ненужной информации, но все же содержащей «наводки» хотя бы для «апгрейда» запроса. В общем, вводим фразу, просматриваем несколько результатов, убеждаемся, что искали не так, вводим новую фразу и так до того момента, пока соответствие не становится максимальным. Но и тогда шансы найти нужный документ все еще остаются довольно низкими. Заморачиваться с «расширенным поиском» (а он представлен, в принципе, неплохим набором функций – выбор языка, формата файла и так далее) обычный пользователь не будет. Хотелось бы просто ввести слово/фразу и получить ответ. А как он будет получен – не важно. Пусть лошадь думает – у нее голова большая. Может быть, это и не к месту, но одна из функций Гугля - «Мне повезет» очень хорошо характеризует поиск с помощью существующих технологий. Но все-таки она вертится. То есть, технология работает. Пусть не идеально и не всегда как нам хочется, но если сделать скидку на сложность поиска в хаосе интернет и на объем данных, то даже приемлемо.

Корпоративные системы
Третьей в списке значатся готовые решения на базе поисковых технологий. Они предназначены для серьезных компаний и корпораций, обладающих действительно гигантскими базами данных и под завязку набитыми различными документами информационными системами. В принципе, технологии сами по себе могут использоваться и для «домашних» нужд. Например, работающий вне офиса программист найдет применение технологии поиска для разбросанных по всему жесткому диску своего компьютера исходникам различных программ. Но это частности. Основное применение данные технологии находят все же в тех случаях, когда требуется осуществлять быстрый и точный поиск в больших массивах данных и для работы с различными источниками информации. Схема работы таких поисковых систем довольно проста (хотя за ней кроется, конечно, множество уникальных методов индексации информации и обработки запроса): поиск по фразе. С учетом всех словоформ, синонимов и прочая. Что опять же приводит нас к проблеме человеческого ресурса: при использовании такой технологии (а это, для примера, линейка программ «Hummingbird» или «Verity») пользователю надо сначала составить для себя ориентировочные фразы, которые будут являться критерием поиска, и будут, по идее, встречаться в нужных документах. Но, далеко не факт, что пользователь самостоятельно сможет подобрать или вспомнить нужную фразу и опять же нет особой уверенности, что последующий поиск будет удовлетворительным.
Еще одним ключевым моментом является скорость обработки запроса. Конечно, при использовании в качестве фразы для поиска целого документа вместо одного двух слов, точность поиска увеличивается на порядок. Но на сегодняшний день такая возможность просто не использовалась из-за очень большой емкости процесса. Дело в том, что поиск по нескольким словам или небольшой фразе не даст нам точной похожести найденных документов. А поиск по фразе длиной в целый документ в существующих системах занимает слишком много времени и очень требователен к вычислительным ресурсам. Можно привести условный пример. При отработке поискового запроса по одному ключевому слову большой разницы нет, с какой скоростью будет отработан этот запрос: 0,1 секунды или 0,001 секунды, поскольку пользователь разницы и не заметит. Если же взять среднего размера документ, который содержит порядка 2000 уникальных слов, то поиск с учетом морфологии (всех словоформ) и тезаурусов (синонимов), и вывод релевантного списка найденных документов в случае с поиском по ключевым словам займет несколько десятков минут (что неприемлемо для пользователя).

Промежуточное «Итого»…
Как видим, существующие на сегодняшний день системы и технологии поиска документов хоть и работают (частью даже замечательно), но все же не решают основной проблемы поиска в полной мере. Если устраивает скорость, то качество поиска оставляет желать лучшего. А если поиск точный и адекватный, то это требует уйму времени и вычислительных ресурсов. Можно, конечно, решить данную задачу очевидным способом – повышением вычислительной мощности. Но, ставить в офис систему из нескольких десятков ультра-скоростных компьютеров, которые будут без перерыва обрабатывать фразовые запросы из тысяч уникальных слов, перепахивая десятки гигабайт входящей корреспонденции, технической литературы, отчетных документов и прочей информации – более чем невыгодно и нерационально. Есть выход лучше.

Уникальный поиск похожих
На данный момент многими компаниями ведутся интенсивные разработки в области полнотекстового поиска документов. Уже и скорости вычислений позволяют создавать технологии с различными степенями обработки запроса и огромным количеством дополнительных условий. Да и опыт в создании систем фразового поиска дает разработчикам неоценимую информацию для продвижения дальше. Для создания все более и более совершенных технологий и систем. В частности, одной из самых популярных и известных технологий является все тот же Google. В частности, его функция «similar pages». Использование данной функции показывает пользователю страницы, максимально похожие по своему контенту на заданную. В принципе, эта возможность работает, но четких результатов пока получить не удалось – результаты размыты, релевантность низкая, а иногда технология вообще стопорится и выдает полное отсутствие похожих веб страниц. Скорее всего, это обусловлено все теми же проблемами глобальной сети – хаосом и неструктурированностью информации. Но, прецедент все же есть, поэтому дело создания действительно работающей без сучка без задоринки системы – лишь дело времени.
Что касается корпоративных систем обработки и поиска знаний, то тут дело обстоит несколько хуже. Действующих (а не разработанных на бумаге) технологий – раз два и обчелся. А уж действительного поиска похожих документов пока не сделал никто из титанов и гуру поисковых технологий. Может быть, за ненадобностью (хватает фразового поиска?), а может быть из-за сложности реализации. Но готовая работающая технология все же есть.
SoftInform Search Technology – технология поиска документов, похожих по своему содержанию на заданный, разработанная компанией «СофтИнформ». Она позволяет осуществлять быстрый и точный поиск похожих по содержания документов в любых объемах данных. Разработана данная технология на основе математической модели анализа структуры документа и выбора похожих слов, словосочетаний и массивов текста. Результатом поиска является вывод максимально похожих на заданный фрагмент текста документов с указанием процента релевантности. В отличие от стандартного фразового поиска, при поиске похожих не требуется заранее подбирать ключевые слова – поиск осуществляется по всему документу в целом. Технология работает с различными источниками информации, которая может содержаться как в текстовых файлах форма txt, doc, rtf, pdf, htm, html, так и в базах данных большинства распространенных информационных систем (Access, MS SQL, Oracle, а также любых СУБД, поддерживающих SQL). В ней также дополнительно присутствуют функции использования списков синонимов и выделения «важных слов», для конкретизации поиска.
Технология поиска похожих позволяет существенно уменьшить потерю времени на поиск и повторный просмотр одних и тех же или очень близких по содержанию документов, сократить время на обработку дублирующихся данных на стадии занесения информации в архив и формировать подборки документов на заданную тематику. Плюс ко всему, технология компании «СофтИнформ» далеко не так сильно чувствительна к мощности вычислительной техники как уже существующие и позволяет обрабатывать данные с очень высокой скоростью даже на обычных офисных компьютерах.
Данная технология – это уже не просто теоретическая разработка. Она испытана и с успехом используется в проекте оказания юридических услуг по телефону, где крайне критична скорость поиска информации. И она наверняка будет более чем полезна в любой базе знаний, аналитической службе или службе саппорта крупной фирмы. Универсальность и эффективность SoftInform Search Technology позволяет решать широкий спектр проблем, возникающих в процессе работы с информацией. Это и размытость информационного наполнения (при вводе документа в базу данных можно практически мгновенно определить, новый ли это документ или дублирующий уже содержащийся в базе файл), и анализ похожести документов, которые уже введены в базу, и быстрый поиск тематически похожих документов, что сохраняет время, затрачиваемое на подбор ключевых слов и просмотр ненужных документов.

Перспективы
Кроме основного назначения технологии поиска похожих – а это быстрый и качественный поиск информации в гигантских массивах (текстах, архивах, базах данных) – можно выделить также и интернет направление. Например, возможна разработка экспертной системы для обработки входящей корреспонденции и новостей, которая станет важным инструментом для аналитиков из различных компаний. Прежде всего это произойдет за счет того, что ни в одной существующей системе нет поиска документов похожих по содержанию на заданный. Сюда же можно отнести решение проблемы спама поисковых машин с помощью дорвеев (скрытых страниц с ключевыми словами, перенаправляющих на основные страницы сайта и использующихся для искусственного повышения рейтинга ресурсов в поисковиках) и проблемы e-mail спама (анализ на более высоком и интеллектуальном уровне – что существенно надежней существующих систем). Но самым интересным и перспективным направление развития SoftInform Search Technology в сфере интернет является создание поискового движка, основное отличие которого от существующих аналогов будет в том, что поиск будет осуществляться не только по ключевым словам, но и по похожим веб документам, что добавит в поиск гибкости и сделает его намного более удобным и качественным.

Подводя итог, можно с уверенностью сказать, что будущее - за технологиями полнотекстового поиска похожих документов. Как в сфере интернет, так и в сфере корпоративных систем поиска. Неограниченные возможности развития, адекватность результатов и скорость обработки любого по объему запроса делают данные технологии намного более удобными и востребованными. SoftInform Search Technology – это, возможно, только первая ласточка. Но уже работающая, стабильная и уникальная. Аналогов которой пока нет - об этом свидетельствует наличие Евразийского действующего патента. Думаю, что даже при помощи «поиска похожих» найти похожую технологию будет трудно.

Опубликовано: 23 августа 2005 г.

Ключевые слова: нет

Извините, комментариев пока нет