Добыча текста

Организации, которые решили расширить уже имеющиеся у них возможности бизнес-интеллекта за счет использования технологии добычи текстовых данных, могут найти огромное количество важной информации, «спрятанной» во внешне бесполезных, неструктурированных текстах, таких как заметки и документы. Понятно, что неструктурированный текст может быть распределен по категориям и размещен в индексах, благодаря чему появляется возможность с пользой и неоднократно применять его в многочисленных бизнес-приложениях.

Тим Филден, Computerworld Russia #1/2001, http://www.osp.ru/cw/

Перспективная технология помогает извлекать из текстов ответы на вопросы

Если действительно все уже когда-то было написано, значит верно и то, что на каждый вопрос уже когда-то был получен ответ. Осталось только создать механизм поиска, который сможет найти эти ответы, вне зависимости от того, в какого вида документах они были изложены.
Использование известных технологий добычи данных позволяет организациям легко извлекать знания из данных, накопленных ими и сохраненных с применением хорошо проработанных схем, таких как реляционные таблицы. Более того, постепенно это становится распространенной деловой практикой.

Однако сегодня некоторые организации пытаются создать аналогичный инструментарий добычи данных для гораздо более сложного источника: неструктурированного текста. Подобный инструментарий очень нужен практически всем организациям, имеющим огромное (и постоянно растущее) число интерактивных документов, сообщений электронной почты и запросов, часто содержащих чрезвычайно важную информацию.

Короче говоря, приложив эту технологию (примерно таким же образом, как аналитики используют добычу данных для обнаружения знаний или анализа тенденций) к неструктурированной текстовой информации, пользователь или приложения смогут анализировать текст с целью поиска определенной структуры и извлечения содержащейся в нем информации.
Хотя эта задача выглядит довольно легкой, решить ее не так-то просто. Соответствующие технологии только разрабатывается и еще далеки от совершенства. Одна из основных трудностей на сегодняшний день связана с тем, что слова, в отличие от отдельных символов, никогда не были предназначены для использования в компьютерах. Компьютеры работают со словами только потому, что так удобно людям. Единственное, что компьютер понимает о тексте, — это набор символов ASCII. Слово hi (привет) имеет одинаковое представление ASCII, хотя его значение в разных языках может быть разным. Компьютер об этом ничего не знает, для него это просто буквы H и I без пробела между ними. Таким образом, организовать поиск этого слова, или, по крайней мере, осмысленный поиск, довольно проблематично, если не сказать больше.

Но что, если эту комбинацию поместить в базу данных, где содержатся ссылки из других комбинаций символов, такие как hello или даже bonjour? Тогда можно было бы проводить поиск среди всех сообщений электронной почты и создать список всех, с кем здоровался пользователь, причем на любом языке.

Потенциальные возможности этой технологии поражают воображение. К сожалению, и усилий для ее создания требуется много. Производители, от IBM, предлагающей систему Intelligent Miner, до SAS Institute с ее Enterprise Miner, начинают предлагать широкий выбор инструментальных средств текстового анализа, компоненты полнотекстового поиска и инструментарий доступа в Web для расширяемых решений управления знаниями и приложений бизнес-интеллекта (business intelligence).

Есть надежда, что со временем данная технология будет усовершенствована до такой степени, что организации смогут широко использовать ее преимущества в бизнесе, поскольку она позволит приобретать недостающие знания для создания «интеллектуальной основы» информации вне зависимости от ее предназначения.

Добыча текста, если она будет корректно реализована, приобретет особое значение в ближайшее пятилетие, как это произошло с добычей данных в 1990 году.
По мере того как мир постепенно отказывается от традиционных клиент-серверных технологий в пользу подходов, опирающихся на использование Web и беспроводной связи, возможность поиска данных принесет немалую пользу практически каждой организации.

Обсудить на форуме

Написать автору

Написать вебмастеру