OLAP.ru   Rambler's Top100
Вы находитесь на страницах старой версии сайта. Перейдите на новую версию OLAP.ru
  
Поиск по сайту
Новости
Основы OLAP
Продукты
Business Objects/ Crystal Decisions
Каталог
OLAP в жизни
Тенденции
Download
Яndex
 
 
 
TopList
 

От данных к знаниям – новые возможности обработки баз данных


Рассматриваются традиционные методы добычи данных ( Data Mining), известные также как методы “обнаружения знаний в базах данных”. Описывается новая технология поиска логических закономерностей в данных, обладающая рядом существенных преимуществ.

В.А. Дюк, Санкт-Петербургский институт информатики и автоматизации Российской Академии Наук

Ключевым фактором деятельности коммерческих, производственных, государственных и других структур является оперативное принятие эффективных решений. Однако естественное стремление усовершенствовать процессы принятия решений нередко наталкивается на труднопреодолимое препятствие — огромный объем и высокая сложность данных, содержащихся в разнообразных оперативных и других информационных системах. Сделать такую информацию доступной для анализа — одна из наиболее серьезных задач, стоящих сегодня перед профессионалами в области информационных технологий.

Современныые подходы к решению этой задачи связаны с построением хранилища данных (data warehouse), позволяющего "высвободить" информацию из жестких рамок оперативных систем и лучше осознать проблемы реальной деятельности. Хранилище данных — это интегрированный накопитель информации, собранной из других систем, на основе которого строятся процессы принятия решений и анализа данных. Несмотря на то что хранилища данных бывают различных типов и могут опираться на разные методологии, и даже философии, построения, все они имеют следующие общие признаки:

  • Информация в хранилище данных организовывается вокруг базовых понятий, используемых в деятельности подразделений
  • "Сырые" данные собираются из неинтегрированных оперативных и унаследованных приложений, очищаются от ошибок, затем агрегируются и представляются в виде, понятном конечным пользователям.

На основании откликов пользователей, а также закономерностей, обнаруженных с помощью соответствующих методов, архитектура хранилища данных со временем претерпевает изменения – то есть процесс создания хранилища является итеративным.

Хранилище данных – это собрание данных, предназначенное для поддержки принятия управленческих решений и отличающееся предметной ориентированностью, интегрированностью, поддержкой хронологии и неизменяемостью. Иными словами, хранилище данных ориентировано на ключевые понятия (например, цели операций), а не на процессы (например, оформление какой-либо документации), и содержит всю существенную информацию, относящуюся к этим понятиям, которая собрана из различных обрабатывающих систем. Эта информация собирается и представляется за согласованные периоды времени и не подвержена оперативным изменениям.

Одними из основных новых возможностей, появляющихся в результате построения хранилищ данных являются следующие:

  • применение средств поддержки принятия решений на основе технологий интеллектуального анализа данных (Data Mining — добыча данных, knowledge discovery in databases — обнаружение знаний в базах данных), включающих методы логического вывода, нейронных сетей и нейрокомпьютеров, и др.
  • использование средств, повышающих простоту поиска информации и обращения к конкретным прикладным функциям, например, гипертекстовым, естественного языка, речевого ввода.

В данной статье мы остановимся на состоянии дел в области интеллектуального анализа данных и кратко охарактеризуем новую технологию, разработанную в СПИИРАН.

Особенности Data Mining

Ключевое достоинство Data Mining по сравнению с предшествующими методами — возможность автоматического порождения гипотез о взаимосвязи между различными параметрами или компонентами данных. Работа аналитика при работе с традиционным пакетом обработки данных сводится фактически к проверке или уточнению одной-двух порожденных им самим гипотез. В тех случаях, когда начальных предположений нет, а объем данных значителен, существующие системы теряют работоспособность и превращаются в пожирателей времени аналитика.

Еще одна важная особенность систем Data Mining — возможность обработки многомерных запросов и поиска многомерных зависимостей. Уникальна также способность систем data mining автоматически обнаруживать исключительные ситуации — т.е. элементы данных, “выпадающие” из общих закономерностей.

Типы закономерностей, выявляемых методами Data Mining

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining:

  • ассоциация
  • последовательность
  • классификация
  • кластеризация
  • прогнозирование

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Если существует цепочка связанных во времени событий, то говорят о последовательности. С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных. Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

Традиционные логические методы Data Mining

Особую ценность в обнаружении закономерностей имеют логические методы. Эти методы позволяют находить в данных логические цепочки (правила), характерные для одной группы объектов (записей БД) и не характерные для других групп.

На основе выявляемых логических правил решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных “скрытых” знаний, интерпретации данных, установления ассоциаций в БД и др. Логические методы работают в условиях разнородной информации. Их результаты эффективны и прозрачны для восприятия.

Вместе с тем, главной проблемой логических методов обнаружения закономерностей является проблема перебора вариантов. Известные методы либо искусственно ограничивают такой перебор (алгоритмы КОРА, ТЕМП), либо строят так называемые деревья решений (decision tree — методы CART, CHAID, ID3), дающие полезные результаты только в случае независимых признаков. Известные эволюционные методы (в частности, генетические алгоритмы) используют сильные эвристические допущения и также далеко не гарантируют нахождения оптимума.

Характеристика новой технологии

Новая технология, разработанная в лаборатории прикладной информатики СПИИРАН, основывается на представлениях специальной локальной геометрии. В этой геометрии каждый объект существует в собственном локальном пространстве событий с индивидуальной метрикой. За счет свойств локальных пространств процедура поиска логических закономерностей в данных получает геометрическое истолкование.

Перебор вариантов при поиске логических закономерностей методами локальной геометрии практически отсутствует. Поиск осуществляется с помощью модифицированного аппарата линейной алгебры. При этом новая технология позволяет обнаруживать “лучшие” (наиболее полные при заданной точности) логические правила для каждой записи в базе данных. Также важным моментов является возможность распараллеливания многих операций, лежащих в основе применяемых алгоритмов.

Результаты, полученные по новой технологии, выдаются в виде таблицы логических правил ЕСЛИ … ТО с указанием их характеристик (точности и полноты) и дендрограммы логических правил с описанием обобщающих понятий и метапонятий.

Разработанная технология обнаружения закономерностей в базах данных методами локальной геометрии отнесена к важнейшим результатам 1998 г. в отчете о деятельности РАН.

Использование этой технологии способно существенным образом повысить “уровень интеллектуальности” хранилища данных и способствовать эффективному решению задач прогнозирования, выявления стереотипных схем и шаблонов в структуре анализируемой информации.

Основные теоретические положения новой технологии изложены в следующей литературе:

Дюк В.А. Обработка данных на ПК в примерах. – СПб: “Питер”, 1997. – 240 с.
Дюк В.А. Формирование знаний в системах искусственного интеллекта: геометрический подход//Вестник академии технического творчества. – СПб.: изд-во СПбГТУ, 1996, № 2. – с. 46–67.
Дюк В.А. Формирование знаний в системах искусственного интеллекта: геометрический подход (ч. 4, глава 2)/В кн. Телемедицина. Новые информационные технологии на пороге XXI века. – СПб: “Анатолия”, 1998. С. 367—389.
Дюк В.А. Data Mining – обнаружение знаний в базах данных (в печати) – СПб: Изд-во “БСК”, 15 п.л.

 Обсудить на форуме   Написать автору   Написать вебмастеру 

© 2001 Interface Ltd