OLAP.RU: Business intelligence - effective data mining & analysis

РАЗРАБОТКА МЕДИЦИНСКИХ ЭКСПЕРТНЫХ СИСТЕМ СРЕДСТВАМИ ТЕХНОЛОГИЙ DATA MINING

http://www.datadiver.nw.ru

М.Г. Асеев, М.Ф. Баллюзек, В.А. Дюк

Приводится обзор современных подходов "обнаружения знаний в базах данных". Описываются достоинства и недостатки методов Data Mining для поиска if - then правил. Дается характеристика нового аналитического инструмента Deep Data Diver для обнаружения логических закономерностей в данных. Рассматривается пример построения экспертной системы для прогнозирования времени жизни пациентов, перенесших сердечный приступ, по данным эхокардиограммы.

ВВЕДЕНИЕ

Инструментальное, аппаратное, программное, а также фармацевтическое обеспечение медицинских технологий составляют предмет современной медико-технической науки [5]. Одним из важных направлений развития этой науки является алгоритмизация и программирование типовых диагностических, лечебных, реабилитационных и прогностических процедур и создание инструментальных программных систем для генерации различных исследовательских и клинических приложений [6, 7]. В данной статье рассматривается проблема разработки баз знаний экспертных систем для поддержки принятия диагностических и прогностических решений в области медицины.

На начальном этапе развития экспертных (интеллектуальных) систем большинству теоретиков и разработчиков казалось, что проблема получения знаний может быть успешно решена посредством диалога инженера по знаниям с экспертом, специалистом в прикладной области. Но здесь проявился теперь общеизвестный парадокс - чем более квалифицирован специалист, тем менее он способен объяснить свои рассуждения. С другой стороны, разработчики интеллектуальных систем столкнулись с рядом задач, где специалист в принципе может описать на формальном языке "механизм" принятия решений, но не желает раскрывать свои профессиональные тайны, служащие источником его благосостояния и процветания.

Отмеченные причины обусловили в настоящее время приоритет другого подхода к созданию баз знаний экспертных систем, получившего название "обнаружение знаний в базах данных" ( knowledge discovery in databases - KDD ). На сегодняшний день этот подход считается наиболее актуальным. Методам обнаружения знаний, ориентированным на поиск закономерностей в структурах экспериментальных данных, посвящено большое количество современных научных трудов, и их поток постоянно нарастает. Объяснение сложившейся ситуации достаточно тривиально. Если человек, специалист в прикладной области, не может изложить ход своих мыслей при принятии решений, то пусть за него это попытается сделать компьютерная программа. При этом от специалиста требуется лишь демонстрация образцов в виде наборов данных, с "привязанными" к ним результирующими суждениями эксперта (обучающая выборка).

Процесс KDD включает несколько этапов. Сюда относится накопление сырых данных, отбор, подготовка, преобразование данных, поиск закономерностей в данных, оценка, обобщение и структурирование найденных закономерностей.

Специфика современных требований к обработке данных с целью обнаружения знаний следующая:

· Данные имеют неограниченный объем

· Данные являются разнородными (количественными, качественными, категориальными)

· Результаты должны быть конкретны и понятны

· Инструменты для обработки "сырых" данных должны быть просты в использовании

Основные аналитические инструменты, удовлетворяющие перечисленным требованиям, сегодня относят к области технологий Data Mining (раскопки данных). В основу этих технологий положена концепция шаблонов (паттернов) и зависимостей, отражающих многоаспектные взаимоотношения в данных. Поиск паттернов производится автоматическими методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.

Важное положение Data Mining - нетривиальность разыскиваемых паттернов. Это означает, что они должны отражать неочевидные, неожиданные ( unexpected ) регулярности в данных, составляющие так называемые скрытые знания ( hidden knowledge ). Многие специалисты осознали, что для выявления закономерностей в реальных жизненных явлениях нужен особенный аналитический инструментарий, соответствующий их системной сложности. В свою очередь, к обществу пришло понимание, что "сырые" данные содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки.

Системы Data Mining применяются по двум основным направлениям: 1) как массовый продукт для бизнес-приложений; 2) как инструменты для проведения уникальных исследований (генетика, химия, медицина и пр.). Количество инсталляций массовых продуктов, судя по имеющимся сведениям, достигает десятков тысяч. Лидеры Data Mining связывают будущее этих систем с использованием их в качестве интеллектуальных приложений, встроенных в корпоративные хранилища данных [ 2].

Термин Data Mining , появившийся в 1978 г., оказался удачным и приобрел высокую популярность в современной трактовке примерно с первой половины 90‑х годов. Поэтому вполне понятным оказалось стремление разработчиков аналитических приложений, реализующих самые различные методы и подходы, отнести себя к данной категории. Вместе с тем, это не всегда обоснованно.

Например, методы традиционной математической статистики, составляющие основу статистических пакетов , полезны главным образом для проверки заранее сформулированных гипотез ( verification - driven data mining ) и для "грубого" разведочного анализа, составляющего основу оперативной аналитической обработки данных ( online analytical processing , OLAP). Главная причина ограниченной эффективности большинства процедур для выявления взаимосвязей в данных, входящих в состав статистических пакетов, - концепция усреднения по выборке , приводящая к операциям над несуществующими величинами (например, средняя температура пациентов по больнице, средняя высота дома на улице, состоящей из дворцов и лачуг и т.п.). Так называемые "многомерные методы" типа дискриминантного, факторного и других подобных видов анализа приходят к конечному результату через операции над фиктивными векторами средних значений, а также ковариационными и корреляционными матрицами. Поэтому, их результаты нередко неточны, грешат подгонкой и отсутствием смысла.

Программные продукты, реализующие нейросетевой подход , также нередко относят к категории Data Mining . Основной недостаток классической нейросетевой парадигмы заключается в том, что нейронная сеть представляет собой "серый" ящик. Во-первых, топология нейросетей здесь задается исходя из эвристических соображений. И, во-вторых, в натренированных нейросетях со сложной топологией веса сотен и тысяч межнейронных связей не поддаются анализу и интерпретации человеком.

Подход, связанный с разработкой так называемых самоорганизующихся (растущих или эволюционирующих) булевых нейросетей, структура которых поддается расшифровке в виде логических высказываний, соответствует целям и задачам Data Mining , но страдает недостатками, в целом присущими эволюционным алгоритмам (они будут охарактеризованы ниже).

Идея систем рассуждений на основе аналогичных случаев ( case based reasoning - CBR) на первый взгляд крайне проста. Для того чтобы сделать прогноз на будущее или выбрать правильное решение, эти системы находят в прошлом близкие аналоги наличной ситуации и выбирают тот же ответ, который был для них правильным. Поэтому этот метод еще называют методом "ближайшего соседа" ( nearest neighbour ). В последнее время распространение получил также термин " memory based reasoning ", который акцентирует внимание, что решение принимается на основании всей информации, накопленной в памяти.

Системы CBR показывают неплохие формальные результаты в самых разнообразных задачах. Главным их минусом считают то, что они вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт, - в выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на основе каких конкретно факторов CBR системы строят свои ответы. Другой, более серьезный минус заключается в произволе, который допускают системы CBR при выборе меры "близости". От этой меры самым решительным образом зависит объем множества прецедентов, которые нужно хранить в памяти для достижения удовлетворительной классификации или прогноза [4]. Кроме того, безосновательным выглядит распространение общей меры близости на выборку данных в целом.

В наибольшей мере требованиям Data Mining удовлетворяют методы поиска логических закономерностей в данных . Их результаты, чаще всего выражаются в виде IF ‑ THEN и WHEN ‑ ALSO правил. С помощью таких правил решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных "скрытых" знаний, интерпретации данных, установления ассоциаций в БД и др. Логические методы работают в условиях разнородной информации. Их результаты эффективны и прозрачны для восприятия. Рассмотрим основные подходы к поиску логических закономерностей в базах данных.

ОСНОВНЫЕ ПОДХОДЫ К ПОИСКУ ЛОГИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ

Деревья решений ( decision trees ) являются самым распространенным в настоящее время подходом к выявлению и изображению логических закономерностей в данных. Видные представители этого подхода - процедуры CHAID (chi square automatic interaction detection), CART (classification and regression trees) и ID3 (Interactive Dichotomizer - интерактивный дихотомайзер ). Рассмотрим более подробно процесс построения деревьев решений на примере системы ID 3.

В основе системы ID3 лежит алгоритм CLS. Этот алгоритм циклически разбивает обучающие примеры (записи БД) на классы в соответствии с переменной (полем), имеющей наибольшую классифицирующую силу. Каждое подмножество примеров, выделяемое такой переменной, вновь разбивается на классы с использованием следующей переменной с наибольшей классифицирующей способностью и т. д. Разбиение заканчивается, когда в подмножестве оказываются объекты лишь одного класса. В ходе процесса образуется дерево решений. Пути движения по этому дереву с верхнего уровня на самые нижние определяют логические правила в виде цепочек конъюнкций.

Подавляющее большинство современных аналитических приложений в классе Data Mining используют алгоритмы построения деревьев решений. Одними из наиболее известных систем являются See 5/С5.0 ( RuleQuest , Австралия), Darwin Tree ( Thinking Machine Corporation , США), Clementine ( Integral Solutions , Великобритания), SIPINA ( University of Lyon , Франция), IDIS ( Information Discovery , США), KnowledgeSeeker ( ANGOSS , Канада), AnswerTree ( SPSS ). Разработчики таких систем, отличающихся незначительными и несущественными вариациями на тему статистических критериев ветвления и подрезания ( pruning ) деревьев, не скупятся на рекламирование их "превосходных" аналитических свойств, делая акцент на наглядности и понятности получаемых решений.

Алгоритмы ограниченного перебора были предложены в середине 60-х годов М.М. Бонгардом для поиска логических закономерностей в данных. С тех пор они продемонстрировали свою эффективность при решении множества задач из самых различных областей.

Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах (классах) данных. Примеры простых логических событий: X = C₁; X < C₂; X > C₃; C₄ < X < C₅ и др., где X - какой либо параметр (поле), C_i - константы. Ограничением служит длина комбинации простых логических событий (у М. Бонгарда она была равна 3). На основании сравнения вычисленных частот в различных подгруппах данных делается заключение о полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогнозирования и пр.

Система WizWhy предприятия WizSoft (http://www.wizsoft.com) является современным представителем подхода, реализующего ограниченный перебор. Хотя разработчики системы не раскрывают специфику алгоритма, положенного в основу работы WizWhy, вывод о наличии здесь ограниченного перебора был сделан по результатам тщательного тестирования системы (изучались результаты, зависимости времени их получения от числа анализируемых параметров и др.). По-видимому, в WizWhy ограниченный перебор используется в модифицированном варианте с применением дополнительного алгоритма " Apriori ", заранее исключающего из анализа элементарные логические события, встречающиеся с одинаково высокой (низкой) частотой в различных классах.

Авторы WizWhy акцентируют внимание на следующих общих свойствах системы:

· Выявление ВСЕХ if-then правил

· Вычисление вероятности ошибки для каждого правила

· Определение наилучшей сегментации числовых переменных

· Вычисление прогностической силы каждого признака

· Выявление необычных феноменов в данных

· Использование обнаруженных правил для прогнозирования

· Выражение прогноза в виде списка релевантных правил

· Вычисление ошибки прогноза

· Прогноз с учетом стоимости ошибок

В качестве достоинств WizWhy дополнительно отмечают такие:

· На прогнозы системы не влияют субъективные причины

· Пользователям системы не требуется специальных знаний в прикладной статистике

· Более точные и быстрые вычисления, чем у других методов Data Mining

Для убедительности авторы WizWhy противопоставляют свою систему нейросетевому подходу и алгоритмам построения деревьев решений и утверждают, что WizWhy, обладая более высокими характеристиками, вытесняет другие программные продукты с рынка Data Mining .

Эволюционные алгоритмы. Многие исследователи видят путь развития аналитических методов в разработке эволюционных алгоритмов. Среди них наиболее популярными являются генетические алгоритмы, пытающиеся моделировать механизмы наследственности, изменчивости и отбора в живой природе.

Первый шаг при построении генетических алгоритмов - создание исходного набора комбинаций элементарных логических высказываний, которые именуют хромосомами. Все множество таких комбинаций называют популяцией хромосом. Далее для реализации концепции отбора вводится способ сопоставления различных хромосом. Популяция обрабатывается с помощью процедур репродукции, изменчивости (мутаций), генетической композиции. Наиболее важные среди этих процедур: случайные мутации в индивидуальных хромосомах, переходы ("кроссинговер") и рекомбинация генетического материала, содержащегося в индивидуальных родительских хромосомах (аналогично гетеросексуальной репродукции), и миграции генов. В ходе работы процедур на каждой стадии эволюции получаются популяции со все более совершенными индивидуумами.

Генетические алгоритмы привлекательны тем, что их удобно распараллеливать. Например, можно разбить поколение на несколько групп и работать с каждой из них независимо, обеспечивая время от времени межгрупповой обмен несколькими хромосомами. Существуют также и другие методы распараллеливания генетических алгоритмов.

Вместе с тем, эти алгоритмы на сегодняшний день не лишены серьезных недостатков. В частности, процесс создания исходного набора хромосом, критерии отбора хромосом и используемые процедуры являются эвристическими и далеко не гарантируют нахождения "лучшего" решения. Как и в реальной жизни, эволюцию может "заклинить" на какой-либо непродуктивной ветви. И, наоборот, можно привести примеры, как два неперспективных родителя, которые будут исключены из эволюции генетическим алгоритмом, оказываются способными через несколько итераций произвести высокоэффективного потомка. Это становится особенно заметно при решении высокоразмерных задач со сложными внутренними связями.

Указанные недостатки не позволяют пока говорить, что генетические алгоритмы составляют сегодня серьезную конкуренцию деревьям решений и алгоритмам ограниченного перебора при решении задач поиска логических закономерностей в данных. Они "капризны" в настройке и трудоемки при решении задач поиска логических закономерностей в данных.

В то же время, специально проведенное исследование [2] выявило принципиальные недостатки и в алгоритмах построения деревьев решений и системах ограниченного перебора. На основании этого исследования сделаны следующие выводы:

1. Наиболее популярные аналитические инструменты Data Mining в ряде случаев оказываются не способны решать даже простейшие задачи.

2. Применяющиеся подходы к обнаружению знаний в базах данных выявляют лишь усеченные фрагменты истинных логических закономерностей.

3. Инструменты для поиска логических правил в данных высокой размерности не способны отличать "ложные закономерности" от устойчивых регулярностей.

4. Известные системы для поиска логических правил не поддерживают функцию обобщения найденных правил и функцию поиска оптимальной композиции таких правил. Вместе с тем, указанные функции являются весьма существенными для построения баз знаний, требующих умения вводить понятия, метапонятия и семантические отношения на основе множества фрагментов знаний о предметной области.

НОВАЯ ТЕХНОЛОГИЯ ОБНАРУЖЕНИЯ ЛОГИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ

Альтернативу известным подходам к поиску логических закономерностей в данных составляет технология, основанная на представлениях специальной локальной геометрии [4, 3] (технология обнаружения логических закономерностей в базах данных на основе представлений локальной геометрии отнесена к важнейшим результатам Российской Академии Наук за 1997-2001 г.). В этой геометрии каждый многомерный объект (запись БД) существует в собственном локальном пространстве событий с индивидуальной контекстно-зависимой метрикой. За счет свойств локальных пространств процедура поиска логических закономерностей в данных получает геометрическое истолкование. Перебор вариантов при поиске "лучших" (наиболее полных при заданной точности) if - then правил методами локальной геометрии практически отсутствует. Поиск осуществляется с помощью модифицированного аппарата линейной алгебры с применением средств интерактивной графики. Результаты, полученные по новой технологии, выдаются в виде таблицы if - then правил с указанием их характеристик (точности и полноты) и дендрограммы этих правил с описанием обобщающих понятий и метапонятий.

Основные характеристики:

· Нахождение "лучших" (наиболее полных при заданной точности) if ‑ then правил для каждой записи базы данных

· Построение и тестирование классификаторов данных на основе if ‑ then правил

· Построение "нечетких" if ‑ then правил

· Построение дендрограмм и исследование метаструктуры множества правил

Дополнительные характеристики:

· Полиномиальная сложность

· Отсутствие ограничений на тип данных

· Работа в условиях любого количества пропусков в данных

· Работа в условиях "засоренных" данных

· Нахождение непериодических шаблонов сложной формы в числовых и символьных рядах

· Возможность распараллеливания процесса поиска if‑then правил

Технология обнаружения логических закономерностей методами локальной геометрии реализована в виде программного продукта " Deep Data Diver " и апробирована при решении различных практических задач. Сюда относятся, в частности, следующие результаты медико-биологических исследований:

· Разработка экспертной системы для диагностики острого аппендицита

· Дифференциальная диагностика заболеваний почек по данным УЗИ

· Поиск участков ДНК, ответственных за экспрессию некоторых видов генов

· Построение экспертной системы для прогнозирования продолжительности ремиссий при алкоголизме

· Разработка экспертной системы для психологической диагностики

· Выяснение причин неурожайности сельскохозяйственных участков

· Сравнение структуры интеллекта "физиков" и "лириков"

· Поиск непериодических шаблонов в электроэнцефаллограмммах

· Поиск непериодических шаблонов в фрагментах ДНК

· Выявление ассоциаций в ДНК пшениц различных сортов и др.

Ниже мы рассмотрим пример построений базы знаний для прогнозирования продолжительности жизни пациентов, перенесших сердечный приступ, по данным эхокардиограммы. Эти данные представлены в базе данных репозитория UCI (http://www.ics.uci.edu/~mlearn/MLRepository.html). Они имеют следующие характеристики .

1. Количество объектов (пациентов): 131

2. Количество признаков : 8

3. Информация о признаках :

·  age - at - heart - attack - возраст сердечного приступа

·  pericardial - effusion - перикардиальный выпот (бинарный признак).

·  fractional - shortening - фракция укорочения (измерение сократимости)

·  E - point septal separation - расстояние от Е-пика движения передней створки митрального клапана до межжелудочковой перегородк.

·  left ventricular end-diastolic dimension - диастолический размер левого желудочка .

·  wall - motion - score - оценка движения сегментов левого желудочка.

·  wall - motion - index - индекс движения стенок левого желудочка.

·  alive - at -1 - годовая выживаемость (целевой признак). Значение " Dead " говорит о том, что пациент умер в течение года после сердечного приступа; " Alive " означает, что пациент живет больше года после сердечного приступа.

4. Информация о классах: 88 пациентов относятся к классу " Dead ", 53 - к классу " Alive ".

Ранее для решения задачи прогнозирования времени жизни пациентов ранее использовались традиционные методы (принятия решения по образцу - метод ближайшего соседа, и регрессионный анализ по Коксу). С помощью указанных методов были достигнуты слабо впечатляющие результаты. А именно, точность предсказания лежала в пределах от 60 до 65 %.

Здесь мы рассмотрим результаты поиска if ‑ then правил для прогнозирования времени жизни с помощью трех систем: See 5 (деревья решений), WizWhy (частично ограниченный перебор) и DeepDataDiver (нахождение логических закономерностей на основе представлений локальной геометрии).

Система See 5 обнаружила в экспериментальных данных всего два правила:

Rule 1: wall-motion-index > 1.3 -> Класс "alive"

Rule 2: wall-motion-index <= 1.3 -> Класс "dead"

Ошибка предсказания с помощью этих правил составляет 31,3 %

Система WizWhy при выставленных по умолчанию настройках нашла в данных 48 if ‑ then правил . Пример одного из правил системы WizWhy представлен ниже.

If pericardial effusion is 0,00

and fractional shortening is 0,27 ... 0,61 (average = 0,35 )

Then

Alive at 1 year is dead

Точность правила: 0,964

Правило покрывает 27 объектов.

В совокупности найденное множество логических правил системы WizWhy обеспечивает сравнительно невысокую точность прогноза. Так, точность прогноза для класса " Dead " составляет 0,83; для класса " Alive " - 0,73.

Для системы DeepDataDiver оказалось достаточно всего 19 if ‑ then правил, что полностью покрыть множество объектов класса " Dead ". Примеры наиболее полных и точных правил приведены ниже.

1.

if age at heart attack < 73,33 and left ventricular end-diastolic dimension < 4,72 and 8,83 >= wall-motion-score < 15,5 and wall-motion-index < 2,22 then Alive at 1 year = Dead ( Точность - 0,95; Полнота - 0,42)

2.

if left ventricular end-diastolic dimension < 4,42 and wall-motion-index < 1,29 then Alive at 1 year = Dead ( Точность - 1,0; Полнота - 0,27)

3 .

if fractional shortening >= 0,27 and 11 >= wall-motion-score < 17 and wall-motion-index < 2,3 then Alive at 1 year = Dead ( Точность - 1,0; Полнота - 0,24)

4.

if pericardial effusion = 0 and E-point septal separation < 8,58 and 9,5 >= wall-motion-score < 17 and wall-motion-index < 2,3 then Alive at 1 year = Dead
( Точность - 0,92; Полнота - 0,25)

Полученное множество логических правил составило основу базы знаний экспертной системы для прогнозирования продолжительности жизни пациента после сердечного приступа по данных эхокардиограммы. Алгоритм принятия решения о принадлежности пациента к прогнозируемым классам работает по следующему принципу. Если "срабатывает" хотя бы одно из 19 выявленных правил, то пациент принадлежит к классу " Dead ". В противном случае - к классу " Alive ". Точность прогноза данного алгоритма составляет 91,6 %. При этом все ошибки приходятся на неправильное отнесение объектов класса " Alive " к классу " Dead ". Тем самым, экспертная система, использующая данный алгоритм, функционирует с "перестраховкой", делая ошибки типа "ложная тревога".

Многие правила включают в себя достаточно большое число элементарных логических событий, что, конечно, затрудняет их понимание специалистом. Для улучшения смыслового восприятия система DeepDataDiver предлагает специалисту специальный рисунок, на котором изображается метаструктура множества правил. Эта метаструктура конструируется с помощью какого-либо агломеративного алгоритма (наиболее часто используется алгоритм Варда) кластерного анализа и специальных мер близости (различия) логических правил, описанных в [ 4].

Изображение метаструктуры множества логических правил позволяет исследователю наглядно представлять их взаимоотношения и выявлять понятия и метапонятия, представляющие собой более простые логические высказывания, описывающие кластеры исходных логических правил. В нашем случае исходные логические правила образовали 5 кластеров, которым соответствуют следующие простые и понятные высказывания:

1. диастолический размер левого желудочка < 4,72 & индекс движения стенок левого желудочка < 2,29

2. возраст сердечного приступа < 60

3. фракция укорочения > 0 & оценка движения сегментов левого желудочка >= 9,5

4. оценка движения сегментов левого желудочка < 20

5.  9,15 >= оценка движения сегментов левого желудочка < 16,08 & 1,1 >= индекс движения стенок левого желудочка < 2,1

В заключение следует сказать, что рассмотренный пример представляет собой лишь иллюстрацию процесса разработки базы знаний для медицинской экспертной системы современными средствами Data Mining . Для окончательного воплощения в полезный инструмент медицинской диагностики и прогностики полученный прототип экспертной системы обязан пройти всестороннюю проверку на более обширном контрольном экспериментальном материале с возможностью внесения необходимых корректив. Вместе с тем, представляется достаточно показательной приведенная здесь демонстрация преимуществ новейших технологий обнаружения знаний в базах данных для решения задач построения интеллектуальных медицинских систем.

Страница сайта http://www.olap.ru
Оригинал находится по адресу http://www.olap.ru/home.asp?artId=153