Хранилища данных - взгляд на бизнес и технологию

Вы находитесь на страницах старой версии сайта. Перейдите на новую версию OLAP.ru

Поиск по сайту

Новости

Основы OLAP

Продукты

Business Objects/ Crystal Decisions

Business Objects/Crystal Decisions

СТАТЬЯ

Хранилища данных - взгляд на бизнес и технологию

18.12.00

Системы поддержки принятия решений и анализа данных получили повсеместное распространение в 90-х годах. Хранение исторических, обобщенных данных о работе компании и их анализ позволяют находить новые источники прибыли, новые резервы повышения эффективности, совершать прорывы в конкурентной борьбе. Анализ отношений с клиентами (CRM) дает возможность персонифицировать обслуживание клиентов, а индивидуальный подход к клиенту - это главный рычаг в конкурентной борьбе. Базой для систем поддержки принятия решений являются хранилища данных. Вложения в технологии хранилищ данных в мировых масштабах скоро достигнут 24 млрд. долларов. Компании рассматривают эти вложения как стратегические, поскольку, как правило, построение хранилищ данных обходится очень дорого. Однако эти затраты окупаются в среднем по индустриям 4-х кратно за 3 года - за счет лучшей внутренней организации отчетности, повышения качества принимаемых решений и выработки лучших бизнес-стратегий. Незрелость механизма кредитования и инвестиций в России препятствует распространению технологий хранилищ данных.

Традиционные хранилища данных - это весомые инвестиции

Большие объемы данных (десятки и сотни гигабайт)

Аналитика строится на основе первичной информации. Например, для банков это - запись всех транзакций банковских клиентов, для предприятий розничной торговли - запись всех покупок в магазинах, для телекоммуникационных компаний - запись информации обо всех телефонных звонках. Объем данных обо всех транзакциях сотен тысяч банковских клиентов за год может составить сотни гигабайт. Эти данные должны быть подготовлены для анализа - проиндексированы, возможно, проагрегированы, наложены на денормализованную модель, что в традиционных хранилищах приводит к разбуханию исходных объемов в 3-10 раз. При этом предъявляются высокие требования к быстродействию и надежности систем хранения, что означает использование дорогих, высокопроизводительных дисковых систем, как правило - RAID-массивов. Современный RAID-массив высокой производительности, удовлетворяющий взыскательным требованиям надежности, предназначенный для хранения 100 Gb данных, может стоить до ста тысяч долларов.

Высокие требования к мощности компьютерных систем

Обработка аналитических запросов в хранилище данных должна производиться за разумное время. Это означает, что компьютерных ресурсов должно быть достаточно, чтобы, к примеру, выполнить поиск и выборку по соединению из нескольких таблиц в десятки миллионов записей за время в пределах одного часа. Характерная сложность аналитических запросов, циркулирующих в современных хранилищах данных такова, что некоторые из них могут вообще никогда не выполниться на маломощных компьютерных системах. Как правило, для хранилищ используются мощные многопроцессорные системы класса RISC Unix, часто в кластерной конфигурации, характерная стоимость которых лежит в диапазоне от ста тысяч до миллиона долларов.

Сложное многофункциональное программное обеспечение

Хранилище - это сложная программная система, куда входит ядро - СУБД, средства закачки и преобразования данных (ETL, или data staging), средства проектирования хранилища, средства работы с репозиторием метаданных, и собственно средства оперативной аналитики, или OLAP-средства. Для выполнения всех этих функций требуется сложное, уникальное программное обеспечение, стоимость которого также может исчисляться десятками и сотнями тысяч долларов.

Высокие трудозатраты

Построение хранилищ данных требует экспертизы, совершенно отличной от той, что накапливается при проектировании обычных оперативных (OLTP) систем. Для анализа данных используются специальные модели - многомерные, денормализованные, "звезды", "снежинки" и пр. Понимание, какая именно модель оптимальна для компании, какой именно анализ дает наибольшую отдачу, приходит постепенно в результате многих итераций разработки.

До 80% всех трудозатрат уходит на разработку процесса извлечения, обработки и закачки данных в хранилище (ETL), который начинается с нуля для каждого из проектов, т.к. этот процесс уникален для каждого хранилища.

Учитывая тот факт, что отделу из нескольких высококвалифицированных специалистов требуется как минимум год на построение хранилища, сама длительность проекта приносит дополнительные сложности, такие, как удержание рабочей силы, передача опыта и пр. Неудивительно, что до 60% проектов хранилищ заканчивается неудачей - это процесс, требующий больших интеллектуальных, временных и материальных затрат.

Традиционно, когда говорят о затратах на хранилища данных, имеют в виду миллионы.

Новая технология уменьшает "инвестиционный барьер"

Adaptive Server IQ - СУБД, оптимизированная для анализа данных

Использование Adaptive Server IQ позволяет значительно удешевить и ускорить процесс разработки хранилища. Adaptive Server IQ - СУБД, оптимизированная для анализа данных на уровне физического дизайна. Технологии, применяемые в IQ, не имеют аналога.

Данные в IQ хранятся по колонкам, а не по рядам - намного меньше считывание с диска при аналитических запросах + эффективная паковка однородных данных по колонкам;
Все данные хранятся в виде индексов;
Практически на все колонки можно завести индексы на битовой основе, с помощью которых (за счет выборки только битов, нужных для данной операции), скорость обработки аналитических запросов значительно возрастает.

Дата	Магазин	Адрес	Телефон	Город	Тип	Продажи

12.12.00				Москва	А	456
12.12.00				Тверь	Б	6720
12.12.00				Калуга	Б	532
12.12.00				Москва	В	712
12.12.00				Рязань	А	2456
12.12.00				Тула	Б	5020
Adaptive Server IQ: считываются только нужные колонки			Посчитать средний объем продаж в магазинах типа А в Москве

Этот нетрадиционный внутренний дизайн полностью скрыт от пользователя, который видит интерфейс обычной реляционной СУБД. Adaptive Server IQ очень прост в управлении, устанавливать и администрировать его намного легче, чем любые традиционные СУБД.

За счет того, что высокая производительность анализа встроена в IQ на уровне программного ядра, работа проектировщика хранилища значительно упрощается. IQ не требует хранения данных обязательно в привязке к многомерным или звездным схемам, он работает с любыми моделями данных. Для эффективной работы серверу IQ не требуется преагрегирование, партиции, заранее просчитанные выборки. Построить хранилище на базе IQ и получить от него отдачу можно очень быстро, перенеся в хранилище существующие OLTP-модели. Хотя, конечно, если данные должным образом денормализованы и подготовлены для анализа, производительность IQ (и отдача от хранилища) только увеличатся.

Открытая архитектура IQ позволяет легко включить его в любую существующую информационную инфраструктуру.

Adaptive Server IQ позволяет значительно удешевить и ускорить разработку хранилища:

Память
В Adaptive Server IQ индексированные данные сжимаются на 10%-90% за счет вертикального хранения данных в виде индексов. В традиционных аналитических СУБД данные разбухают в 3-10 раз за счет индексации и преагрегирования. В Adaptive Server IQ преагрегирование необязательно, так как незапланированная агрегация выполняется чрезвычайно быстро.
Компьютерные системы
Средняя скорость обработки запросов на IQ в 10-100 раз выше, чем на традиционных СУБД, и значительно выше, чем на специализированных OLAP-серверах, при прочих равных условиях. Это значит, что можно добиться хорошей производительности системы на более дешевом оборудовании.
Трудозатраты
На IQ можно переносить любые уже существующие модели данных и получать немедленный результат в быстродействии за счет его физического дизайна. С помощью IQ можно осуществлять плавный переход от анализа на базе существующих OLTP-моделей к хорошо организованному хранилищу. Нет привязки к определенной модели данных с самого начала, как в Red Bricks (звезда), Oracle Express (многомерный куб) или Informix Metacube (звезда), эта модель может выработаться постепенно, когда растущие возможности для анализа приводят к растущему пониманию структуры своего бизнеса.

Хранилища, построенные на базе IQ, как правило, обходятся намного дешевле и окупаются гораздо быстрее, чем традиционные хранилища. При одинаковой отдаче от хранилищ (повышение прибыли в результате более эффективного анализа данных), затраты на аппаратное обеспечение и память для IQ будут ниже, а время внедрения - короче.

Обсудить на форуме

Написать автору

Написать вебмастеру

Традиционные хранилища данных - это весомые инвестиции

Новая технология уменьшает "инвестиционный барьер"

Adaptive Server IQ: считываются только нужные колонки

Посчитать средний объем продаж в магазинах типа А в Москве