Вы находитесь на страницах старой версии сайта. Перейдите на новую версию OLAP.ru |
Поиск по сайту | ||||||
Новости | ||||||
Основы OLAP | ||||||
Продукты | ||||||
Business Objects/ Crystal Decisions | ||||||
Каталог | ||||||
OLAP в жизни | ||||||
Тенденции | ||||||
Download | ||||||
| ||||||
Строя рентабельные хранилища данныхСара Рекорд, Informix Magazine/RE, Апрель 1998 Если выбраны подходящие проект и архитектура, хранилище данных может обеспечить 400-процентный возврат инвестиций. Большинство организаций сегодня буквально тонут в данных и тем не менее продолжают накапливать все больше и больше информации. Развитие технологии сбора данных за последние 15 лет - появление штрих-кодов, к примеру - привело к тому, что деловой мир "затоплен" этими данными. И все же большинство предприятий начинают осознавать, что их базы данных способны обеспечить им преимущество в ожесточенной конкурентной борьбе. Стоит только проанализировать информацию своего предприятия, как сразу становятся ясно, как оно сможет развиваться, как изменятся требования к хранению его продуктов и покупательский спрос, а также как рынок будет реагировать на появление любой новинки. Именно в расчете на такие возможности многие крупнейшие компании начали строить - или уже построили - хранилища данных. Согласно недавнему исследованию META Group, 90 - 95% компаний списка Fortune 2000 активно применяют хранилища данных, чтобы добиться преимущества в конкурентной борьбе и получить значительно большую отдачу от своих инвестиций. Что такое хранилище данных?Хранилище данных представляет собой информационный центр, в котором хранятся данные предприятия. Оно собирает информацию из унаследованных приложений, стандартизирует ее, приводя в соответствие наиболее распространенным бизнес-требованиям. Информация делается пригодной для анализа, принятия решений и выработки алгоритмов. Хранилища данных создаются не только для обеспечения лучшего доступа к данным. Гораздо более важна другая их функция - поддерживать многочисленные бизнес-процессы и принятие решений. Хранилища упрощают анализ, систематизируя прежде никак не связанные между собою данные; для их систематизации клиенты могут пользоваться практически неограниченным числом сценариев, кроме того есть возможность генерировать отчеты, составленные не с системной, а с деловой точки зрения. С точки зрения исполнительного директора, хранилище данных - это способ реорганизовать критически важную информацию на уровне всего предприятия, так, чтобы ею могли пользоваться работники, ответственные за принятие решений.
Взгляд на данные предприятия как единое целоеДля многих компаний возможность получить представление о данных предприятия как едином целом - главная побудительная причина создания хранилища данных. Они стремятся знать гораздо больше об особенностях и пристрастиях своих клиентов. Например, сколько продуктов реально продается? Что влияет на изменене спроса? Какие товары или услуги приносят наибольший доход? Чем точнее руководитель ответит на такие вопросы, тем эффективнее ему удастся организовать работу и тем большую прибыль получить. Хранилища данных помогают оперировать информацией гораздо осмысленнее. Кроме того, в анализе оказывается задействована вся информация о предприятии, поскольку данные, используемые на нем для работы, хранятся в стандартизированном виде, а их логическая организация соответствует правилам бизнеса. Таким образом гарантируется, что разнообразные функции, обслуживающие все стороны деятельнсти предприятия - циркуляция товаров, доход, географическое распределение производства - складываются в целостную непротиворечивую картину. Можно согласовывать данные различных подразделний, позволяя компаниям выявлять и изучать возможности для нового взаимодействия. Так например, финансовый отдел может обращаться к маркетинговой информации, определяя как сказывается на объеме продаж проведение целевых рекламных компаний. Расходы и выгодыВопрос о том, во сколько может обойтись разработка хранилища данных, сродни вопросу о том, насколько высоки деревья - деревья вообще. По мнению экспертов, разработки хранилища для небольшого подразделения может стоить от 400 до 600 тыс. долл.; автоматизация большого подразделения на большом предприятии "выливается" в сумму от 800 тыс. до 1,5 млн. долл.; большой корпорации придется израсходовать около 15 млн. долл. Цена зависит от объема данных и продолжительности их хранения. Столь же разнятся и сроки разработки - от шести месяцев до двух лет, при создании крупного хранилища данных для большого предприятия. Так или иначе, вкладывать средства в хранилище данных просто необходимо. В таком случае хочется знать, хотя бы, как скоро они окупятся? За редкими исключениями, возврат инвестиций зависит от проекта, архитектуры и правильности управления хранилищем. Трехлетнее изучение опыта 62 организаций проведенное International Data Corporation (IDC) показало, что эти организации истратили на хранилища данных в среднем 2,2 млн. долл. - и получили 400-процентный возврат своих инвестиций. Первым делом бизнес, ну а технология потомЗалогом высокой отдачи инвестиций в хранилище данных служат, без сомнения, вот эти слова: проект, архитектура и правильность управления. Перед тем, как приступать к разработке проекта хранилища данных, администраторы информационных систем должны проявить достаточно мудрости, и учесть все перечисленные ниже факторы.
Организация, разумно тратящая деньги и тщательно определяющая свои требования, привлекающая для работы над хранилищем данных специалистов различных профилей, объединяя их в многофункциональные группы имеет все шансы преуспеть с создании хранилища данных в устойчивой структурой. Эта система позволит улучшить управление, за счет принятия решений на основании информации о клиентах, собранной со всего предприятия. Отдача - а она может достигать 400% вложенных средств - стоит времени и усилий, затраченных на разработку хранилища данных. Специализированные киоски данныхМногие компании, осознающие неоходимость разработки корпоративного хранилища данных, все же на в силах справиться со всеми задачима выделения, стандартизации и объединения терабайт данных. Вместо этого они предпочитают строить киоски (или витрины) данных (data marts) -- специализированные хранилища данных, посвященные только одному направлению деятельности организации. Киоск данных - это, чаще всего, наиболее управляемая разновидность хранилища данных. Его несомненный недостаток состоит в том, что без хранилища данных, которое охватывало бы информацию всего предприятия, невозможно сравнивать и анализировать данных по всем отделам и процессам. Во многих компаниях уже поняли, что киоски данных могут сослужить хорошую службу и даже стать единственно возможным решением для выполнения срочных аналитических задач, но создание специализированных киосков без предварительной разработки корпоративной инфраструктуры хранилища данных, может впоследствии привести к большим затруднениям. Если разные киоски данных предприятия не соответствуют единому стандарту, но все же окажется необходимым объединить содержащиеся в них данные в единое хранилище данных, придется выполнять очень трудные задачи реконструкции. Масштабируемость хранилища данных - большое, огромое, гигантскоеПри планировании будущего хранилища данных и определения требований к данным, масштабируемость становится важным фактором, влияющим на выбор аппаратной платформы. Фактически, хранилище данных никогда не бывает закончено. Для удовлетворения требований пользователей к размещению данных из все новых и новых источников, многие компании увеличивают свои системы, доводя их до невероятных размеров - подчас до 10 терабайт. Какие аппаратные технологии наиболее подходят для анализа столь больших объемов данных? Возможным решением может стать массивная параллельная обработки (MPP), которая лучше всего подходит для таких систем, где требуется обработка крупных объемов данных большой "глубины" в ограниченное время. Эта технология представляет собой идеальное средство для добычи данных, поскольку в отличие от традиционных ПК или мэйнфреймов, обеспечивает сканирование миллионов строк информации в течение считанных секунд. В других случаях, более производительными оказываются альтернативные технологии, такие как симметричная мультиобработка (SMP) или битовые хешированные индексы. Кроме того, немаловажно, что для реализации MPP требуется большие капиталовложения. Стоимость крупного хранилища данных на платформе MPP может достичь 15 млн. долл., а на платформе SMP - с аналогичными возможностями - от 1 до 2 млн. долл.
Выбор РСУБД для хранилища данныхМасштабируемость хранилища данных служит решающим фактором и при выборе РСУБД, на базе которой оно будет развернуто. Эта система без преувеличения - сердце хранилища данных; она должна обеспечивать накопление и управление огромными объемами данных, гарантируя при этом простоту и быстроту доступа. Технология баз данных компании Informix под названием динамическая масштабируемая архитектура (Dynamic Scalable Architecture(TM), DSA) доказала, что способна удовлетворять требования к хранилищам данных, подобные тем, что предъявляются к мэйнфреймам. Развернутые на ее базе системы могут накапливать очень большие объемы информации и поддерживать множество пользователей, предоставляя им мгновенные ответы на сложные запросы, которые к тому же часто требуют анализа больших объемов данных. Технология DSA положена в основу целого семейства серверов баз данных Informix, которые обеспечивают управление базами данных на любом уровне предприятия. Основанные на этой технологии серверы масштабируются от гигабайт до многих терабайт информации и от приложений уровня подразделения до систем масштаба предприятия, работающих в средах SMP или MPP, подходящих даже для самых крупных хранилищ данных. Старший класс серии серверов DSA представлен семейством систем INFORMIX-OnLine Dynamic Server, INFORMIX-OnLine Extended Parallel Server (OnLine XPS) и INFORMIX-Universal Server. Из них OnLine XPS предназначен специально для обработки очень больших баз данных в кластеризованных средах SMP и MPP. INFORMIX-Universal Server представляет собой объектно-реляционную СУБД уровня предприятия. Благодаря поддержке сложных типов данных INFORMIX-Universal Server открывает двери целому новому поколению хранилищ данных. Больше, чем просто алфавитно-цифровые данные - новое поколение хранилищ данныхТрадиционные реляционные базы данных способны хранить и обрабатывать только символьную информацию, числа, даты и большие бинарные объекты (BLOB). Этих возможностей сегодня явно недостаточно. Многие организации хотят использовать временные ряды, геопространственную информацию, выполнять статистические функции и другие типы данных, причем делать это с той же простотой, с какой прежде обрабатывались только алфавитно-цифровые данные. Кроме того, им необходимо, следуя за изменениями бизнес-требований, быстро и безболезненно добавлять новые функциональные возможности и новые функции хранилища данных. INFORMIX-Universal Server рассчитан как раз на удовлетворение этих, пока только зарождающихся требований. Повторно используемые модули расширения, получившие название DataBlade, которые интегрируются с сервером позволяют неограниченно расширять возможности хранилища данных, создавая настроенные решения для конкретных бизнес-задач. Существуют модули DataBlade для решения статистических задач, многомерного анализа, извлечения данных и их очистки, поддержки геопространственных данных, временных рядов, добычи данных, изображений, управления документами, видео, аудио и многих других типов данных и аналитических функций, составляющих основу реализаций хранилищ данных. Статистические функции работают с даннымиПредполжим, компания запасает в хранилище данных большую информацию о продажах. Как в этом случае установить связь определенных рекламных компаний с показателями продаж конкретного продукта? Проводя анализ традиционными средствами, придется извлекать данные из хранилища и размещать в открытом файле. С полученным файлом далее будут работать независимые статистические пакеты. Этот сложный процесс порождает миллионы строк записей и требует массу времени.
Очистка данныхАббревиатура GIGA (garbage in, garbage out) - мусор внутрь, мусор вон - как нельзя лучше характеризует то, что происходит в хранилище данных. Если хранилище перегружено неточными, повторяющимися, и, в силу этого, низкокачественными данными, принятые на их основе решения будут столь же некачественными. Именно поэтому вопрос очистки данных - обработки информации, загружаемой хранилище, гарантирующей ее точность и качество - имеет превостепенное значение для профессионалов в области ИС и производителей. Особое значение очистка данных приобретает тогда, когда информация собирается из множества унаследованных систем. К примеру, две операционные системы могут пользоваться различными структурами представления информации об одном и том же покупателе. Возможны разночтения в написании собственных имен, отличающиеся телфонные номера, другие несоответствия. Все они в конечном итоге приводят к тому, что при объединении информации из этих источников, по одному и тому же предмету в хранилище данных оказывается несколько записей. Предлагаются модули DataBlade для очистки данных которые позволяют анализировать данные на предмет ошибочных и повторяющихся записей. Пользуясь этими модулями можно и выполнять необходимые изменения. Простой геопространственный анализГеопространственная информация - адреса, почтовые индексы, указания широты и долготы, названия населенных пунктов и дорог - имеет решающее значение для принятия интеллектуальных решений по всем вопросам, так или иначе связанным с географией. Манипуляции с данными такого рода всегда отличались сложностью. Представим себе, что некая компания пытается оценить отдачу от вложений в предприятия, находящиеся на таком-то расстоянии от штаб-квартиры. Прежде подобные задачи решались с привлечением почтовых индексов. Для этого создавались программы длиной в миллионы строк, которые устанавливали соответствие между индексами и физическим расстоянием от определенной точки. Эти программы отличались особой неповоротиливостью, и именно они быстрее всего устаревали. Если компании случалось переехать в другой город, приходилось переписывать всю систему целиком. Другим затруднением является малое число приложений, способных обеспечить достаточную для географических систем масштабируемость и быстроту доступа. В большинстве своем географические данные хранятся в виде больших бинарных объектов (BLOB) в независимых открытых файлах. Географические информационные системы (GIS), к примеру, накапливают информацию в одной файловой системе, изображения - в другой, тексты - в традиционной реляционной базе данных или же в третьей файловой системе. От такого несоответствия страдает производительность, поскольку приходится осуществлять доступ и передачу больших объемов информации - подчас речь идет о многих терабайтах - между различными файловыми системами и базами данных. INFORMIX-Universal Server позволяет управлять сложными геопространственными данными в пределах одного информационного хранилища, только подключая соответствующий модуль DataBlade. Встроенная интеллектуальная поддержка временных рядовИтак, предприятию нужно сравнить темпы возврата инвестиций в этом году со средними показателями за несколько прошлых лет. Этот вопрос относится к числу традиционных для хранилищ данных. Однако чтобы реализовать функции, с помощью которых было бы легко ответить на него, средствами традиционных баз данных, потребуется написать тысячи строк программ. Модули DataBlade, поддерживающие временные ряды, обеспечивают естественную поддержку регулярно повторяющихся событий, представленных в виде помеченных последовательностей данных. Можно легко установить фрагментацию по времени - по секундам, минутам, дням или, к примеру, месяцам или неделям.
Высокопроизводительная добыча данныхЭффективность принятия решений, которую обеспечивает INFORMIX-Universal Server, безусловно определяется тем, что он может работать с модулем DataBlade, поддерживающим функции добычи данных. Эти функции служат лучшим средством выявления тенденция и устоявшихся схем, скрытых в "толще" информации. Компании из самых разнообразных отраслей - розничной торговли, финансов, здравоохранения, производства, транспортные и авиакомпании - уже широко применяют инструменты и технологии добычи данных дабы заставить работать всю информацию, накопленную ими за годы деятельности самостоятельно или полученную от других организаций. Кстати, предприятия розничной торговли - самые большие потребители средств добычи данных. С помощью этих средств они выясняют, что представляют собой их клиенты, и как лучше их обслуживать. Финансовые службы пользуются добычей данных для выявления случаев мошенничества и оценки риска кредитования. Эта технология опирается на опыт, накопленный за годы исследований в области искусственного интеллекта, конкретнее говоря, индуктивного анализа данных. Для работы большинства технологий добычи данных сегодня требуется большое количество низкоуровневых атомарных данных, извлеченных из базы данных и размещенных в открытом файле, который должен быть обработен вне базы, чтобы с ним мог работать алгоритм добычи данных. При этом извелечении приводятся в движение терабайты данных, для которых требуется значительные ресурсы пропускной способности и памяти. INFORMIX-Universal Server обеспечивает оболочку для добавления новых сложных алгоритмов, таких как добыча данных непосредственно в объектно-реляционной базе данных. При этом операции добычи данных вообще не загружают сеть и не приводят к созданию файлов с повторяющейся информацией, поскольку весь анализ протекает непосредственно с хранилище данных. Создание хранилищ данных для получения преимущества перед конкурентамиКакого рода отдачу ожидают представители делового мира от хранилища данных? В действительности возможости этих систем почти безграничны. Так например, предприятия розничной торговли могут выполнять "тонкую настройку" структуры закупок и хранения, могут "заглянуть внутрь" каждого магазина, проанализировать эффективность каждого сервиса. Что же касается банков, то возможность разделять информацию, получаемую многочисленными службами - кредитных карт, займов, инвестиций и так далее - позволяет им значительно повышать эффективность работы. © 2001 Interface Ltd |