OLAP.ru   Rambler's Top100
Вы находитесь на страницах старой версии сайта. Перейдите на новую версию OLAP.ru
  
Поиск по сайту
Новости
Основы OLAP
Продукты
Business Objects/ Crystal Decisions
Каталог
OLAP в жизни
Тенденции
Download
Яndex
 
 
 
TopList
 

Добыча данных: как намыть золото из информации о клиентах


Рейчел Конрад, ZDnet.ru

Вам нравится научная фантастика, а Amazon.com торгует книгами этого жанра. Так почему же сайт гиганта электронной коммерции встречает вас предложениями купить DVD, гигиенические принадлежности и шоколадки ко Дню Святого Валентина? Ответ прост: Amazon.com и большинству других онлайновых магазинов следует совершенствовать технологию, называемую "добычей данных" — способ обнаружения скрытых зависимостей в кажущихся случайными данных методами статистического анализа.

Эксперты прогнозируют, что добыча данных станет одной из самых революционных разработок ближайшего десятилетия и даст ключ к "персональному вебу", который настраивается под индивидуальные предпочтения, выявляя полезную структуру в собираемой информации и анализируя ее в реальном времени. Недавно влиятельное издание MIT Technology Review назвало добычу данных в числе десяти новых технологий, которые "изменят мир".

Но некоторые ученые опасаются, что массовое использование упрощенных вариантов этой технологии может дискредитировать идею. Аналитики предупреждают потенциальных инвесторов, что ожидания, направленные на этот мало пока изученный сегмент, могут не оправдаться. "Многие рассуждают так: "Я дам этот инструмент своим маркетологам, и у нас будет философский камень", — говорит вице-президент аналитической фирмы Aberdeen Group Боб Моран (Bob Moran). — "Однако никакого философского камня не существует. Все результаты добычи данных лежат в серой зоне. Она никогда не дает черно-белых ответов".

Однако те маркетологи, которые признают огромный коммерческий потенциал этой технологии, видят в ней больше, чем черно-белое. Они видят в ней еще и зеленое, полагая, что эта наука способна создавать высокие прибыли и обеспечить рост доходов.

Тысячи тонн словесной руды

Системы добычи данных — сложные и не очень — компании применяют, чтобы найти ответ на вопрос: можно ли извлечь пользу из собранных "сырых" данных, горы которых в последние годы непрестанно растут? В статье, опубликованной недавно в Engineering News-Record, отмечается, что электронная коммерция побуждает компании к сбору огромной массы сведений о своих клиентах, охватывающих все: от числа членов семьи, пользующихся интернетом, до количества автомобилей в гараже. "В течение последних лет, пока конструкция (баз данных) совершенствовалась в погоне за эффективностью и прибылью, постепенно вбирая в себя все новые инструменты обработки цифровой информации, собирался побочный продукт — горы записей, — пишет Том Савье (Tom Sawyer) в ноябрьском выпуске отраслевого издания. — Теперь приходит понимание, что это золотые горы".

Около дюжины мелких компаний, специализирующихся на добыче данных, борются за увеличение доли рынка, а тем временем на поле выходят такие гиганты баз данных, как Oracle и IBM. Другие фирмы создают более автоматизированные приложения добычи данных для пользователей, не имеющих специальной подготовки в области статистики, приспосабливая эту науку к нуждам маркетологов и других специалистов, не желающих вдаваться в подробности статистических алгоритмов. Такие приложения дают маркетологам возможность персонализировать котировки акций, новости, специальные предложения и прочую информацию, целенаправленно распространяя ее среди тех, кто с наибольшей долей вероятности заинтересуется ею. Это существенно сокращает расходы на рекламу и повышает доходы. К тому же эти приложения полностью автоматизированы и сразу реагируют на изменения в поведении клиентов, в отличие от подавляющего большинства современных персонализированных веб-сервисов, которые требуют от пользователей заполнения анкеты.

Но у добычи данных есть проблемы, главная из которых, по мнению экспертов, не разрешима, что вполне оправдывает скептицизм по отношению к идее в целом. Добыча данных хорошо прогнозирует поведение потребителя на основании прошлого опыта, т.е. на основе сведений о его предыдущих покупках, географических и других данных позволяет сказать, что он, вероятнее всего, предпочтет. Но эта технология никогда не сможет предсказывать, что люди захотят на самом деле. Например, программа может определить, что 34-летняя домохозяйка с двумя детьми в ближайшие десять лет, скорее всего, каждые три года будет покупать новую микроволновую печь. Но, если нет достоверной информации о финансовых возможностях этого покупателя, программа не скажет, не предпочтет ли эта домохозяйка более дорогую комбинированную плиту-микроволновку.

Директор компании Emerald Solutions по бизнес-интеллекту Кайл Джонстон (Kyle Johnstone) ключом к обеспечению роста маржи прибыли — конечной цели всех маркетологов — считает способность не просто определить, что люди готовы приобрести, а понять, что именно они выберут. Единственный способ добиться этого — спросить у них прямо сейчас, а не опираться на данные о том, как они поступали в прошлом. "Люди говорят, что любят бифштекс, но на празднике Дня независимости покупают гамбургер. Желание и реальная покупка — не одно и то же, — говорит Джонстон. — Вы можете изучить поведение статистической модели, но главный элемент паззла — то, что человек хочет на самом деле, — упустите... Вычислить это математически невозможно".

Проблема privacy

Большинство компаний, занимающихся добычей данных, получают информацию о клиентах от корпоративных заказчиков, по заданию которых они создают базы данных и эксплуатируют их за плату, обычно не ниже 10 тыс. $ в месяц. Проблему приватности добытчики данных решают так: всю собранную информацию они хранят у себя. Обрабатывая данные, они возвращают их клиенту в форме электронных таблиц, графиков, диаграмм и других визуальных документов. Некоторые компании выполняют при этом и роль консультантов, давая клиентам рекомендации по совершенствованию веб-страниц с целью повышения их эффективности.

Компании, занимающиеся добычей данных, не любят приводить взятые из реальной жизни примеры положительного влияния их расчетов на объемы продаж или число клиентов. Но Усама Файад (Usama Fayyad), некогда входивший в число руководителей Microsoft, а затем основавший компанию DigiMine, рассказал, как он пользовался добычей данных для раскрутки веб-сайта Microsoft MSNBC.com. Файад обнаружил, что часть читателей MSNBC, составляющая приблизительно 22%, ведет себя в онлайне примерно одинаково, обращаясь в точности к одним и тем же заметкам. Но эти пользователи не относятся ни к одной из пяти обозначенных компанией категорий читателей, в число которых входили интересующиеся политикой, спортом и погодой. В компании Файада (он защитил докторскую диссертацию в Мичиганском университете) обнаружили, что приманкой, притягивавшей эту странную группу, были заметки, в которых есть что-нибудь скандальное, вроде слухов, публикуемых в таблоидах. MSNBC существенно изменила свой формат в расчете на эту крупную аудиторию, и теперь на главной странице сайта каждый день обязательно появляется по крайней мере одна подобная заметка. Так исследование помогло сделать раздел MSNBC Living самым популярным.

"Вывод ясен: до использования добычи данных они не знали, что происходит с четвертью их базы данных, — говорит Файад. — Если в обычном магазине обрушатся три или четыре полки, покупатели не смогут пройти, и служащие отремонтируют их. Примерно то же происходит и в вебе, но никто не знает, как разобрать эти завалы".

Добыча данных становится массовой

Десятки лет коммунальные службы использовали добычу данных, чтобы с определенной точностью предсказывать момент вероятного выхода из строя генераторов. В корпоративном мире эта технология начала широко применяться в 90-е годы как средство выявления мошенничества в страховании, здравоохранении и индустрии кредитных карт. Строя модели и предсказывая вероятное поведение клиентов, компании могут отлавливать тех, кто обманывает программы, участвует в нелегальных схемах или ведет себя опасным образом. Пока среди электронных магазинов и контент-провайдеров, рассчитанных на широкую аудиторию, мало тех, что пользуются добычей данных в полном объеме. Отчасти это вызвано сложностью и плохим пониманием методов — алгоритмов, принципов выборки и сути параллелизма. Но данная технология уже начинает прокладывать путь в мейнстрим. "Электронная коммерция — новая и модная область применения добычи данных, — говорит президент и исполнительный директор компании Data Mining Technologies Майкл Джилман (Michael Gilman). — Везде, где есть накапливаемые данные, их можно использовать для получения модели, невооруженным глазом не видимой".

Одна из старейших и крупнейших компаний, специализирующихся на добыче данных, — SAS. Эта фирма с 25-летней историей утверждает, что сегодня работает уже с 98% компаний Fortune 500 и теперь нацелена на электронную коммерцию. По статистике SAS, внедряя методы добычи данных, фирмы, торгующие по каталогам и через веб-сайты, увеличили свою прибыль на инвестированный капитал более чем на 1000%. "Многие компании, торгующие по каталогам, считали, что их дела и так идут хорошо, — рассказывает специалист SAS по аналитической стратегии Энн Милли (Anne Milley). — Но когда пришли мы, они были ошарашены. Теперь компании видят, кто их покупатели, что и как часто они отправляют и сколько бывает повторных покупок. Картина маркетинга становится более отчетливой: кто покупает по каталогам, а кто — в онлайне, так что ясно, как оптимизировать контакты с клиентами".

По мере упрощения добычи данных эта технология, вероятно, проникнет в общество еще глубже. Epiphany — одна из нескольких компаний, специализирующихся на организации отношений с клиентами в вебе, которые активно используют добычу данных и хорошо известны своими относительно простыми в применении инструментами. Главный специалист Epiphany по добыче данных Джордж Джон (George John), защитивший докторскую диссертацию по статистике в Стэнфордском университете, говорит, что компания преднамеренно делает упор на упрощенный подход. Он считает это главным козырем своей компании в борьбе с конкурентами, ПО которых, возможно, и более совершенное, но гораздо сложнее в применении. "Разработав системы добычи данных первого поколения, мы стали наблюдать, как предприятия ими пользуются. Они задавали сравнительно простые вопросы, не требуя разработки прогноза прибыльности вплоть до цента с участием десятка докторов наук, — рассказывает Джон, ветеран IBM и основатель программы добычи данных в Epiphany. — Мы каждый раз старались сделать пользовательский интерфейс еще более наглядным и думали: "Ну, теперь-то маркетологи непременно воспользуются им”. Главное — понять, что нужно людям на самом деле".

Хотя упрощенный подход к добыче данных кажется логичным, его результаты могут оказаться разочаровывающими. Файад и другие эксперты предупреждают, что чрезмерное упрощение приводит к искажению фактов и побуждает руководителей принимать решения по ценам и инвентарным запасам на основе неверных выводов.

При переходе добычи данных из академического мира в коммерческий возникает и более общее противоречие: академики от статистики гордятся своими сложными методами анализа и часто пренебрежительно относятся к коллегам, ушедшим в корпоративную среду, называя их ренегатами, продавшимися маркетологам. Джону из Epiphany то и дело приходится поправлять людей, использующих для обозначения цветных карт и других упрощенных статистических диаграмм термин "приземление". Он предпочитает называть это "углубленным проникновением" добычи данных в ряды маркетологов и других неспециалистов в области статистики. "Мы показываем контингент клиентов при помощи наглядных графиков, изображая их состав, — говорит Джон, чуть ли не извиняясь. — Большинству это нравится. Технология должна быть такой, чтобы ее понимали не только нобелевские лауреаты".

 Обсудить на форуме   Написать автору   Написать вебмастеру 

© 2001 Interface Ltd