OLAP.ru   Rambler's Top100
Вы находитесь на страницах старой версии сайта. Перейдите на новую версию OLAP.ru
  
Поиск по сайту
Новости
Основы OLAP
Продукты
Business Objects/ Crystal Decisions
Каталог
OLAP в жизни
Тенденции
Download
Яndex
 
 
 
TopList
 

Как избежать двух основных крайностей программ очистки данных


 

Рич Олшефски (Rich Olshefski)
материал был размещен на корпоративном сайте компании Intersoft Lab

 

Сегодня все больше людей занимаются вводом все большего объема данных в базы данных - и делают гораздо больше ошибок, чем ранее. Такая совокупность проблем характерная для сред электронной коммерции, в которых клиенты больше озабочены скоростью, чем точностью процесса. Последние исследования показывают, что клиентские данные, вводимые через Интернет, куда менее точны, чем те, что вводятся представителями подразделения по работе с клиентами.

В качестве традиционного решения проблем с качеством данных обычно использовались программы очистки и редактирования данных. Однако они не решают задачу в полном объеме, так как сами являются источниками ошибок. А иногда они могут создавать даже больше проблем, чем призваны решить. Например, отдельно вводимые с клавиатуры имена и номера телефонов содержат, как правило, немного ошибок. Но когда за дело берутся программы очистки, они могут мгновенно повлиять на сотни тысяч записей. Когда такие программы пытаются решить проблемы, которых на самом деле не существует, получается ошибка Типа 1. Когда они полностью упускают существующую проблему, мы имеем ошибку Типа 2. А максимально высокое качество данных лежит где-то между этими крайностями.

К сожалению, программное обеспечение не способно различать тонкие нюансы значений, поэтому такие ошибки и вытекающая из него недостаточная или избыточная очистка данных являются практически неизбежным злом. Тем не менее, можно постараться сохранить "золотую середину", соблюдая баланс между этими двумя крайностями. Для этого мы предлагаем вам краткое их описание и советы по выбору программного обеспечения, поддерживающего равновесие между двумя возможными перегибами в процессе очистки данных.

Ошибки Типа 1

Ошибки Типа 1 имеют место в случае, когда программа очистки данных начинает подозревать несоответствия в данных там, где их нет. Например, каждый большой город состоит из районов или округов, обитатели которых часто указывают их в составе своих адресов вместо названия города. Но почтовые службы привыкли видеть в составе адреса именно название города. Программа очистки данных, воспринимающая такие "аксессуары" как названия городов, обязательно допустит ошибку Типа 1. Почта довольна - города указаны в адресе. Вопрос в том, к чему это приведет в реальности…

Другим примером ошибки Типа 1 может послужить программа очистки данных, проверяющая коды пола клиентов и изменяющая имя Ким с мужского на женское. Конечно, множество людей по имени Ким - действительно женщины, однако не следует забывать и о мужчинах с таким именем. Можно также вспомнить о программах, превращающих сочетания имен типа Ширли Темпл в название организации. Масса "темплов" (temple - храм) действительно являются общественными или религиозными организациями, однако Ширли Темпл - вполне реальный человек.

Более оригинальным примером может стать программа, полагающая, что Гарри Джонс из дома 132 по Главное улице является дубликатом Гарри Джонса из дома 131 по той же улице. Хотя адреса различаются всего в одной цифре, однако понятно, что оба Гарри вполне могут быть разными людьми, и тогда мы снова столкнемся с ошибкой Типа 1.

Ошибки Типа 2

Ошибка Типа 2 случается при упущении программой неверных данных. Такие данные беспрепятственно проходят "гигиенические тесты", но, тем не менее, не являются верными. Эту ошибку еще называют "утраченной ошибкой". Программа очистки данных пропускает данные, которые на самом деле должна была бы исправить. Иногда это происходит, ввиду случайной кажущейся правильности ошибочных данных, а иногда - просто потому, что программа просто упустила их или не была предназначена для очистки таких данных.

Можно взять примеры ошибок Типа 1 и подобрать им аналогичные ошибки Типа 2.

В этих примерах название города, содержащее серьезную ошибку, может быть воспринято как некий необязательный элемент ("украшение") адреса. А лицо с именем, которым обычно называют женщин, на самом деле оказывается мужчиной, которому такое имя было дано, например, согласно некой семейной традиции. Такая же печальная участь может постичь и ресторан, названный в честь своего фирменного напитка - Ширли Темпл или две записи о Гарри Джонсе, на самом деле являющемся одним и тем же лицом, но с опечаткой в одном из адресов. И число таких метастаз в данных поистине бесконечно.

Проблема

Самая сложная задача, стоящая перед программой очистки данных, заключается в минимизации ошибок Типа 1 и 2. Для устранения ошибок Типа 1 программа должна стараться не исправлять то, что итак верно. Это сразу же закономерным образом повышает вероятность возникновения ошибки Типа 2. Ошибок Типа 2 можно избежать путем скрупулезной работы с данными, что, конечно же, незамедлительно приводит к излишней очистке и, соответственно, - к допущению ошибки Типа 1.

Некоторые программы очистки стараются так или иначе поддерживать баланс между излишней тщательностью и излишним доверием, создавая объемистые отчеты о "подозрительных" записях. Эти программы собирают все подозрительное, правильное и нет, в одну большую кучу, которая и является таким отчетом. Такая методика существенно увеличивает затраты на уточнение данных, поскольку требует участия дорогостоящих человеческих ресурсов.

Другим путем чрезмерной компенсации ошибок Типа 1 является внесение слишком малого числа исправлений. А самые примитивные - и поэтому наиболее опасные, - программы очистки данных стараются компенсировать и ошибки Типа 2, выдавая на выходе нечто гораздо более скверное, чем то, что было до "очистки".

Определение качественной программы очистки данных состоит из четырех элементов: она должна не затрагивать правильные данные, исправлять неверные, создавать небольшой по объему отчет о подозрительных записях и требовать минимальных затрат на установку, обслуживание и ручные проверки. Именно такая программа будет "золотой серединой" между ошибками Типа 1 и 2.

Лекарство

Как же достичь такого равновесия?

Каждая программа очистки данных имеет некую базу знаний, используемую для поиска и исправления ошибок. Чем она больше и разнообразнее по составу информации, тем лучше результаты очистки.

Например, рассмотрим уже упоминавшуюся проблему с Ширли Темпл. База знаний, содержащая только слово Temple (храм) как понятие, обозначающее некоторую организацию, весьма вероятно неверно поймет эту запись. База знаний, содержащая и слово Temple в значении организации и слово Shirley как женское имя, также не обязательно правильно поймет наш пример. Это зависит от приоритета слов в базе знаний.

База знаний, содержащая, кроме того, шаблон Имя - Организация для идентификации отдельных лиц, с большей степень вероятности воспримет введенные слова в их реальном значении. А база знаний, которая способна еще и оценить, является или данный адрес адресом физического или юридического лица, имеет в этой ситуации наилучшие шансы.

Последняя база знаний рассматривает данные одновременно под четырьмя разными углами - два значения слов, шаблон слов и стиль адреса. Три из них подтвердят, что Ширли является физическим лицом. Ахиллесовой пятой здесь могло бы стать одно из значений слов, предполагающее, что это все же организация. Но прочие аспекты являются достаточно вескими аргументами для определения Ширли Темпл как человека. Чем больше таких подтверждений, тем больше шансов избежать ошибки с подобными данными.

Вкратце - чем больше и разнообразнее база знаний программы, тем больше таких свидетельств она может обеспечить.

Вывод

Если перед вами стоит задача выбора программного обеспечения для очистки данных, возможно, вам будет легче принять верное решение с учетом наших советов:

  • Самым важным является объем базы знаний. Отметьте для себя размер базы знаний и различные виды хранящейся в ней информации. Обратите внимание на количество подтверждений, использующихся при принятии решений по элементам данных. Потребуйте от поставщика продемонстрировать вам примеры работы программы с различными неоднозначными данными.
  • Проведите небольшой опыт. Попросите вашего потенциального поставщика описать, как его решение обрабатывает ошибки Типов 1 и 2. Если он не понимает о чем речь, даже после того, как вы объяснили ему терминологию, вы явно обращаетесь не по адресу - либо это не специалист, либо вообще не тот поставщик, что вам нужен.
  • Следует тщательно оценить возможности решений. Готовые демо-версии, изображающие решение всех ваших проблем с помощью продукта конкретного поставщика всегда чрезвычайно подозрительны. Понятно, что демо-версии предназначены для отражения наиболее сильных сторон решений, однако вам следует проявить дотошность. Хорошая демо-версия берет данные "слету", в идеале - просто ваши собственные.
  • Необходимо убедиться, что вы владеете полной информацией о продукте. Убедитесь, что вы ясно представляете себе стоимость установки, обслуживания и объем организационной работы. Цена самого продукта может оказаться лишь вершиной айсберга. Вы должны точно представлять себе, что именно вас ожидает.

Наилучшим решением, разумеется, будет то, которое обеспечит вам самые чистые данные за самую низкую цену. Верное решение, принятое в части программного обеспечения по очистке данных, может стать залогом чистоты вашего Хранилища данных сегодня и в будущем.

 Обсудить на форуме   Написать вебмастеру 

© 2001 Interface Ltd