Вы находитесь на страницах старой версии сайта. Перейдите на новую версию OLAP.ru |
Поиск по сайту | ||||||
Новости | ||||||
Основы OLAP | ||||||
Продукты | ||||||
Business Objects/ Crystal Decisions | ||||||
Каталог | ||||||
OLAP в жизни | ||||||
Тенденции | ||||||
Download | ||||||
| ||||||
Как избежать двух основных крайностей программ очистки данных
Рич Олшефски (Rich Olshefski)
Сегодня все больше людей занимаются вводом все большего объема данных в базы данных - и делают гораздо больше ошибок, чем ранее. Такая совокупность проблем характерная для сред электронной коммерции, в которых клиенты больше озабочены скоростью, чем точностью процесса. Последние исследования показывают, что клиентские данные, вводимые через Интернет, куда менее точны, чем те, что вводятся представителями подразделения по работе с клиентами. В качестве традиционного решения проблем с качеством данных обычно использовались программы очистки и редактирования данных. Однако они не решают задачу в полном объеме, так как сами являются источниками ошибок. А иногда они могут создавать даже больше проблем, чем призваны решить. Например, отдельно вводимые с клавиатуры имена и номера телефонов содержат, как правило, немного ошибок. Но когда за дело берутся программы очистки, они могут мгновенно повлиять на сотни тысяч записей. Когда такие программы пытаются решить проблемы, которых на самом деле не существует, получается ошибка Типа 1. Когда они полностью упускают существующую проблему, мы имеем ошибку Типа 2. А максимально высокое качество данных лежит где-то между этими крайностями. К сожалению, программное обеспечение не способно различать тонкие нюансы значений, поэтому такие ошибки и вытекающая из него недостаточная или избыточная очистка данных являются практически неизбежным злом. Тем не менее, можно постараться сохранить "золотую середину", соблюдая баланс между этими двумя крайностями. Для этого мы предлагаем вам краткое их описание и советы по выбору программного обеспечения, поддерживающего равновесие между двумя возможными перегибами в процессе очистки данных. Ошибки Типа 1Ошибки Типа 1 имеют место в случае, когда программа очистки данных начинает подозревать несоответствия в данных там, где их нет. Например, каждый большой город состоит из районов или округов, обитатели которых часто указывают их в составе своих адресов вместо названия города. Но почтовые службы привыкли видеть в составе адреса именно название города. Программа очистки данных, воспринимающая такие "аксессуары" как названия городов, обязательно допустит ошибку Типа 1. Почта довольна - города указаны в адресе. Вопрос в том, к чему это приведет в реальности… Другим примером ошибки Типа 1 может послужить программа очистки данных, проверяющая коды пола клиентов и изменяющая имя Ким с мужского на женское. Конечно, множество людей по имени Ким - действительно женщины, однако не следует забывать и о мужчинах с таким именем. Можно также вспомнить о программах, превращающих сочетания имен типа Ширли Темпл в название организации. Масса "темплов" (temple - храм) действительно являются общественными или религиозными организациями, однако Ширли Темпл - вполне реальный человек. Более оригинальным примером может стать программа, полагающая, что Гарри Джонс из дома 132 по Главное улице является дубликатом Гарри Джонса из дома 131 по той же улице. Хотя адреса различаются всего в одной цифре, однако понятно, что оба Гарри вполне могут быть разными людьми, и тогда мы снова столкнемся с ошибкой Типа 1. Ошибки Типа 2Ошибка Типа 2 случается при упущении программой неверных данных. Такие данные беспрепятственно проходят "гигиенические тесты", но, тем не менее, не являются верными. Эту ошибку еще называют "утраченной ошибкой". Программа очистки данных пропускает данные, которые на самом деле должна была бы исправить. Иногда это происходит, ввиду случайной кажущейся правильности ошибочных данных, а иногда - просто потому, что программа просто упустила их или не была предназначена для очистки таких данных. Можно взять примеры ошибок Типа 1 и подобрать им аналогичные ошибки Типа 2. В этих примерах название города, содержащее серьезную ошибку, может быть воспринято как некий необязательный элемент ("украшение") адреса. А лицо с именем, которым обычно называют женщин, на самом деле оказывается мужчиной, которому такое имя было дано, например, согласно некой семейной традиции. Такая же печальная участь может постичь и ресторан, названный в честь своего фирменного напитка - Ширли Темпл или две записи о Гарри Джонсе, на самом деле являющемся одним и тем же лицом, но с опечаткой в одном из адресов. И число таких метастаз в данных поистине бесконечно. ПроблемаСамая сложная задача, стоящая перед программой очистки данных, заключается в минимизации ошибок Типа 1 и 2. Для устранения ошибок Типа 1 программа должна стараться не исправлять то, что итак верно. Это сразу же закономерным образом повышает вероятность возникновения ошибки Типа 2. Ошибок Типа 2 можно избежать путем скрупулезной работы с данными, что, конечно же, незамедлительно приводит к излишней очистке и, соответственно, - к допущению ошибки Типа 1. Некоторые программы очистки стараются так или иначе поддерживать баланс между излишней тщательностью и излишним доверием, создавая объемистые отчеты о "подозрительных" записях. Эти программы собирают все подозрительное, правильное и нет, в одну большую кучу, которая и является таким отчетом. Такая методика существенно увеличивает затраты на уточнение данных, поскольку требует участия дорогостоящих человеческих ресурсов. Другим путем чрезмерной компенсации ошибок Типа 1 является внесение слишком малого числа исправлений. А самые примитивные - и поэтому наиболее опасные, - программы очистки данных стараются компенсировать и ошибки Типа 2, выдавая на выходе нечто гораздо более скверное, чем то, что было до "очистки". Определение качественной программы очистки данных состоит из четырех элементов: она должна не затрагивать правильные данные, исправлять неверные, создавать небольшой по объему отчет о подозрительных записях и требовать минимальных затрат на установку, обслуживание и ручные проверки. Именно такая программа будет "золотой серединой" между ошибками Типа 1 и 2. ЛекарствоКак же достичь такого равновесия? Каждая программа очистки данных имеет некую базу знаний, используемую для поиска и исправления ошибок. Чем она больше и разнообразнее по составу информации, тем лучше результаты очистки. Например, рассмотрим уже упоминавшуюся проблему с Ширли Темпл. База знаний, содержащая только слово Temple (храм) как понятие, обозначающее некоторую организацию, весьма вероятно неверно поймет эту запись. База знаний, содержащая и слово Temple в значении организации и слово Shirley как женское имя, также не обязательно правильно поймет наш пример. Это зависит от приоритета слов в базе знаний. База знаний, содержащая, кроме того, шаблон Имя - Организация для идентификации отдельных лиц, с большей степень вероятности воспримет введенные слова в их реальном значении. А база знаний, которая способна еще и оценить, является или данный адрес адресом физического или юридического лица, имеет в этой ситуации наилучшие шансы. Последняя база знаний рассматривает данные одновременно под четырьмя разными углами - два значения слов, шаблон слов и стиль адреса. Три из них подтвердят, что Ширли является физическим лицом. Ахиллесовой пятой здесь могло бы стать одно из значений слов, предполагающее, что это все же организация. Но прочие аспекты являются достаточно вескими аргументами для определения Ширли Темпл как человека. Чем больше таких подтверждений, тем больше шансов избежать ошибки с подобными данными. Вкратце - чем больше и разнообразнее база знаний программы, тем больше таких свидетельств она может обеспечить. ВыводЕсли перед вами стоит задача выбора программного обеспечения для очистки данных, возможно, вам будет легче принять верное решение с учетом наших советов:
Наилучшим решением, разумеется, будет то, которое обеспечит вам самые чистые данные за самую низкую цену. Верное решение, принятое в части программного обеспечения по очистке данных, может стать залогом чистоты вашего Хранилища данных сегодня и в будущем. © 2001 Interface Ltd |