OLAP.ru   Rambler's Top100
Вы находитесь на страницах старой версии сайта. Перейдите на новую версию OLAP.ru
  
Поиск по сайту
Новости
Основы OLAP
Продукты
Business Objects/ Crystal Decisions
Каталог
OLAP в жизни
Тенденции
Download
Яndex
 
 
 
TopList
 

Электронное качество данных: скрытая перспектива очистки данных


 

Ronald Forino
материал был размещен на корпоративном сайте компании Intersoft Lab

Роль автора как системного интегратора дает возможность контактировать с рядом ведущих провайдеров бизнес-аналитических (BI) инструментов и средств обеспечения качества данных. Сохраняя нейтралитет относительно всех достоинств и недостатков различных продуктов, специалисты по Хранилищам данных и бизнес-анализу (BI) время от времени стремятся официально оформить отношения с поставщиками, вступая в различные партнерские соглашения. Такие отношения позволяют совершенствовать предоставляемые потребителям сервисы за счет увеличения знаний и возможностей используемых инструментов, а также за счет расширения доступа к базе знаний поставщиков.

Как раз в процессе такого обмена знаниями автору удалось провести несколько дней в компании Firstlogic в Ла Кроссе, Висконсин. Firstlogic работает на специализированном рынке очистки данных. Другими лидерами рынка в этом секторе являются такие фирмы, как Trillium Software, Group-1 Software, Vality Technology и Innovative Systems. Термин "очистка данных" может иметь множество значений, но в целом он означает обеспечение поддержки очистки данных, так или иначе связанных с потребителем. Приложения очистки данных в рамках таких средств обычно выполняют одну или несколько следующих функций:

  • Парсинг. Имя и адрес клиента часто хранится в текстовых полях свободного формата. Текст свободного формата иногда труден для разбиения на самостоятельные подстроки, соответствующие типу поля, к которому они относятся (номер улицы, улица адреса, город, штат, индекс и другие данные подобного характера). Программное обеспечение, осуществляющее парсинг, распознает такие подстроки и назначает им соответствующие поля. Например, приложение Firstlogic i.d.Centic содержит функции парсинга, включающие в себя возможность идентификации компонент имени, должности, компании и адреса даже в случае непоследовательно введенных данных. К тому же, парсинг фирм и стандартизация слов, связанных с описанием фирм, позволяет программе полностью проверить данные о фирмах - включая и сокращения - и стандартизировать фирмы в едином согласованном формате. Большинство поставщиков обеспечивают возможность изменение словарей парсинга в своих инструментах для обработки специфических имен и данных о фирмах, имеющихся у клиента. Vality Technology, например, использует собственный метод парсинга - "лексический анализ". На заре аналитики данных, INTEGRITY, флагманский продукт компании Vality, использовался при парсинге и анализе текста свободного формата для выявления в данных имен и адресов.

  • Стандартизация. Данные имен и адресов могут вводиться в различных форматах, многие из которых вполне грамматически корректны. Например, "Улица", "Ул." и "Ул" обозначают одно и то же очевидное понятие в составе адреса. У Почтовой службы Соединенных Штатов Америки существуют стандарты для этих и других подобных случаев. Программы стандартизации трансформируют такие поля в согласованный набор обозначений, подходящих для Почтовой службы. Самым важным объектом стандартизации являются записи по клиентам, точность которых может быть существенно повышена за счет использования процесса согласования, описанного далее.

  • Проверка допустимости. Множество поставщиков предлагают средства распознавания допустимых международных и американских адресов. Например, приложение компании Firstlogic объединено с программой проверки допустимости и файлами почтовых адресов (postal address files, PAFs), проверяющих допустимость международных адресных данных. А компания Group-1 недавно объявила о выпуске аналогичного продукта - CODE-1 Plus International 1.5, - способного отсылать и возвращать адресные данные в формате конкретной страны, а в ряде случаев - и с использованием специфических символов, принятых в различных странах для обозначения соответствующей информации.

  • Улучшение. Ряд поставщиков предлагают программы, добавляющие к данным дополнительные факты о записях, изначально в них не содержавшиеся. Программное обеспечение Firstlogic, например, содержит возможность присвоения клиентам пола на основании анализа его имени и других показателей его профайла.

    Кроме того, многие поставщики могут устанавливать географическую информацию, обозначающую гео-код, долготу и широту указанной местности. Наиболее же ценным дополнением клиентского профайла являются данные третьих фирм, содержащие демографическую и психографическую информацию. Например, Trillium Software, подразделение Harte-Hanks, специализируется на обеспечении именно таких данных.

  • Согласование и консолидация. Как только имя и адрес очищены, для устранения дублирования клиентов в рамках каждого списка и соединения данных из различных источников применяется программа согласования. Большинство средств содержат алгоритмы расстановки приоритетов между полями (в процессе согласования) и контроля очередности сравнения полей.

Firstlogic поддерживает два набора продуктов: Postalsoft и i.d.Centric. Postalsoft представляет собой средство автоматизации документации и почты, предназначенное для печати настроенных согласно требованиям пользователя документов, а i.d.Centric является средством интеграции клиентских данных и реализации функций очистки, улучшения и согласования местных и международных клиентских данных.

Нынешний набор возможностей i.d.Centric включает Rapid Application Integration Deployment (для интерактивных и пакетно-ориентированных приложений); Links (программное обеспечение, интегрированное с Siebel, PeopleSoft, ONYX, Informatica, Informix - Ardent Datastage - и Torrent); eDataQuality (программное обеспечение для транзакционных, онлайновых, распределенных сред); Stand-Alone (готовое решение для пакетных файлов) и Library (набор инструментов для настраиваемой интеграции с существующим программным обеспечением приложений).

Во время визита в Firstlogic автор имел возможность пообщаться с ведущими менеджерами по продажам, маркетингу, финансам, разработке продуктов и т.д. В процессе такого общения автор отметил, что, в отличие от других аналогичных компаний Firstlogic не расширяет свою деятельность на рынках других привлекательных средств автоматизации, совершенствуя именно область очистки данных. В компании уверены, что развитие электронного бизнеса, бизнес-аналитики (BI) и управления отношениями с клиентами будет продолжать стимулировать расширение рынка мощных решений для очистки данных.

Разработчики Firstlogic положительно оценивают перспективы своих продуктов. Дополнив поддерживаемые платформы системой Linux, они планируют выйти на рынок серверов и сектор систем обеспечения качества информации на мейнфрейме. Кроме того, Firstlogic также собирается расширять возможности своих продуктов в области работы с данными других типов (не являющимися именами и адресами) за счет совершенствования возможностей обработки международных данных и связей с ключевыми пакетами электронного бизнеса и поставщиками соответствующих средств.

Как и многие другие в данном секторе рынка, Firstlogic рассматривает качество данных с корпоративной точки зрения. Качество информации становится важнейшим фактором успеха не только в области оформления заказов, но и в их обработке, в электронном бизнесе, планировании ресурсов предприятий (ERP) и управлении отношениям с клиентами. И весьма скоро можно будет убедиться, что очистка данных станет естественной и неотъемлемой частью всякого эффективного решения, предназначенного для работы с клиентским данными.

 Обсудить на форуме   Написать вебмастеру 

© 2001 Interface Ltd