Очистка и нормализация данных
Очистка данных позволяет быстро улучшить качество данных в существующих системах, обработать «некачественные» массивы, получаемые от партнеров, сбытовой сети, ненадежных источников и т.д.
Любая организация с достаточно длинной историей сталкивается с проблемой «захламления» своих данных, что прямо сказывается на бизнесе:
- Заведенные по нескольку раз клиенты — обычное дело, и невозможно точно сказать: сколько же клиентов на самом деле?
- Товарные каталоги один и тот же товар включают в себя по нескольку раз – и в итоге вместо продажи складских запасов тот же самый товар заказывается заново просто потому, что в информационной системе он представлен множеством разных записей, а складские запасы прирастают «мертвыми» позициями.
- Огромные ресурсы тратятся на формирование отчетности, но низкое качество данных делает ее недостоверной и даже опасной для принятия решений.
Отдельно следует отметить, что при запуске новых информационных систем в них переливаются данные из старых – со всем накопленным багажом ошибок, неточностей и дубликатов.
В этих случаях мы делаем очистку данных. В зависимости от объемов, потребностей и особенностей конкретного случая мы можем либо забрать массив данных, обработать его и вернуть результат или выполнить эту задачу на территории заказчика, в том числе непосредственно извлекая данные из его информационных систем, баз и банков данных.
Наиболее часто предметом очистки являются массивы клиентских данных (юридические и физические лица), массивы собранных «полевых» отчетов с данными низкого качества, товарные каталоги, каталоги мест, оборудования, в общем – как правило это те или иные разновидности мастер-данных, в сопровождении транзакционных данных или без них. Зачастую одновременно производится сведение разных массивов в один.
Процедура очистки данных на примере клиентских записей состоит из следующих этапов:
- Извлечение исходных массивов. При извлечении обязательно сохраняются уникальные идентификаторы записей. Мы можем использовать более 200 способов извлечения данных и форматов доступа к ним. Условием успешного извлечения данных является четкое документирование структур данных и понимание что есть что.
- Очистка, валидация и дополнение записей данных в извлеченных массивах. С помощью наших средств валидации – сервера IQDQ или сервиса iqdq.ru обрабатываются отдельные поля и элементы данных, в частности:
- Адреса. Все адреса валидируются, дополняются и переводятся в единый формат;
- Телефонные номера. Аналогично, проводится валидация, сопоставление кодов с географическими зонами в тех же записях, обновление кодов, приведение в единый формат.
- Имена. Проверяются по собственным справочникам, устраняются опечатки, поля приводятся в едины формат.
- Наименования. Анализ и нормализация наименований, выделение и стандартизация организационно-правовых форм, раскрытие сокращений, приведение к единому виду.
- Другие элементы данных, по которым доступны справочники и классификаторы так же могут быть обработаны для приведения в стандартизованный вид.
- Слияние и дедубликация массивов, обогащение итоговых записей. Используя наши алгоритмы поиска подобия, основанные на нечеткой логике и правилах мы находим «похожие» записи так же, как мы это делаем в рамках нашего MDM-решения. Поскольку итоговый результат формируется исходя из бизнес-целей, здесь нет единого на все случаи жизни подхода, в каждом конкретном случае критерии подобия могут быть очень разными. Чтобы добиться максимального качества результата, дедубликация так же представляет из себя пошаговый процесс:
- На «тестовой» части набора данных формируются и отлаживаются правила дедубликации. Правила должны обеспечить достижение бизнес-целей, достаточно надежное выделение сходных записей и одновременно – необходимый автоматизм этого выделения, чтобы на ручную доработку, в «сомнительно подобные», «похожие» и т.д. попадало не более 3-5% записей. Правила и результаты обработки тестового массива согласовываются с заказчиком.
- По согласованным правилам обрабатывается весь массив данных, в результате чего формируется искомый мастер-массив, содержащий максимально обогащенные из всех источников мастер-записи.
Результатами очистки являются мастер-массив данных и таблицы соответствия.
Мастер-массив содержит в себе «очищенные» данные, записи, максимально обогащенные информацией из разных источников, из дублированных записей одного источника, в которых собраны вся доступная информация.
Таблицы соответствия связывают каждую запись мастер-массива со всей совокупностью записей из разных массивов, на основании которых она сформирована и которым соответствует. Таким образом, полностью сохраняется связь между изначальными источниками и полученным результатом.
Помимо этого, записи классифицируются по критерию уверенности в подобии. Записи, уверенно признанные подобными или разными на основе алгоритмов и правил – представляют собой готовый, законченный результат. Но помимо них, обычно существует 3-5% записей, которые «похожи» на одну из других, то есть степень их подобия не позволяет принять автоматическое решение, признав их «идентичными» или «разными». Обработка этих записей не входит в наши услуги, в зависимости от поставленных бизнес-целей может использоваться ручная обработка операторами, дополнительные правила или просто волевое решение – признать их разными, а их количество и влияние на общее качество данных – несущественным.
В зависимости от целей очистки, итоговый массив может быть загружен в аналитическую систему, использован для формирования отчетности или загружен обратно в системы-источники для повышения качества данных.
В случае, если цель – улучшить данные в существующих системах, итоговый массив и таблицы соответствия содержат достаточно информации для разработки процедур обновления данных для каждой системы. Способ слияния дубликатов и обновления записей для каждой системы свой собственный, и эта задача обычно выполняется заказчиком самостоятельно.
Очистка данных может выполняться не только как разовая процедура, но и как регулярная задача, например, обработки большого массива ежемесячной отчетности. В этом случае работа выполняется регулярно по постоянному контракту с фиксированной оплатой, используя одни и те же правила и алгоритмы и дополнительные мастер-данные, формируемые в процессе обработки отчетных массивов, которые мы храним у себя.
Стоимость услуги очистки данных для массивов среднего размера – в несколько миллионов записей, обычно составляет от 30 до 60 копеек за запись исходного массива, в эту сумму включается весь описанный технологический цикл.
Для регулярной очистки массивов на базе стабильного набора правил – стоимость определяется индивидуально, и состоит из разового платежа за первичный анализ, разработку правил и первую очистку, а затем существенно меньшие месячные платежи за обработку данных по этим правилам. При этом не требуется покупать программное обеспечение, а обработка может производиться как на наших ресурсах, так и внутри «периметра безопасности» заказчика на предоставленных им вычислительных ресурсах.
Таким образом, наши услуги по очистке данных позволяют в течение считанных дней, максимум – недель, радикально повысить качество данных в существующих системах или собрать воедино огромные массивы разрозненной информации, получив ценный бизнес-результат и немедленный эффект.