Очистка данных

Очистка и нормализация данных

Очистка данных позволяет быстро улучшить качество данных в существующих системах, обработать «некачественные» массивы, получаемые от партнеров, сбытовой сети, ненадежных источников и т.д.

Любая организация с достаточно длинной историей сталкивается с проблемой «захламления» своих данных, что прямо сказывается на бизнесе:

  • Заведенные по нескольку раз клиенты — обычное дело, и невозможно точно сказать: сколько же клиентов на самом деле?
  • Товарные каталоги один и тот же товар включают в себя по нескольку раз – и в итоге вместо продажи складских запасов тот же самый товар заказывается заново просто потому, что в информационной системе он представлен множеством разных записей, а складские запасы прирастают «мертвыми» позициями.
  • Огромные ресурсы тратятся на формирование отчетности, но низкое качество данных делает ее недостоверной и даже опасной для принятия решений.

Отдельно следует отметить, что при запуске новых информационных систем в них переливаются данные из старых – со всем накопленным багажом ошибок, неточностей и дубликатов.

В этих случаях мы делаем очистку данных. В зависимости от объемов, потребностей и особенностей конкретного случая мы можем либо забрать массив данных, обработать его и вернуть результат или выполнить эту задачу на территории заказчика, в том числе непосредственно извлекая данные из его информационных систем, баз и банков данных.

Наиболее часто предметом очистки являются массивы клиентских данных (юридические и физические лица), массивы собранных «полевых» отчетов с данными низкого качества, товарные каталоги, каталоги мест, оборудования, в общем – как правило это те или иные разновидности мастер-данных, в сопровождении транзакционных данных или без них. Зачастую одновременно производится сведение разных массивов в один.

%d1%82%d0%b5%d1%85%d0%bd%d0%be%d0%bb%d0%be%d0%b3%d0%b8%d1%8f%d0%be%d1%87%d0%b8%d1%81%d1%82%d0%ba%d0%b8

Процедура очистки данных на примере клиентских записей состоит из следующих этапов:

  1. Извлечение исходных массивов. При извлечении обязательно сохраняются уникальные идентификаторы записей. Мы можем использовать более 200 способов извлечения данных и форматов доступа к ним. Условием успешного извлечения данных является четкое документирование структур данных и понимание что есть что.
  2. Очистка, валидация и дополнение записей данных в извлеченных массивах. С помощью наших средств валидации – сервера IQDQ или сервиса iqdq.ru обрабатываются отдельные поля и элементы данных, в частности:
    1. Адреса. Все адреса валидируются, дополняются и переводятся в единый формат;
    2. Телефонные номера. Аналогично, проводится валидация, сопоставление кодов с географическими зонами в тех же записях, обновление кодов, приведение в единый формат.
    3. Имена. Проверяются по собственным справочникам, устраняются опечатки, поля приводятся в едины формат.
    4. Наименования. Анализ и нормализация наименований, выделение и стандартизация организационно-правовых форм, раскрытие сокращений, приведение к единому виду.
    5. Другие элементы данных, по которым доступны справочники и классификаторы так же могут быть обработаны для приведения в стандартизованный вид.
  3. Слияние и дедубликация массивов, обогащение итоговых записей. Используя наши алгоритмы поиска подобия, основанные на нечеткой логике и правилах мы находим «похожие» записи так же, как мы это делаем в рамках нашего MDM-решения. Поскольку итоговый результат формируется исходя из бизнес-целей, здесь нет единого на все случаи жизни подхода, в каждом конкретном случае критерии подобия могут быть очень разными. Чтобы добиться максимального качества результата, дедубликация так же представляет из себя пошаговый процесс:
    1. На «тестовой» части набора данных формируются и отлаживаются правила дедубликации. Правила должны обеспечить достижение бизнес-целей, достаточно надежное выделение сходных записей и одновременно – необходимый автоматизм этого выделения, чтобы на ручную доработку, в «сомнительно подобные», «похожие» и т.д. попадало не более 3-5% записей. Правила и результаты обработки тестового массива согласовываются с заказчиком.
    2. По согласованным правилам обрабатывается весь массив данных, в результате чего формируется искомый мастер-массив, содержащий максимально обогащенные из всех источников мастер-записи.

Результатами очистки являются мастер-массив данных и таблицы соответствия.

Мастер-массив содержит в себе «очищенные» данные, записи, максимально обогащенные информацией из разных источников, из дублированных записей одного источника, в которых собраны вся доступная информация.

Таблицы соответствия связывают каждую запись мастер-массива со всей совокупностью записей из разных массивов, на основании которых она сформирована и которым соответствует. Таким образом, полностью сохраняется связь между изначальными источниками и полученным результатом.

Помимо этого, записи классифицируются по критерию уверенности в подобии. Записи, уверенно признанные подобными или разными на основе алгоритмов и правил – представляют собой готовый, законченный результат. Но помимо них, обычно существует 3-5% записей, которые «похожи» на одну из других, то есть степень их подобия не позволяет принять автоматическое решение, признав их «идентичными» или «разными». Обработка этих записей не входит в наши услуги, в зависимости от поставленных бизнес-целей может использоваться ручная обработка операторами, дополнительные правила или просто волевое решение – признать их разными, а их количество и влияние на общее качество данных – несущественным.

В зависимости от целей очистки, итоговый массив может быть загружен в аналитическую систему, использован для формирования отчетности или загружен обратно в системы-источники для повышения качества данных.

В случае, если цель – улучшить данные в существующих системах, итоговый массив и таблицы соответствия содержат достаточно информации для разработки процедур обновления данных для каждой системы. Способ слияния дубликатов и обновления записей для каждой системы свой собственный, и эта задача обычно выполняется заказчиком самостоятельно.

Очистка данных может выполняться не только как разовая процедура, но и как регулярная задача, например, обработки большого массива ежемесячной отчетности. В этом случае работа выполняется регулярно по постоянному контракту с фиксированной оплатой, используя одни и те же правила и алгоритмы и дополнительные мастер-данные, формируемые в процессе обработки отчетных массивов, которые мы храним у себя.

Стоимость услуги очистки данных для массивов среднего размера – в несколько миллионов записей, обычно составляет от 30 до 60 копеек за запись исходного массива, в эту сумму включается весь описанный технологический цикл.

Для регулярной очистки массивов на базе стабильного набора правил – стоимость определяется индивидуально, и состоит из разового платежа за первичный анализ, разработку правил и первую очистку, а затем существенно меньшие месячные платежи за обработку данных по этим правилам. При этом не требуется покупать программное обеспечение, а обработка может производиться как на наших ресурсах, так и внутри «периметра безопасности» заказчика на предоставленных им вычислительных ресурсах.

Таким образом, наши услуги по очистке данных позволяют в течение считанных дней, максимум – недель, радикально повысить качество данных в существующих системах или собрать воедино огромные массивы разрозненной информации, получив ценный бизнес-результат и немедленный эффект.

 

Share