IQ Search Engine

IQ Search Engine

IQ Search Engine является результатом многолетних исследований в области анализа данных и представляет собой технологическую основу для всех продуктов нашей компании.

Одной из фундаментальных проблем является «размытость» описываемых сущностей. Встречается эта проблема широко —  от философских теорий познания и лингвистики до сугубо практических задач типа перевода текстов и анализа различных источников в рамках задач big data. Эта «размытость» выражается, например, в ограниченности и условности лексических структур при интерпретации заложенных смыслов, синонимии, и полисемии, банальных орфографических ошибках и многом другом.

Безусловно, решение этих проблем «в общем виде» еще впереди. Мы же решили для начала ограничиться поиском решений в конкретных прикладных областях.

IQ Search Engine представляет собой набор алгоритмов, предназначенных для быстрого поиска, анализа и извлечения информации в произвольных текстах путем их структурно-семиотического анализа и предоставляет возможность непосредственного анализа текста на наличие в нем искомых объектов, таких как почтовые адреса, товары, наименования организаций и т.д., пусть даже с ошибками и опечатками.

Главным отличием нашего решения от других поисковых систем является возможность быстрого и качественного распознавания сущностей, описанных в виде онтологических справочников, хранящих знания о предметной области. Поиск строится не на предварительной индексации, а на методах латентно-семантического анализа или полнотекстового анализа. Это позволяет,  в частности, не использовать хэш-таблицы, характерные для прикладных поисковых систем, размер которых лавинообразно растет по мере роста числа синонимов, вариантов написания, в том числе — вариантов ошибочного написания. Это позволяет нам добиться высочайшей производительности, эффективного использования вычислительных ресурсов и уникальной эффективности поиска в целом.

В результате наших исследований созданы прикладные решения в нескольких областях:

  • распознавание и перевод почтовых адресов и топонимов в сложных текстах, например, рекламных объявлениях, а не только написанных в «чистом» виде;
  • извлечение и анализ личных данных (ФИО), наименований организаций, торговых наименований и т.д.;
  • извлечение и анализ товаров, например, в отчетах торговых представителей с опечатками, «непонятными» сокращениями, разнообразными способами написания одних и тех же товаров, точек продажи, организаций и т.д.;
  • поиск соответствия описания товаров в ГТД описаниям контролируемых товаров в нормативных документах таможенных органов;

IQ Search Engine не является «просто поиском», а применяется для «распознавания» в тексте любых объектов и их свойств путем «обучения» системы, создания требуемых онтологических справочников для целевой предметной области.

IQ Search Engine в составе MDM-решения выполняет ключевую функцию поиска подобных записей (дубликатов) в массивах мастер-данных. Эффективность алгоритмов поиска обеспечивает высокую степень автоматизации управления мастер-данными при крайне умеренных требованиях к ресурсам.

На основе IQ Search Engine мы строим системы обработки информации, относящиеся к определенной предметной области и обеспечивающие в рамках этой области поиск сущностей, их классификацию, сравнение, выделение их свойств из описаний, превращение текстовых описаний в структурированные данные, сопоставление объектов между собой.

Share