IQ Search Engine
IQ Search Engine является результатом многолетних исследований в области анализа данных и представляет собой технологическую основу для всех продуктов нашей компании.
Одной из фундаментальных проблем является «размытость» описываемых сущностей. Встречается эта проблема широко — от философских теорий познания и лингвистики до сугубо практических задач типа перевода текстов и анализа различных источников в рамках задач big data. Эта «размытость» выражается, например, в ограниченности и условности лексических структур при интерпретации заложенных смыслов, синонимии, и полисемии, банальных орфографических ошибках и многом другом.
Безусловно, решение этих проблем «в общем виде» еще впереди. Мы же решили для начала ограничиться поиском решений в конкретных прикладных областях.
IQ Search Engine представляет собой набор алгоритмов, предназначенных для быстрого поиска, анализа и извлечения информации в произвольных текстах путем их структурно-семиотического анализа и предоставляет возможность непосредственного анализа текста на наличие в нем искомых объектов, таких как почтовые адреса, товары, наименования организаций и т.д., пусть даже с ошибками и опечатками.
Главным отличием нашего решения от других поисковых систем является возможность быстрого и качественного распознавания сущностей, описанных в виде онтологических справочников, хранящих знания о предметной области. Поиск строится не на предварительной индексации, а на методах латентно-семантического анализа или полнотекстового анализа. Это позволяет, в частности, не использовать хэш-таблицы, характерные для прикладных поисковых систем, размер которых лавинообразно растет по мере роста числа синонимов, вариантов написания, в том числе — вариантов ошибочного написания. Это позволяет нам добиться высочайшей производительности, эффективного использования вычислительных ресурсов и уникальной эффективности поиска в целом.
В результате наших исследований созданы прикладные решения в нескольких областях:
- распознавание и перевод почтовых адресов и топонимов в сложных текстах, например, рекламных объявлениях, а не только написанных в «чистом» виде;
- извлечение и анализ личных данных (ФИО), наименований организаций, торговых наименований и т.д.;
- извлечение и анализ товаров, например, в отчетах торговых представителей с опечатками, «непонятными» сокращениями, разнообразными способами написания одних и тех же товаров, точек продажи, организаций и т.д.;
- поиск соответствия описания товаров в ГТД описаниям контролируемых товаров в нормативных документах таможенных органов;
IQ Search Engine не является «просто поиском», а применяется для «распознавания» в тексте любых объектов и их свойств путем «обучения» системы, создания требуемых онтологических справочников для целевой предметной области.
IQ Search Engine в составе MDM-решения выполняет ключевую функцию поиска подобных записей (дубликатов) в массивах мастер-данных. Эффективность алгоритмов поиска обеспечивает высокую степень автоматизации управления мастер-данными при крайне умеренных требованиях к ресурсам.
На основе IQ Search Engine мы строим системы обработки информации, относящиеся к определенной предметной области и обеспечивающие в рамках этой области поиск сущностей, их классификацию, сравнение, выделение их свойств из описаний, превращение текстовых описаний в структурированные данные, сопоставление объектов между собой.