Машинное обучение для анализа документов

Аннотация
Сервисы автоматического анализа данных.

Задача
Разработка программ для анализа разнородных документов, извлечения информации из них с целью построения графов бизнес-процессов, оптимизации работы аналитиков.

Решение
Несколько веб-сервисов на основе методов машинного обучения для анализа и поиска документов, построения графа научных публикаций и бизнес-процессов, а также извлечения и визуализации информации геологических карт.

Результаты
Оптимизация работы различных подразделений Заказчика, в частности аналитического отдела.
Клиент:
Исследовательский центр нефтегазовой компании

Сфера деятельности:
Разработка аналитических сервисов

Технологии:
Python, JavaScript, TensorFlow, Yargy, UDPipe

География:
Россия

Размер команды:
7

Кейс 1: Анализ и поиск документов

Цель проекта
Обработка входных данных (документов) основных типов, включая отсканированные копии документов. Структурирование документов (извлечение основных атрибутов текста и его классификация) для последующего анализа и реализации семантического поиска по документам.
Описание проекта
Структурирование входных данных:
  • извлечение текста
  • извлечение изображений
  • извлечение табличных данных
Структурирование текстовых данных:
  • извлечение сущностей, кластеров упоминаний, ключевых слов, ключевых фраз
  • извлечение метаданных: автор, время создания документа, теги, комментарии
Генерация ключевой информации:
  • автоматическое создание краткого описания
  • генерация презентаций и отчётов
Визуальное представление:
  • представление документов в виде графа
  • облако слов при выделении тематик документов

Система анализа разнородных данных


Извлечение ключевых слов


Связь документов с базой знаний


Автореферирование текста


Автогенерация отчётов


Кластеризация документов на основе тематического моделирования



Кейс 2: Сетевой анализ

Цель проекта
Анализ научных публикаций с целью построения графов соавторов, цитирований, различных научных областей, определения специализаций научных коллективов.

Технологии, использованные в проекте

Система включает в себя:
  • Модуль предобработки документов:
    • поддержка всех основных форматов документов
    • оптическое распознавание символов
  • Модуль анализа публикаций:
    • извлечение авторов
    • извлечение списка цитирований
    • извлечение ключевых слов статьи
    • построение графов соавторов, цитирований, тематического графа
    • предсказание связей соавторов (link prediction)
    • предсказание глобальных трендов
    • автоматическая кластеризация публикаций по семантической схожести

Сетевой анализ











Обработка данных предметной области



Кейс 3: Использование искусственного интеллекта для обработки и систематизации графических данных

Цель проекта
Использование искусственного интеллекта для обработки и систематизации графических данных.

Описание проекта
Использование искусственного интеллекта для обработки и систематизации графических данных.

Система включает в себя:
  • Алгоритм цифровизации
    • детектирование и распознавание символов (задача OCR)
    • детектирование легенды карт
    • сопоставление значений легенды на карте по цвету
    • выделение изолиний
    • сопоставление изолиний с их значениями
    • интерполяция значений изолиний для заполнения внутренних областей изолиний
    • детектирование названий на карте

  • Веб-приложение
    • Глобальная карта с привязкой к локальным картам
    • Просмотр карт со всеми слоями

Детекция символов


Распознавание символов



Пример распознавания символов и направления


Выделение легенды и изолиний


Детектирование названий на карте


Связь легенды и карты



Распознавание значков легенды и карты

  • Распознаются объекты легенды
  • Объекты связываются с текстовым описанием
  • Объекты детектируются на картах
  • Информация о распознанных объектах визуализируется в сервисе
  • Информация об объектах хранится в базе для сбора статистики и дальнейшего анализ

Повышение качества изображения


Возможности применения