Машинное обучение для анализа документов

Аннотация
Сервисы автоматического анализа данных.

Задача
Разработка программ для анализа разнородных документов, извлечения информации из них с целью построения графов бизнес-процессов, оптимизации работы аналитиков.

Решение
Несколько веб-сервисов на основе методов машинного обучения для анализа и поиска документов, построения графа научных публикаций и бизнес-процессов, а также извлечения и визуализации информации геологических карт.

Результаты
Оптимизация работы различных подразделений Заказчика, в частности аналитического отдела.
Клиент:
Исследовательский центр нефтегазовой компании

Сфера деятельности:
Разработка аналитических сервисов

Технологии:
Python, JavaScript, TensorFlow, Yargy

География:
Россия

Размер команды:
7

Кейс 1: Анализ и поиск документов

Цель проекта
Обработка входных данных (документов) основных типов, включая отсканированные копии документов. Структурирование документов (извлечение основных атрибутов текста и его классификация) для последующего анализа и реализации семантического поиска по документам.

Технологии, использованные в проекте
  • Python
  • JavaScript
  • TensorFlow
  • Yargy
  • Elasticsearch
Описание проекта
Структурирование входных данных:
  • извлечение текста
  • извлечение изображений
  • извлечение табличных данных
Структурирование текстовых данных:
  • извлечение сущностей, кластеров упоминаний, ключевых слов, ключевых фраз
  • извлечение метаданных: автор, время создания документа, теги, комментарии
Генерация ключевой информации:
  • автоматическое создание краткого описания
  • генерация презентаций и отчётов
Визуальное представление:
  • представление документов в виде графа
  • облако слов при выделении тематик документов

Система анализа разнородных данных


Извлечение ключевых слов


Связь документов с базой знаний


Автореферирование текста


Автогенерация отчётов


Кластеризация документов на основе тематического моделирования



Кейс 2: Сетевой анализ

Цель проекта
Анализ научных публикаций с целью построения графов соавторов, цитирований, различных научных областей, определения специализаций научных коллективов.

Технологии, использованные в проекте
  • Python
  • Neo4j
  • TensorFlow
  • Yargy
  • Plotly/D3.js
  • UDPipe
Описание
Система включает в себя:
  • Модуль предобработки документов:
    • поддержка всех основных форматов документов
    • оптическое распознавание символов
  • Модуль анализа публикаций:
    • извлечение авторов
    • извлечение списка цитирований
    • извлечение ключевых слов статьи
    • построение графов соавторов, цитирований, тематического графа
    • предсказание связей соавторов (link prediction)
    • предсказание глобальных трендов
    • автоматическая кластеризация публикаций по семантической схожести

Сетевой анализ











Обработка данных предметной области


Кейс 3: Графы бизнес-процессов

Цель проекта
Построение графов бизнес-процессов на основе информации, извлечённой из документов с целью оптимизировать существующие бизнес-процессы Заказчика.

Технологии, использованные в проекте
  • TensorFlow
  • Yargy
  • Neo4j
  • Vue.js
  • Flask
Описание проекта
Система включает в себя:
  • Модуль экстракции:
    • извлечение информации из документов: ключевые фразы, слова
    • извлечение информации об объектах и их свойствах
    • связь объектов и свойств
    • генератор данных для визуализации графов
  • Модуль подготовки данных для модели:
    • генератор векторного представления информации для передачи в модель для расчета KPI

Графы бизнес-процессов






Кейс 4: Построение графов бизнес-процессов

Цель проекта
Использование искусственного интеллекта для обработки и систематизации графических данных.

Технологии, использованные в проекте
  • TensorFlow
  • Keras
  • OpenCV
  • Flask
  • Vue.js
Описание проекта
Использование искусственного интеллекта для обработки и систематизации графических данных.

Система включает в себя:
  • Алгоритм цифровизации
    • детектирование и распознавание символов (задача OCR)
    • детектирование легенды карт
    • сопоставление значений легенды на карте по цвету
    • выделение изолиний
    • сопоставление изолиний с их значениями
    • интерполяция значений изолиний для заполнения внутренних областей изолиний
    • детектирование названий на карте

  • Веб-приложение
    • Глобальная карта с привязкой к локальным картам
    • Просмотр карт со всеми слоями

Детекция символов


Распознавание символов



Пример распознавания символов и направления


Выделение легенды и изолиний


Детектирование названий на карте


Связь легенды и карты