Аннотация Сервисы автоматического анализа данных. Задача Разработка программ для анализа разнородных документов, извлечения информации из них с целью построения графов бизнес-процессов, оптимизации работы аналитиков. Решение Несколько веб-сервисов на основе методов машинного обучения для анализа и поиска документов, построения графа научных публикаций и бизнес-процессов, а также извлечения и визуализации информации геологических карт. Результаты Оптимизация работы различных подразделений Заказчика, в частности аналитического отдела. |
Клиент:
Исследовательский центр нефтегазовой компании Сфера деятельности: Разработка аналитических сервисов Технологии: Python, JavaScript, TensorFlow, Yargy, UDPipe География: Россия Размер команды: 7 |
Кейс 1: Анализ и поиск документов
Цель проекта
Обработка входных данных (документов) основных типов, включая отсканированные копии документов. Структурирование документов (извлечение основных атрибутов текста и его классификация) для последующего анализа и реализации семантического поиска по документам.
Структурирование входных данных:







Обработка входных данных (документов) основных типов, включая отсканированные копии документов. Структурирование документов (извлечение основных атрибутов текста и его классификация) для последующего анализа и реализации семантического поиска по документам.
Структурирование входных данных:
- извлечение текста
- извлечение изображений
- извлечение табличных данных
- извлечение сущностей, кластеров упоминаний, ключевых слов, ключевых фраз
- извлечение метаданных: автор, время создания документа, теги, комментарии
- автоматическое создание краткого описания
- генерация презентаций и отчётов
- представление документов в виде графа
- облако слов при выделении тематик документов
Система анализа разнородных данных

Извлечение ключевых слов

Связь документов с базой знаний

Автореферирование текста

Автогенерация отчётов

Кластеризация документов на основе тематического моделирования


Кейс 2: Сетевой анализ
Цель проекта
Анализ научных публикаций с целью построения графов соавторов, цитирований, различных научных областей, определения специализаций научных коллективов.
Технологии, использованные в проекте
Система включает в себя:







Анализ научных публикаций с целью построения графов соавторов, цитирований, различных научных областей, определения специализаций научных коллективов.
Технологии, использованные в проекте
Система включает в себя:
- Модуль предобработки документов:
- поддержка всех основных форматов документов
- оптическое распознавание символов
- Модуль анализа публикаций:
- извлечение авторов
- извлечение списка цитирований
- извлечение ключевых слов статьи
- построение графов соавторов, цитирований, тематического графа
- предсказание связей соавторов (link prediction)
- предсказание глобальных трендов
- автоматическая кластеризация публикаций по семантической схожести
Сетевой анализ






Обработка данных предметной области

Кейс 3: Использование искусственного интеллекта для обработки и систематизации графических данных
Цель проекта
Использование искусственного интеллекта для обработки и систематизации графических данных.
Описание проекта
Использование искусственного интеллекта для обработки и систематизации графических данных.
Система включает в себя:







Использование искусственного интеллекта для обработки и систематизации графических данных.
Описание проекта
Использование искусственного интеллекта для обработки и систематизации графических данных.
Система включает в себя:
- Алгоритм цифровизации
- детектирование и распознавание символов (задача OCR)
- детектирование легенды карт
- сопоставление значений легенды на карте по цвету
- выделение изолиний
- сопоставление изолиний с их значениями
- интерполяция значений изолиний для заполнения внутренних областей изолиний
- детектирование названий на карте
- Веб-приложение
- Глобальная карта с привязкой к локальным картам
- Просмотр карт со всеми слоями
Детекция символов

Распознавание символов


Пример распознавания символов и направления

Выделение легенды и изолиний

Детектирование названий на карте

Связь легенды и карты

Распознавание значков легенды и карты

-
Распознаются объекты легенды
- Объекты связываются с текстовым описанием
- Объекты детектируются на картах
- Информация о распознанных объектах визуализируется в сервисе
- Информация об объектах хранится в базе для сбора статистики и дальнейшего анализ
Повышение качества изображения

Возможности применения
