Анализ любых данных на единой платформе

Логотип компании
Анализ любых данных на единой платформе
Чтобы бизнес мог оставаться на плаву и сохранять свою конкурентоспособность, ему необходимо такие изменения отслеживать, держать руку на пульсе.

Мы живем в эпоху больших данных. Бизнес уже осознал необходимость работы с ними и ищет наиболее оптимальные способы применения тех новых возможностей, которые предоставляют Big Data, — для увеличения прибыли, повышения конкурентного преимущества, гибкости и адаптивности компании к новым тенденциям и веяниям рынка. Но данные, как известно, бывают не только структурированные (которые можно сразу же классифицировать, сохранять в базах и использовать в информационных системах без дальнейшей обработки), но и слабо структурированные, а также вовсе неструктурированные. Первые нуждаются в дополнительной переработке перед последующим хранением, анализом и использованием, а вторые необходимо еще сначала получить и извлечь из того или иного источника. Как поступать с подобными данными, учитывая, что поток информации растет непрерывно, и если сегодня организация не создаст стратегию и подходы к его обработке, то завтра сделать это будет гораздо сложнее и дороже? Можно, в частности, использовать для хранения такой информации распределенную базу данных, построенную на открытых технологиях, например Hadoop. Но этот подход приемлем для условно-структурированных данных. Если же речь идет о неструктурированной информации, как, например, аудиопоток, видеофайлы, картинки и т. д., потребуется комплексное решение, включающее инструменты для сбора различных типов данных, коннекторы для интеграции с информационными системами, средства анализа, обработки и классификации полученной информации. Разумеется, такие средства должны быть построены на базе искусственного интеллекта и самообучающихся алгоритмов.

Источников много, платформа одна

В качестве приоритетного подхода, предусматривающего работу со всем спектром человеческой информации (структурированной, условно-структурированной, а также неструктурированной), компания Redsys предлагает единую платформу, в основе которой лежит набор аналитических функций. Платформа содержит и слой коннекторов, подключаемых к абсолютно любым источникам корпоративной информации. Это могут быть базы данных, информационные системы и бизнес-приложения, корпоративные порталы, системы электронного документооборота, любые файловые хранилища, социальные сети и многое другое. Платформа, предлагаемая компанией RedSys, поддерживает свыше 1500 файловых форматов, что практически охватывает все распространенные сегодня информационные системы и приложения. Это означает, что из всех файлов может быть извлечена текстовая информация на русском, английском или другом языке (всего поддерживается более 80 языков).

Платформа позволяет обрабатывать аудио- или видеозаписи, аудио- или видеопотоки  в режиме реального времени, с возможностью  преобразования речи в текст, распознавания голоса (всего поддерживается более 30 языков).  В процессе распознавания речи система определяет и маркирует нескольких спикеров в рамках одного файла и даже узнает пол говорящего, причем с минимальной долей ошибочности.

Графические файлы с текстом, распознаются с помощью OCR-технологий. В дальнейшем весь распознанный текст доступен для структурирования, поиска и смыслового анализа.

Архитектура и принципы работы

Благодаря модульной структуре к платформе можно подключать различные коннекторы и элементы, необходимые заказчику. На ИТ-рынке существует немало продуктов и технологий, анализирующих информации из отдельных сегментов, таких как, например, социальные сети и форумы, однако комплексных платформенных решений, охватывающих весь спектр возможных источников, практически нет.

Обработанная информация может анализироваться с помощью множества различных алгоритмов. Это и определение позитивного или негативного содержания текста, ключевые слова, в том числе и их синонимы, и т. д. Разумеется, подходы к анализу можно комбинировать в том виде, как требуется заказчику. Причем дополнительное оборудование для хранения данных не понадобится. Все, что нужно из аппаратных ресурсов, — сервер для размещения на нем системы поиска и анализа контента. В основе платформы для обработки Больших данных, которую предлагает компания RedSys, лежит платформа обработки больших данных  IDOL(Intelligent Data Operating Layer). от компании Microfocus (ранее — Hewlett-Packard Enterprise) либо российская разработка от компании X360. Последний вариант предпочтителен для государственных структур, которым необходимо придерживаться импортозамещения в ИТ. Платформа для анализа больших данных различных типов может применяться во множестве отраслей. В частности, на предприятиях топливно-энергетического сектора, где, как известно, используется множество различных систем и файловых форматов, в том числе и графических, содержащих текст.

Управление знаниями

Что касается сценариев практического применения систем анализа больших данных, одним из таковых можно назвать управление знаниями. Если в небольших организациях база знаний сосредоточена преимущественно на корпоративном портале, то в крупных компаниях с территориально распределенной структурой, корпоративные знания зачастую фрагментированы. Благодаря смысловому анализу система умеет находить не только идентичные, но и похожие по смыслу документы. Таким образом, в процессе принятия решения заказчику доступна информация о ранее произошедших похожих или аналогичных событиях и инцидентах, даже если они были зафиксированы различными департаментами в различных типах документов (текст, аудио, видео, сканы и т. д.) и в различных информационных системах. Причем речь идет не просто о предоставлении перечня аналогичных событий происходивших ранее, но и рекомендаций по устранению их последствий, основанных на прежде использованных вариантах.

Преимущества для бизнеса

Один из знаковых символов нашего времени — динамичные изменения. Чтобы бизнес мог оставаться на плаву и сохранять свою конкурентоспособность, ему необходимо такие изменения отслеживать, держать руку на пульсе. Благодаря большим данным это можно делать практически в режиме реального времени. Аналогичную задачу на основе структурированных данных решают системы предиктивной аналитики, но объем неструктурированных данных здесь в несколько раз больше, и пользы от них бизнес получит не меньше. Соответственно, цикл принятия решений становится короче и прозрачнее, а KPI всех подразделений компании — существенно выше. 

Анализ любых данных на единой платформе. Рис. 1
Дмитрий Анашкин

Автор: Дмитрий Анашкин, бизнес-архитектор интеграционных и портальных решений компании RedSys

Читайте также
Кибервойна против России — это не сюжет блокбастера, а суровая реальность, где каждый сбой в защите данных может стать ударом по национальной безопасности. Александр Хинштейн уверен: в мире, где персональные данные превратились в «новое золото», важна не только защита, но и готовность бить по рукам тех, кто подбирается к этому богатству. Какой должна быть новая система обороны в цифре, кого можно допустить к хранению наших данных и почему бизнесу придется ответить рублем за утечки, рассказывает председатель комитета Государственной Думы Федерального Собрания Российской Федерации по информационной политике, информационным технологиям и связи.

Опубликовано 15.12.2017