BI-системы: ЦУП для бизнеса

Логотип компании
BI-системы: ЦУП для бизнеса

Первый в мире ситуационный центр Cybersyn

Информационная инфраструктура предприятия состоит из множества систем, которые используются для решения специализированных бизнес-задач...

Информационная инфраструктура предприятия состоит из множества систем, которые используются для решения специализированных бизнес-задач. В больших и территориально распределенных компаниях могут использоваться десятки различных IT-систем, построенных на различных платформах. Со временем они накапливают существенные объемы данных. Если проанализировать эти данные, то зачастую можно получить чрезвычайно полезную информацию для принятия управленческих решений. Именно для этого и предназначены системы Business Intelligence (BI).

Немного истории

Впервые термин Business Intelligence был предложен в 1958 году сотрудником IBM Гансом Петером Ланом (Hans Peter Luhn). Он определял BI как инструмент исследования внутренних связей между фактами, который бы давал возможность принимать необходимые решения для достижения поставленных целей.

В 1989 году Говард Дреснер (Howard Dresner), будущий аналитик Gartner, определил BI как общий термин, описывающий «концепции и методы для улучшения принятия бизнес-решений с использованием систем на основе бизнес-данных». Как видим, за 30 лет смысл понятия не претерпел серьезных изменений.


Первый в мире ситуационный центр Cybersyn – проект централизованного компьютерного управления плановой экономикой, реализованный в Чили при президенте Сальвадоре Альенде в 1970–1973 гг. BI-систем в современном понимании в тогда еще не было, но принятие управленческих решений на основе математического анализа данных уже доказало свою эффективность.

Структура BI-системы

Из чего состоит современная BI-система? Обычно в ней выделяют следующие базовые компоненты:

• Во-первых, это средства доставки и визуализации данных (которые чаще всего и обозначают термином Business Intelligence, хотя это только часть BI-системы).

• DWH (Data WareHouse) – отвечает за хранение данных.

• ETL (Extract Transform Load) – набор инструментов интеграции, выполняющий задачи сбора, преобразования и консолидации данных.

• Data Mining – набор инструментов и методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации закономерностей.

Пользователь BI-системы, как правило, сталкивается только с первым компонентом – визуализацией информации. Главная задача этой подсистемы – предоставить пользователям возможность самостоятельно получать из системы любую информацию для анализа и принятия решений. Чтобы обеспечить эту функцию, BI-платформы должны уметь описывать данные в терминах, понятных пользователям, и скрывать от них техническую реализацию. Эти термины бывают двух типов: аналитики – объекты реального мира (например, товары или клиенты) и показатели – события, которые произошли с объектами и которые можно выразить числовым значением (например, объем продаж в квартал). Совокупность аналитик и показателей называется «единой моделью данных».

BI-система должна позволять в рамках единой модели данных работать с любыми аналитиками в любой последовательности, добавлять к ним показатели, строить на основе полученных данных отчеты и затем трансформировать эти отчеты в зависимости от потребностей. Причем система должна уметь это делать наглядно, поскольку одна из главных задач BI-системы на предприятии – предоставить топ-менеджменту возможность оценить показатели деятельности «с высоты птичьего полета».

Желательно, чтобы все показатели располагались на одном экране и отражали только самые существенные факты, то есть не были «замусорены» излишними данными. Эта задача решается с помощью информационных панелей – «капитанского мостика» BI-системы. Во всех промышленных системах предусмотрены мобильные версии так называемых dashboards (для топов, которые вечно «на бегу»).

Big Data

Бывают ситуации, когда объем данных и скорость их роста катастрофически огромны, при этом сами данные несут существенную ценность для анализа, только если их рассматривать целиком (информативность отдельных сегментов низка): например, веб-логи интернет-магазина показывают, каким образом пользователи сайта магазина выбирали себе товар. В этом случае хранение данных в традиционных реляционных базах данных становится нецелесообразным. Огромные объемы будут порождать расходы на загрузку и поддержку БД, несопоставимые с пользой от этих данных. Вместе с тем «внутри» этих данных может быть спрятана полезная информация. Для хранения и обработки таких данных используют технологии класса Big Data: решения, подобные стеку Apache Hadoop, где на нижнем уровне архитектуры находится распределенная на множество кластеров файловая система HDFS, а на верхнем уровне – framework для организации распределенных вычислений MapReduce.

Технологии Big Data находят применение и в областях, далеких от бизнеса, например в антропологии. Так, недавно стартовал любопытный краудсорсинговый проект – The Human Face of Big Data (www.humanfaceofbigdata.com), который позволит получить «антропологический слепок» привычек, желаний, убеждений людей, установивших мобильное приложение и ответивших на несколько несложных вопросов о себе и своей семье.

Data Mining

Методы Data Mining, применяемые в BI-системах, нацелены на выделение нужной информации из произвольного набора данных. Найти необходимые зависимости, используя только визуальный анализ, весьма проблематично, так как количество факторов (аналитик), используемых для поиска, очень велико (простым перебором задачу не решить), а конкретный набор факторов, между которыми существует зависимость, неизвестен. Поэтому в основе Data Mining лежат статистические методы. Рассмотрим наиболее часто встречающиеся задачи, которые решаются с помощью Data Mining.

Классификация – установление зависимости известного ограниченного набора значений от набора входных значений. Классификация используется, например, для определения надежности заемщика в банках. Скажем, известен набор характеристик заемщика, и необходимо определить, вернет ли он кредит, то есть решить, к какой группе риска он относится. Для этого классификация рассматривает все предыдущие случаи выдачи кредитов и по данным характеристикам определяет вероятность принадлежности заемщика к той или иной группе.

Близко к этой задаче находится регрессия – установление зависимости известного неограниченного набора значений от набора входных значений. Имея исторические данные, можно с помощью регрессионного анализа построить несколько возможных прогнозов развития событий в зависимости от выбранных факторов. Например, рассчитать объем продаж импортного товара в контексте курса валюты. Для этого регрессия рассматривает данные по объемам продаж и связанные с ними факторы (в нашем случае – курс валюты) за предыдущие периоды. Далее аналитик строит несколько прогнозов объема продаж, устанавливая различные значения курса валюты.

Читайте также
Проект «Экономика данных» обещает упростить жизнь: сделать госуслуги доступнее, Интернет — ближе даже к самым удаленным регионам, а проблемы с цифровым неравенством — менее заметными. Развитие искусственного интеллекта, поддержка ИТ-компаний и обучение специалистов — все это части большого плана, чтобы в будущем Россия могла уверенно войти в число цифровых лидеров. Как эти идеи будут работать на практике и что они изменят для каждого из нас? В интервью журналу IT Manager директор департамента цифровой трансформации и координации бюджетных расходов Минцифры России Алексей Чукарин рассказал, как данные стали ключевым ресурсом, трансформируя экономику и государственное управление.

Кластеризация – группировка объектов по их свойствам. Эта задача встречается очень часто. Сам термин означает выделение сегментов покупателей с учетом различных атрибутов, таких как пол, возраст, доход, образование и т. п. Выделив сегменты клиентов, можно в дальнейшем строить маркетинговую политику, ориентируясь на эти сегменты.

Ассоциация – выявление закономерностей между связанными событиями, то есть из события X следует событие Y. Например, 70% посетителей магазина, покупая творог, покупают и сметану. В общем объеме данных находятся так называемые «последовательные шаблоны». В дальнейшем они могут использоваться для планирования продаж или маркетинговых кампаний. Такой подход очень хорошо работает в интернет-торговле, когда посетителю интернет-магазина, просматривающему определенный ассортимент, «подкладываются» потенциально интересные ему товары на основе последовательных шаблонов.

BI-системы давно перестали быть роскошью, доступной только для очень крупных предприятий. Спрос на анализ данных, возрастающий с ростом глобальной экономики и усилением рыночной конкуренции, вызвал появление на рынке небольших, но эффективных систем, доступных даже малому и среднему бизнесу. Есть даже open-source-решения, успешно зарекомендовавшие себя в «боевых» проектах.


Источник: IT News №17 (октябрь 2012)

Журнал IT News

Опубликовано 04.11.2012

Похожие статьи