Тенденции развития рынка аналитики данных

Кардинально меняется и развивается архитектура систем аналитики данных как на программном, так и на аппаратном и технологическом уровнях

Изменения, которые происходят в последние несколько лет в области решений, связанных с аналитикой данных, можно смело назвать революционными. Если 5–10 лет назад мы в основном говорили о бизнес-аналитике (Business Intelligence – BI), то теперь аналитика данных активно проникает во все сферы государства, общества, частной жизни. Если раньше аналитика основывалась на статичных алгоритмах/правилах, то теперь она начинает оперировать опциями самоадаптации, функциями искусственного интеллекта, что позволяет в реальном времени принимать решения на основе оценки поведения людей, множества распознаваемых событий и признаков; проактивно менять «правила игры» с учетом изменяющихся внешних факторов.

При этом кардинально меняется и развивается архитектура систем аналитики данных как на программном, так и на аппаратном и технологическом уровнях. Чтобы лучше понять суть происходящих изменений, совершим краткий исторический экскурс.

Пятнадцать лет назад

Не углубляясь в совсем уж давнюю историю с возникновением термина business intelligence в 1958 году и появлением первых аналитических систем в 1970–80-х, можно утверждать, что к началу 2000-х на рынке присутствовало достаточно много зрелых коммерческих аналитических решений, которые следует разделить на два больших класса:

аналитика, работающая непосредственно в составе OLTP-приложений (Online Transaction Processing) на базе тех же реляционных СУБД с построчным хранением данных, которые использовали транзакционные/бизнес-критичные приложения;
аналитика, работающая на базе OLAP-хранилища (Online Analytical Processing), также часто называемое хранилищем данных (Data Warehouse – DW), в основном с поколоночным хранением данных, развернутое на отдельной выделенной платформе.

Аналитика первого класса выполнялась в реальном времени, но имела ограниченные возможности и использовалась, в частности, для персонификации работы с клиентами – например, для начисления скидки при продаже авиабилета конкретному клиенту с учетом налетанных им миль в данной авиакомпании.

Аналитика второго класса позволяла проводить более углубленный анализ тенденций, делать прогнозы, выявлять причины происшедших событий в прошлом и т. п. В большинстве случаев именно с этим классом решений/методов связывают термин Business Intelligence. OLAP-хранилища пополнялись актуальными данными из OLTP-хранилищ с помощью решений загрузки и интеграции данных, затем они дополнительно обогащались справочными материалами, а их качество повышалось с помощью специальных методов. Весь анализ проводился на основе OLAP-кубов и витрин. Особенностью OLAP-аналитики было то, что она выполнялась в пакетном режиме, как правило, раз в неделю или реже – например, в ночь с пятницы на субботу выгружались данные из OLTP- в OLAP-хранилище, затем в течение субботы и воскресенья они обрабатывались и в понедельник утром в виде отчета представлялись топ-руководителям. Очевидными недостатками такой методики являлись замедленная реакция на быстро меняющиеся тенденции рынка и недоступность результатов анализа сотрудникам среднего и нижнего уровней.

Десять лет назад

Разработка решений, связанных с повышением производительности OLAP-хранилищ, а также универсальных платформ для интеграции OLTP- и OLAP-хранилищ, началась чуть более 10 лет назад. Здесь необходимо выделить два направления:

решения на базе in-memory обработки БД (обработка данных таблиц по прямой адресации в оперативной памяти);
решения c использованием методов распараллеливания обработки данных на базе кластерных систем.

Классическим примером первого направления является SAP HANA. Практически все мировые вендоры – производители аппаратного обеспечения поддерживают это решение сертифицированными аппаратно-программными комплексами. Из последних новостей в указанной области следует отметить сертификацию для HANA первых гиперконвергентных решений, в частности Dell EMC VxRail.

Примером второго подхода может служить Pivotal Greenplum и законченные системы на ее основе, поставляемые Dell EMC.

Пять лет назад

Термин «большие данные» (Big Data) начал широко использоваться в ИТ-индустрии в начале 2010-х, а уже к 2015 году Gartner исключил большие данные из ежегодного отчета о цикле зрелости технологий (Gartner Hype Cycle Report), мотивировав это переходом от этапа шумихи к практическому применению. Классическая трактовка больших данных, которой мы придерживаемся в Dell EMC, определяет их как «аналитику, а также аналитику больших объемов различных данных, в том числе неструктурированных, в режиме, приближенном к реальному времени (объем, скорость, многообразие - Volume, Variable, Velocity)», где реальное время составляет от нескольких минут до часов.

Этот этап развития аналитики данных во многом связывают с проектом Hadoop с открытым кодом для хранения на базе распределенной файловой системы HDFS и пакетной обработки в массивно-параллельном режиме неструктурированных или плохо структурированных данных. Изначально Hadoop использовался в интернет-компаниях, научных и образовательных учреждениях. Затем, по мере коммерциализации технологии такими компаниями, как Cloudera и Hortonworks, большой интерес к решениям на базе Hadoop стали проявлять банки и телеком-провайдеры.

Изначально на Hadoop-решения возлагались очень большие надежды. Делались заявления, что кластерные системы Hadoop не только станут базовой архитектурой для аналитики больших данных, но и будут использоваться в качестве платформы для транзакционных приложений, заменят классические реляционные OLAP-хранилища, но этого не произошло. Сегодня системы Hadoop в основном позиционируются для создания «озер данных» (data lakes) – то есть в качестве платформ для интеграции данных из множества источников данных, включая OLTP-хранилища, социальные сети и т. д.

Настоящее время

Системы аналитики данных продолжают активно развиваться. Среди основных факторов, влияющих на происходящие изменения, нужно отметить, прежде всего, новые аппаратные технологии. Именно благодаря тому, что графические карты (GPU) c множеством ядер стали доступны по цене, сильный импульс развития получили технологии машинного обучения нейронных сетей, искусственного интеллекта. При том, что сами алгоритмические методы были разработаны годы назад, вычисления, ранее требовавшие дней и недель, стали производиться в течение часов и минут.

Появление в 2017 году SCM-памяти (storage class memory) с побайтной адресацией, подключаемой по высокоскоростной шине данных, предоставляет возможность повысить производительность приложений на порядки. SCM-память расширит применение in-memory технологий работы с данными не только при использовании традиционных реляционных СУБД, но и при работе с NoSQL БД, например, такими как MongoDB или Cassandra, темпы роста доли рынка которых значительно опережают традиционные БД.

Стандартизация сетевого доступа к высокоскоростным устройствам хранения (NVM Express over Fabrics – NVMeOF) позволит кардинально улучшить показатели параллелизма и задержек при обращении к данным. Технологии SCM и NVMe не только увеличат производительность «классических» систем хранения, но дадут возможность построения гиперконвергентных решений на качественно новом уровне. Высокопроизводительные сети передачи данных с низкими задержками откроют дорогу для интеграции различных подсистем в единую платформу, благодаря чему упростится совместный доступ к данным и результатам анализа.

Большие усилия прилагаются разработчиками процессоров общего назначения, FPGA – программируемых матриц, специализированных ускорителей. За счет добавления в архитектуру процессоров общего назначения новых специальных команд можно наблюдать многократное улучшение характеристик, а для специализированных процессоров эта показатель возрастает на порядки. Так, ожидается, что с новым поколением процессоров Intel Cascade Lake-SP (коммерческая доступность – 1 квартал 2019 года) за счет поддержки специализированных команд (Vector Neural Network Instruction – VNNI) производительность приложений на задачах машинного обучения возрастет до 17 раз.

Читайте также

Zero Trust. Паранойя или фундамент безопасности?

Когда речь заходит о кибербезопасности, доверие — это опасная роскошь. Громкие утечки данных, взломы крупных компаний и бесконечные цепочки атак привели к рождению концепции, которая предлагает радикально новое решение: «Не доверяй никому и ничему». Zero Trust ворвался в мир как спасательный круг для бизнеса, уставшего от постоянных угроз, и стал новой мантрой для специалистов по безопасности. Но является ли эта модель настоящей революцией или это очередной маркетинговый ход? Эти и другие вопросы обсуждали на круглом столе IT-World «Цифровое доверие: киберщит или ахиллесова пята?», организованном журналом IT Manager.

Практически все мировые вендоры активно поддерживают направления, связанные с развитием архитектур с акцентом на обработку и анализ данных (Data-centric Architecture).

Примером подобной инициативы является консорциум Gen-Z, основная цель которого –разработка протокола для совместного доступа к данным в памяти подключенных устройств с минимальными задержками.

Подводя итог, среди наиболее значимых современных тенденций развития решений для аналитики данных можно выделить следующие:

Взаимное проникновение, взаимное обогащение и дополнение различных классов решений аналитики, которые ранее представляли независимые или слабо интегрированные системы. То, что прежде реализовывалось в виде отдельных решений на базе реляционных БД, классических OLAP-систем, Hadoop-решений для аналитики больших данных и т. п., в настоящее время предлагается в виде законченных интегрированных платформ
Переход от анализа уже произошедших событий к проактивному и предиктивному управлению бизнесом на основе прогнозирования событий и предотвращения нежелательных последствий.
Расширение доступности результатов аналитики (зачастую в реальном времени) для сотрудников всех уровней, а не только для топ-менеджеров.
Активное использование самообучаемых аналитических систем на основе машинного обучения с помощью высокопроизводительных аппаратных решений.
Активное применение методов обработки данных в памяти (in-memory) приложениями, работающими как с традиционными реляционными СУБД, так и с NoSQL-базами данных.

Сегодня в нашем распоряжении есть огромные вычислительные ресурсы и гигантские объемы данных, изощренные методы искусственного интеллекта и машинного обучения, быстрые и надежные программные инструменты. Извлечение инсайтов, приносящих реальную ценность из имеющихся данных, – это одновременно и вызов, и возможность сделать качественный рывок на пути к цифровой трансформации.

Автор: Павел Карнаух - руководитель подразделения системных инженеров Dell EMC в России, Казахстане и Центральной Азии

Смотреть все статьи по теме "Большие данные (Big data)"

Журнал IT Manager

Опубликовано 08.01.2019

Dell Big Data

Предыдущая
Инвентаризация в цифровом формате

Следующая
Больше гибкости, больше возможностей, больше автоматизации

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30