Будущее Big Data и систем хранения данных
Как показывают аналитические исследования, к 2025 году общемировой объем данных увеличится в 10 раз и достигнет приблизительно 163 зеттабайт. Основной массив данных будут генерировать предприятия, а не конечные потребители, как это было ранее. Скачкообразный рост объемов данных ведет к тому, что компаниям придется больше тратиться на хранение и аналитику Big Data. По текущим прогнозам, к 2020 году расходы предприятий на обработку больших данных составят приблизительно $210 млрд.
Основные тенденции развития рынка больших данных
К 2025 году примерно 20% всех данных будут иметь критически важный статус. Из них порядка 10% придется на сверхкритичную информацию. Данные станут фактором эффективной работы общества и техники, начиная от «умных» медицинских инструментов и заканчивая смарт-гаджетами и беспилотными автомобилями.
Вопросы защиты приватных и конфиденциальных сведений станут особенно актуальными. Эксперты по безопасности отмечают, что сегодня есть существенный разрыв между темпами прироста данных и их защитой. В будущем этот разрыв только увеличится. К 2025 году примерно 90% всех данных будут требовать определенных мер защиты, однако по самым позитивным прогнозам лишь половина из них будет реально защищена.
К 2025 году около 20% всех данных будут поступать в режиме реального времени. Более 95% из них будут поступать от IoT-устройств. За прошедшие 10 лет основной объем информации генерировался за счет развлекательного сегмента индустрии. В предстоящее десятилетие акцент сместится на сегмент бизнеса и встроенных систем (к примеру, систем мониторинга).
Сферы бизнеса, которые больше всего тратят на Big Data
Как отмечают эксперты, основные затраты, связанные с хранением и анализом больших данных, несут телекоммуникационные компании, государственные институты, исследовательские центры и производственные холдинги.
Лидерами в области развертывания новых технологий по хранению и обработке информации являются телекоммуникационные компании и финансовые учреждения. В качестве примера можно привести недавнюю сделку МТС по покупке одного из крупнейших в РФ data-центров.
Информация становится более ценным ресурсом, нежели деньги. Компании понимают, что очень важно вкладываться в обработку, анализ и восстановление данных, а потому обращают свое внимание на передовые, инновационные решения, основанные на технологиях big data, AI и deep learning. В условиях жесткой рыночной конкуренции растет спрос на комплексные системы хранения и обработки больших объемов «сырых» данных.
Компании все чаще обращаются к облачным технологиям для распределенного хранения данных. Рост облачных сервисов, как показывают исследования Forrester, составил в 2017 году около 24%. Переход к распределенному хранению информации вызван прогрессивным развитием data-центров и улучшением алгоритмов обработки данных.
В некоторых случаях data-центр может стать узким звеном в цепочке хранения и обработки данных. Современные ЦОДы проводят оптимизацию своей инфраструктуры, внедряют новые решения, гарантирующие высокую производительность даже в случае постоянного увеличения объема данных.
Распределенное хранение данных в зарубежных ЦОДах имеет один недостаток для российских компаний: необходимо выполнять требования ФЗ № 152 «О персональных данных».
ФЗ № 152 «О персональных данных»
С 1 сентября 2015 года в РФ вступило в силу положение о локализации хранения и отдельных процессов обработки персональных данных, определенное в ФЗ № 242 от 21 июля 2014 года «О внесении изменений в отдельные законодательные акты РФ в части уточнения порядка обработки персональных данных в информационно-телекоммуникационных сетях».
Согласно пункту 1 статьи 2 при сборе персональных данных, в том числе посредством информационно-телекоммуникационной сети Интернет, оператор обязан обеспечить запись, систематизацию, накопление, хранение, уточнение (обновление, изменение), извлечение персональных данных граждан РФ с использованием баз данных, находящихся на территории РФ.
Трансграничная передача персональных данных сама по себе не запрещена, но законодательно регулируется статьей 12 152-ФЗ.
ИС любого предприятия оперируют некоторыми персональными данными. К ним можно отнести данные сотрудников и клиентов, сведения о контрагентах и т. д. В техническом плане такие информационные системы могут быть достаточно разнообразны, начиная от систем автоматизации бухучета и заканчивая пользовательскими кабинетами на сайтах.
Хостинг-провайдер (в нашем случае data-центр), принявший на себя функции по хранению и передаче персональных данных, выступает в качестве их оператора, а потому обязан обеспечивать их безопасность.
Все это отвечает ключевому тренду в области технологий Big Data – необходимости обеспечения безопасности хранения, анализа и обработки больших данных, о чем мы уже говорили выше.
Новые решения на рынке Big Data и систем хранения данных
Растущие требования бизнеса и промышленности выдвигают новые сложности перед разработчиками программных комплексов и решений в сфере Big Data. К примеру, финансовым учреждениям при формировании IT-инфраструктуры требуется высокий уровень доступности информации, возможность масштабирования платформ, повышенная плотность хранения данных и скорость их восстановления. Возникает острая необходимость в реализации прогностического компонента, который позволит быстро выявлять слабые места в производительности всех систем, предотвращать известные проблемы, формировать список рекомендаций по улучшению инфраструктуры и т. д.
Прогностический компонент, функционирующий на базе нейронных сетей, лег в основу многих инновационных решений для анализа и обработки данных.
Пример – платформа для работы с социальными сетями от «Иннодата». Она позволяет отслеживать в реальном времени поступающие отзывы от клиентов в разных социальных сетях. Система способна определять тональность обращения, проводить автоматическую типизацию откликов, назначать приоритетность ответа и т. д. Для достижения максимальной отказоустойчивости используется 27 серверов, размещенных в data-центрах в Казани и Москве.
Обучение модели производится на базе имеющихся исторических данных. Сотрудники могут вносить ручные корректировки в модель для улучшения работы платформы. Технологии машинного обучения позволяют добиваться максимально точных результатов при распознавании и обработке сообщений в социальных сетях, что сводит к минимуму появление ошибок.
Еще одним эффективным направлением развития IT-инфраструктуры является переход к гиперконвергентным системам, которые отличаются легкостью масштабирования и наличием централизованного программного интерфейса управления. Гиперконвергентные системы хорошо подходят для создания VDI-инфраструктур, IaaS-систем, аналитических кластеров на базе Hadoop для обработки Big Data и т. д.
Среди других тенденций в области Big Data можно выделить появление систем распределенных реестров на базе blockchain, внедрение программно-определяемых хранилищ данных (SDS) для увеличения эффективности администрирования СХД и т. д.
Эксперты ожидают, что расходы компаний на корпоративные СХД будут постепенно расти. В 2015 году, как показывают исследования, компании вложили в СХД более $45 млрд. Предполагается, что в 2019 году общая сумма глобальных инвестиций в СХД составит приблизительно $51,3 млрд.
Сергей ЛЕВАШОВ,
руководитель центра бизнес-анализа ГК «РАМАКС»
Опубликовано 31.10.2018