Big Data: сколько стоят, как их хранить и кто этим занимается

Основное искусство – в поиске баланса между тремя аспектами: текущими задачами, которые обеспечивают бизнес-ценность данных, перспективными задачами и стоимостью хранения и обработки.

В эпоху массфолловинга в социальных сетях, холодных продаж и определителей спам-звонков – к примеру, производства «Тинькофф» и «Яндекс» – о больших данных знает каждый. Разберемся детальнее в насущных вопросах Big Data.

Этимология больших данных

Трактовать термин Big Data можно по-разному – в зависимости от цели. Пока одни источники гласят, что речь идет о колоссальном объеме неструктурированных данных, другие подразумевают под ним инструменты и подходы к этим данным. Я же склонен считать, что это – не что иное как большой объем данных в произвольном виде.

Некоторые могут спросить: «а сколько вешать в граммах» или, как говорил один мой коллега, «а сколько должно быть той самой Data, чтобы она стала Big?». Я обычно считаю, что как только количество данных выходит за объем нескольких терабайт, то можно говорить о том, что данных действительно много, и надо задумываться над инструментами их хранения и грамотной обработки. Хотя, конечно, показатель должен быть интегральный, тот, что учитывает и типы данных, и количество, и скорость их поступления, и сложность операций обработки. Но для простоты можно взять лишь одну величину – объем.

Где «живут» большие данные? И сколько это стоит?

Вопросы, конечно же, связанные – поэтому предлагаю начать с затрат. Вариантов хранения много, но оптимизация и выбор финального идут зачастую по стоимости. По большому счету затраты на работу с данными зависят от:

объемов и типов данных;
задач, решаемых с помощью данных;
требуемой скорости обработки данных;
разнообразия данных на входе;
возможности использования облаков;
уровня зрелости компании в части работы с данными.

При этом здесь мы не говорим про технологии и все, что с ними связано, т.к. технологии являются следствием вышеперечисленного.

Первый пункт – самый очевидный: хранить 10 Тб данных, при равных в технологическом плане и в абсолютных величинах, явно дешевле, чем 100Тб.

Задачи, на мой взгляд – основной драйвер стоимости, который должен компенсироваться теми ценностями, что бизнес получает от использования данных. Очевидно, что если потребитель данных – это аналитический отдел, который надо обеспечить качественными витринами, или модели ML, которые требуют сложных агрегатов, то сложность обработки информации в разы выше, чем в случае, когда нужно обеспечить хранение холодного архива. А сложность обработки – это процессорные мощности, память. Если же потребителю нужна еще и надежность в «пять девяток», то это еще и мультипликатор стоимости. Ну и не забываем – чем более сложный ETL необходимо сделать, тем дороже его написание и последующая поддержка.

Требуемая скорость обработки данных. Если нужно обеспечить потоком данных дашборд, который должен показывать обновление раз в минуту или антифрод-модель, которая должна ловить мошенников в режиме реального времени, то это будет намного дороже, чем те же витрины, которые можно обновлять раз в неделю по выходным, или тот же холодный архив, в который все сливается раз в месяц. Так что скорость тоже добавляет нам недешевых (особенно в последнее время) требований к процессорным мощностям, а еще больше – к памяти, плюс влияет на технологичность решения, что тоже добавляет иногда совсем не «копеечку».

Говоря о разнообразии данных на входе, мы влияем на технологическую сложность решения, а, значит, на дополнительные затраты на лицензии, расширенные требования к специалистам и поддержку решения в целом. Если нам надо работать с источниками разнородных данных – например, с реляционными таблицами, графовыми данными и документами, то становится понятно, что технологическая сложность решения будет намного выше, чем если бы нам пришлось делать все тот же бедный (а может и не очень) холодный архив с нескольких чисто реляционных источников.

Использование облаков для хранения данных может быть очень соблазнительным: платишь по мере использования, перекладываешь капитальные затраты в операционные, не надо задумываться над запасом в момент покупки системы, над местом, электричеством и множеством других нюансов. С другой стороны, не для всех типов данных доступно облачное хранение (регуляторные требования надо уважать) и не для всех задач оно применимо. Поэтому облака – это хорошо, но для понимания, где провести границу между облаком и собственным хранением, нужен очень грамотный архитектор.

Так, при подборе технологического стека и архитектуры организации хранилища обращают внимание именно на эти аспекты, и именно они влияют на базовую стоимость хранения и обработки данных. Для того же, чтобы получить финальную стоимость хранения и обработки, надо взять во внимание пункт, который пока не раскрыт – уровень зрелости компании по работе с данными.

Почему уровень зрелости компании по работе с данными так важен?

Многие знают или слышали, что такое уровни зрелости тех или иных процессов. Например, если мы говорим про ИТ, то можно открыть ITIL – там все хорошо описано. И примерно такие же, пусть пока и менее формализованные, уровни зрелости есть и в работе с данными. Приводить здесь эти уровни не буду, т. к. единого подхода к ним пока нет, а описывать то, что еще не стало хотя бы стандартом де-факто, – это тема отдельной дискуссии или статьи. Потому предлагаю приравнять уровень зрелости компании в части данных с широтой внедрения практик Data Governance на предприятии. Если вы не знаете, что это такое, и никаких практик по работе с данными у вас нет, будем считать, что вы на 0 или на 1 уровне. Но тогда и никакого влияния на стоимость хранения и обработки этот самый «уровень зрелости» не оказывает.

Но как только вы начинаете внедрять практики DG, это повышает ваш уровень зрелости, но также увеличивает накладные расходы на работу с данными: вначале на разработку и внедрение этих практик, а потом и на поддержку и обслуживание. При этом не так важно, с чего вы начинаете – с ролевой модели владельцев данных, с института дата-стюардов, с создания и поддержки бизнес-глоссария, с обеспечения качества данных или других активностей. И, как водится, зависимость ни разу не линейная, а вполне себе экспоненциальная – т. е. каждый последующий уровень обходится дороже предыдущего.

Наверное, может показаться, что практики DG – это зло и лишние накладные расходы. Но, конечно же, это не так: они повышают качество, доступность и управляемость данных. Как следствие, тот дата-продукт, который приносит ценность для бизнеса из данных, становится более качественным, а, значит, более ценным. Или повышается скорость создания нового дата-продукта и получение новой бизнес-ценности. Поэтому и в уровне зрелости важно найти тот баланс между затратами и ценностью, который устроит обе стороны.

Ведь очевидно – нет смысла разгонять уровень зрелости до 5-го уровня, если бизнес не понимает, как монетизировать эти прекрасные, быстрые, описанные до последней запятой данные. Как говорил мой коллега, «каждый атрибут в вашей витрине стоит четко определенную сумму денег – покажите мне, какой эффект вы от них получаете»: и это правильный вопрос, хотя найти на него ответ порой бывает крайне сложно.

Кто отвечает за работу с большими данными?

Исходя из вышесказанного, основное искусство в подборе решения – в поиске баланса между тремя аспектами: текущими задачами, которые обеспечивают бизнес-ценность данных, перспективными задачами и стоимостью хранения и обработки.

И заниматься же поддержанием баланса между этими аспектами должен, вопреки устоявшемуся мифу, не директор по данным, но ряд специалистов. За ценность – текущую и особенно перспективную – отвечают бизнес-аналитики или руководители практики ML, т. е. те люди, которые переводят данные в рекомендации, прогнозы, дашборды и другие форматы представления данных, которые нужны бизнесу. В идеальной картине мира они должны ставить задачи в сторону офиса данных по новым витринами, по улучшению качества, по ускорению обработки данных, сопровождая эти запросы ожидаемым (или реальным) экономическим эффектом.

А задачи офиса данных, в свою очередь, это:

Понять бизнес-задачу или требований, которые предъявляются к данным;
Найти оптимальные ответы на поставленные в начале статьи вопросы, т. е. минимизация стоимости решения при требуемом уровне качества;
Обеспечить нужный, сбалансированный уровень зрелости работы с данными в компании.

Но это идеальная картина мира, когда есть грамотная аналитическая служба, когда бизнес понимает, что такое данные, и как с ними работать. А в текущей реальности зачастую CDO сам должен идти по бизнес-заказчикам и нести свет в массы, рассказывая, что хорошего еще можно сделать из данных сейчас, и что можно будет сделать, если поменять технологическую платформу, внедрить DG, перейти к обработке данных в реальном времени и т. д. Ну а поскольку для CDO это задача во многом непрофильная, а бизнес не готов, то результат не всегда получается таким, как мы ожидаем.

Мы в ICL хорошо понимаем, как создается бизнес-ценность из данных, и как работать с данными на всех уровнях – от уровня организации хранения, подбора и реализации хранилища, до уровня аналитики и машинного обучения, где рождается основная ценность из данных, так и на уровне бизнеса, который эту ценность должен понять, принять и монетизировать. Подход нашей команды к работе с Big Data – это подход через консалтинг: от понимания бизнес-задачи и потенциальных бизнес-ценностей, через пилоты и MVP для проверки гипотез и потом уже подбор решений (и не только по хранению – а решений полного цикла, от хранения до аналитики и ML), их внедрение и дальнейшее масштабирование. Именно такой подход позволяет нашим заказчикам получать не просто классное технологическое решение, а классное технологическое решение, которое обеспечивает потребности бизнеса и позволяет повысить эффективность предприятия.

Опубликовано 26.04.2022

Об авторах

Сергей Щербаков

Старший руководитель группы аналитики данных и ML ICL Services

ICL Services Big Data

Предыдущая
Портативная инфраструктура для зарядки электромобилей

Следующая
Стоит ли апгрейдить Intel NUC 10?

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30