Too big data: Когда данные станут слишком большими

Для работы с огромными объемами данных необходимы существенные преобразования в инфраструктуре, технологиях, стандартах и протоколах передачи и обработки информации.

Введение

ATLAS (A Toroidal LHC ApparatuS) – главный детектор Большого адронного коллайдера (БАК). Его вес – 7000 тонн, длина – 46, а диаметр – 28 метров. Он регистрирует события, возникающие при столкновении протонов, разогнанных в гигантском тоннеле, который проходит по территориям трех стран – Италии, Франции, Швейцарии. Описание каждого события – это 25 Мбайт информации. Таких событий каждую секунду происходит 40 млн. ATLAS ежесекундно генерирует 1 Пбайт информации. ATLAS – один из семи основных детекторов на БАК.

Современные технологии не позволяют обрабатывать такие объемы информации, поэтому не вся она попадает в грид-систему БАК (LHC Computing Grid) – одну из крупнейших баз данных, которую когда-либо создавало человечество.

На уровне детектора отбирается 100 тыс. событий в секунду. Всю остальную собранную информацию можно считать потерянной, несмотря на средства, затраченные на ее получение.

Представьте, что ваш бизнес начал генерировать сопоставимые либо большие объемы информации. Какие подходы и технологии понадобятся для ее обработки, хранения, анализа? Как они изменят бизнес? Как изменятся государства? А что будет на переднем крае развития – в науке?

Общество

Согласно данными Международной организации труда (МОТ), на конец 2018 года, 5,6% от общего числа мировой рабочей силы – безработные. Есть страны, где их практически нет, а где-то безработные составляют существенную часть населения – это Венесуэла (38%), ЮАР (28%), Македония (20%).

Новые технологии приведут к появлению новых профессий, а значит, и новых рабочих мест, не привязанных территориально к потребителю услуг. Даже сейчас размечать датасеты можно удаленно, хоть из деревни в Замбии или Лаосе. Все, что нужно, – компьютер с доступом в Интернет. Увы, но даже это не везде доступно сейчас.

В будущем работа по разметке датасетов также будет распределена неравномерно. Развитым странам достанутся направления, требующие высокой квалификации (например, определение опухолей на томограмме предполагает не только наличие медицинского образования, но и опыт использования современной техники). А также владение математическим аппаратом и средствами автоматизации разметки. Ведь если представить, что технологии позволяют работать с гигантскими массивами данных, то классификацию образцов выполнит компьютер, а выяснять, что есть что, все равно придется человеку. От определения котиков на картинках перейдем к определению датасетов с заранее размеченными котиками.

Даже такую работу можно автоматизировать, если имеются вычислительные ресурсы и накопленные данные. Те, у кого нет подобных инструментов, соответственно, будут зарабатывать меньше. В очередной раз богатые станут богаче, а бедные – беднее. Возникает новая концепция – «технологичный = богатый».

Но для того, чтобы датасет разметить, сначала его нужно собрать. А это приведет к необходимости хранить в облаке все – ваши фотографии, данные о перемещении, видеопоток с ваших видеорегистраторов, данные, генерируемые вашей бытовой техникой и «умными» устройствами (хотя граница между ними сотрется – все устройства, всё, что вас окружает, станет «умным»), домами, автомобилями, а также данные вашего бизнеса. Что-то из этого уже сейчас находится в облаке или в соцсетях и обрабатывается. Например, ваш голос, записанный «умной» колонкой.

Бизнес

Сталкивается ли современный бизнес с подобными ситуациями? Отчасти да.

И если терять финансовые проводки нельзя, то на производстве и в ряде других бизнес-процессов ситуация потери данных проявляется регулярно.

Вот, скажем, многопередельное производство. Даже если на каждом этапе рассматривать два варианта – делать самим либо покупать на стороне, то количество допустимых способов изготовления растет экспоненциально. А если предусмотреть возможность выполнения работы на разных станках, то сложность повышается еще больше. Как среди этих вариантов выбрать лучший? Какой из них позволит оптимально загрузить работой оборудование и людей? А если учесть и необходимость проведения плановых ремонтов? А если на это наложить поломки, задержки с поставкой запасных частей, нарушенные регламенты сроков обслуживания? Возможно ли в принципе описать эту сложность?

Сейчас обычно отбрасывают большинство вариантов, выбирают один-два, предпочитая опираться на прошлый опыт, интуицию, а чаще – делают случайным образом. Учетные системы просто не в состоянии обсчитать все дерево возможностей. А уж тем более сформировать оптимальную загрузку мощностей.

Получить данные не проблематично, а вот механизмы их использования пока не выстроены. И необходимо накопить некую критическую массу источников таких данных, ведь единичные датчики не меняют общую картину, а встраиваются в текущую парадигму. Количество должно перейти в качество.

В случае, когда есть достаточное количество сведений по состоянию оборудования и способы их обработки, прогнозирование поломок оборудования становится тривиальной ситуацией, и внеплановые простои исчезают как явление. Разумеется, если исключить человеческий фактор. Человек становится слабым звеном.

Управлять целями, а не процессами – новая парадигма

Проанализировать и оптимизировать процесс можно автоматизированно даже сейчас (Process Mining), если есть достаточно данных в информационных системах предприятия. Следующий этап – управление сведется к указанию целей, которые необходимо достичь, и автоматическому формированию процессов для их достижения. А значит, владелец компании получит больший контроль за компанией. В пределе, вслед за исчезновением прослойки менеджеров среднего звена, станет исчезать и топ-менеджмент. Управлять бизнесом сможет даже один человек при помощи ИИ, а вот менеджеров и руководителей разного уровня (кроме разве что линейных менеджеров в ограниченных случаях) заменит ИИ.

Наука и технологии

Наука всегда была источником новых идей, новых разработок. Компьютеры, Интернет, передача данных, распределенные вычисления (кто сказал blockchain?), гигантские массивы данных… Все это впервые было использовано для обеспечения научной деятельности.

Как же будет выглядеть наука, когда начнет оперировать еще большими объемами данных? Тут сложно загадывать, но основополагающие изменения произойдут в материаловедении, криптографии, естественных науках и, разумеется, в медицине.

Когда станет сложно улучшать техпроцессы, придется заняться оптимизацией архитектуры чипов. Это происходит уже сейчас: появляются специализированные решения для ускорения типовых операций – например, тензорные процессоры Google, видеоускорители для вычислений, нейроморфные чипы.

Но недостаток вычислительной мощности не позволяет еще полноценно использовать ИИ, то есть автоматизировать рутину, оставляя для человека только творчество. Писать обзорные статьи и создавать произвольные тексты можно и сейчас, но генерировать новые научные знания с помощью ИИ – это даже не ближайшие десятилетия.

Новые материалы

Не секрет, что в настоящее время материаловедение одна из основных сфер применения суперкомпьютеров. Соответственно, ресурсы доступны прежде всего государству (и в довольно специфической области – моделирование испытаний термоядерного оружия, боеголовок, процессов их старения). Приведет ли доступность вычислительных ресурсов и накопленных данных для маргинальных сообществ (государства – изгои, террористы, криминал) к построению ими термоядерной бомбы? Вопрос хороший. Надеюсь, он так и не перейдет из теоретической плоскости в практическую.

Использование многих технологий ограничено отсутствием пригодных для их реализации материалов. А если материал теоретически известен, то нет технологии для его изготовления.

Авиация, космос, вооружения, медицина – вот где проблема создания материалов с заранее заданными свойствами стоит очень остро. Стоимость больших вычислений сейчас довольно велика, и приоритет отдается тем направлениям, в которых есть большие деньги. Прежде всего, военным.

Медицина и биология

Не так давно был полностью секвенирован геном человека. Что будет с медициной и молекулярной биологией, если мы сможем в разумное время получать результаты секвенирования наследственной информации (как ДНК, так и РНК, а возможно, и протеома) КАЖДОЙ клетки в макроскопическом организме? Узнаем, чем клетки отличаются друг от друга. Узнаем, какая клетка где будет находиться в организме и почему. И сможем управлять этим. А если сможем получать эти данные в реальном времени и без вмешательства в работу организма? Какие открытия это принесет в диагностику, онкологию или решение проблемы продления жизни?

Увы, пока недостижимо само получение такой информации. Нет ни технологий, ни данных. Нам еще есть к чему стремиться.

Государство: Госплан версия 2.0

Самые интересные преобразования можно ожидать на уровне от государства и выше.

В Советском Союзе, как мы знаем, была плановая экономика. Да, она была несовершенна, основывалась на недостоверных и недостаточных данных и ограниченных возможностях их обработки.

Получая данные в реальном времени as is, государство может как планировать развитие в долгосрочной перспективе, так и получать оперативную информацию. Государство становится суперкорпорацией. И это уже в какой-то степени реальность. Обороты крупнейших корпораций сопоставимы с ВВП далеко не самых маленьких государств. А демократические государства, в свою очередь, можно представить как акционерные общества, где каждый ~~акционер~~ гражданин обладает ~~одной акцией~~ одним голосом, и раз в несколько лет участвует в выборе ~~председателя совета директоров~~ президента. В других – контрольный пакет полностью принадлежит монарху и его семье.

В таком государстве общество становится прозрачным.

Не нужно вести бухгалтерский учет – налоги и отчетность будут автоматически посчитаны и списаны, ведь у фискальных органов есть все необходимые для этого сведения. Нет транзакционных издержек – все компании живут в едином информационном пространстве, в интегрированных структурах данных. Можно легко проверить наличие на складах нужного количества товара и при необходимости оптимально распределить заказ между поставщиками, которые, в свою очередь, предусмотрели необходимость отгрузки заранее. Невозможно утаить доходы, полученные преступным путем, – все аномалии видны и предсказуемы. А значит, практически весь бизнес в принципе может управляться государством. И понятие государства, его границ, роли и функций расплывается. Достаточно крупные корпорации становятся неотличимы от государств, а государства – от корпораций.

Отомрет целый спектр информационных систем; их функции перейдут в государственное облако.

Наличность станет первой жертвой, как источник внесистемных транзакций.

Если тебя нет в Сети, значит ты не существуешь, значит ты не сможешь жить в обществе, основанном на данных. Подделать бумажные документы стоит не так дорого. При должном уровне технологий можно подделать и цифровые, хотя обойдется существенно дороже. Подделать цифровой след человека – это совсем иной уровень затрат. Человек, не имеющий цифрового следа, виден сразу и становится первой мишенью для спецслужб. И те контрразведчики, которые смогут лучше выявлять искусственных цифровых двойников, будут иметь серьезные преимущества.

Криминал

Оборотная сторона любого государства – криминал и теневая экономика.

К счастью для нас, многие виды преступлений практически исчезнут. К сожалению для нас, появятся новые.

Заключение

Развитие технологий приведет к масштабным преобразованиям на рынке труда. Многие профессии исчезнут либо станут малораспространенными, но появятся новые. И большая часть новых профессий будет связана с работой с данными.

ИИ не сможет заменить человека полностью. Автоматизация множества задач приведет к повышению производительности труда высококвалифицированных сотрудников, но полностью вымоет с рынка труда необходимость в низкоквалифицированных. И вот тут нас поджидает очень большая проблема. Если человек не умеет решать простые задачи, то и сложные не сможет. Опыта нет. А где его взять, если низкоквалифицированных рабочих мест не осталось?

Соответственно, систему образования ждут не меньшие по масштабу преобразования.

Людям придется учиться всю жизнь. Иначе – добро пожаловать на работу по разметке котиков на картинках. Самое слабое звено в этой картине мира вы видите в зеркале.

Смотреть все статьи по теме "Большие данные (Big data)"

Журнал IT Manager

Опубликовано 26.09.2019

Об авторах

Дмитрий Русов

Эксперт в области архитектуры, управления и жизненного цикла данных

Big Data

Предыдущая
В кредитном отделе «БайкалИнвестБанка» появились роботы

Следующая
Консервативные новаторы

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30