Ведущий разработчик программного обеспечения Иван Богатырев о хранении персональных данных в больших масштабах

Ведущий разработчик программного обеспечения

По данным исследования InfoWatch, в 2022 году в России утекло более 667 млн записей с персональными данными - почти в три раза больше, чем в 2021. Эти цифры сильно подрывают репутацию компаний, так как пользователи ожидают ответственного отношения к их данным.

Иван Богатырев — успешный разработчик программного обеспечения с 11-летним опытом работы в крупных технологических компаниях в России и за рубежом таких как Uber, одной из FAANG (Facebook *, Amazon, Apple, Netflix и Google) и Yandex. Он имеет опыт работы с различными системами хранения данных. Несмотря на то, что Иван занимал должность руководителя службы разработки в Яндексе, он предпочитает оставаться в роли инженера-эксперта.

Иван специализируется на микросервисной архитектуре и создании масштабируемых серверных приложений. Кроме того, у него многолетний практический опыт работы с экосистемой JVM. Он свободно владеет многими языками программирования, такими как C++, Python, Go и PHP/Hack. Несмотря на свою специализацию, Иван изучает новые языки и технологии, особенно если это необходимо для проекта. Он рассказал о том как успешно решал задачу хранения персональных данных в огромных масштабах. А также какие новаторские подходы придумал и опубликовал под открытой лицензией.

Иван, вы специализируетесь на персональных данных. Расскажите, пожалуйста, о них подробнее: что они из себя представляют?

Идентифицирующие пользователя или персональные данные — это информация, которая по отдельности или в совокупности может идентифицировать человека. Сюда входят, например, полные имена, адреса, номера телефонов, адреса электронной почты, идентификационный номер налогоплательщика, дата рождения, биометрические данные, IP-адреса, учетные данные для входа в различные системы (логин/пароль), финансовые данные, медицинские записи, информация о трудоустройстве и образовании, данные о местонахождении, веб-файлы cookie, профили в социальных сетях и конкретные демографические данные, такие как пол и этническая принадлежность. Это ни в коем случае не исчерпывающий список, так как категоризация данных как «личных», так и «идентифицирующих» может меняться в зависимости от правовой юрисдикции и особенностей обработки и объединения данных.

Расскажите в чем важность правильного хранения персональных данных?

Крупные технологические компании отдают большое внимание правильному хранению пользовательских данных, поскольку это оказывает огромное влияние на доверие и репутацию; пользователи ожидают ответственного обращения с данными, и любое нарушение может подорвать доверие к бренду. В то же время строгие правила, такие как федеральный закон № 152-ФЗ в России, GDPR в Евросоюзе и CCPA в США (штат Калифорния), требуют надежной защиты данных, а несоблюдение влечет за собой значительные штрафы.

Кроме того, компании сталкиваются с огромным риском утечки данных, что подчеркивает необходимость безопасного хранения. Правильное хранение данных улучшает бизнес-операции, помогая правильной организации аналитики и машинному обучению, необходимым для современных технологических инноваций. Также как обеспечивает целостность данных, соответствие этическим стандартам, способствует совместимости систем, снижает риски судебных разбирательств и готовит компании к будущим вызовам.

В конечном счете, это многогранная необходимость, объединяющая юридические, этические и деловые проблемы, обеспечивающая постоянную надежность и успех крупных технологий.

Иван, какие лучшие практики по хранению персональных данных вы можете выделить?

Сбор и обработка персональных данных требует соблюдения законодательства, технологической безопасности и этических норм. Начиная с самого главного – получения согласия от пользователей, гарантируя, что они знают, какие данные собираются и как они используются. Данные следует получать только по мере необходимости и хранить только в течение периода, необходимого для их предполагаемой цели. Крайне важно использовать надежные методы шифрования, поддерживать строгий контроль доступа и регулярно обновлять системы обработки данных на всех уровнях (снижая риск эксплуатации уязвимостей). Постоянное обучение персонала вопросам защиты данных и конфиденциальности имеет решающее значение, равно как и проверка сторонних партнеров. Прежде чем развертывать новые инструменты или услуги, необходимо учесть потенциальное влияние на конфиденциальность и защиту данных. В случае возникновения каких-либо проблем жизненно важное значение имеет хорошо подготовленный план реагирования на инциденты. Регулярные проверки обеспечивают постоянное соблюдение требований, а прозрачный механизм обратной связи с пользователями повышает доверие. Залогом успеха для крупных технологических компаний является приоритетное внимание к этическим соображениям и искреннее уважение конфиденциальности пользователей.

Нашим читателям будет интересно узнать о примерах вашей работы в одной из FAANG компаний, где вы сталкивались со сложностями сбора и обработки большого объема персональной информации. Можете поделиться?

Да, конечно. Все верно. В одной из FAANG компаний я занимался созданием платформы сбора данных в масштабе терабайты/секунду. Упор был именно на инфраструктуру, связанную с хранением персональных данных. Платформу сбора данных составляют многочисленные разнородные сервисы, такие как хранилища данных и различные системы реального времени. Все они обмениваются между собой большими объемами данных при взаимодействии через интерфейсы (API).

Будучи разработчиком, в роли технического лидера команды я был ответственным за входную точку для сохранения всех аналитических событий компании, известной во всем мире своими социальными сервисами.

Как долго можно хранить персональные данные? Как удалять персональные данные в большом масштабе?

Это зависит от ситуации – политики компании и местного законодательства. Обычно, данные, идентифицирующие пользователя (собираемые только с согласия пользователя), не могут храниться бесконечно и, следовательно, использоваться по истечении определенного времени. Удаление данных на таком большом масштабе может оказаться дорогостоящим, так требует большого количества вычислительных ресурсов. Чтобы решить эту проблему, мной была разработана процедура замены информации об идентификаторе пользователя обезличенным идентификатором. Я сравнил несколько вариантов решения проблемы и выбрал наиболее масштабируемый и расширяемый. Затем я создал автоматизацию для миграции существующих данных для всех задействованных наборов данных и уведомил внутренних потребителей.

Расскажите подробнее, как и где лучше хранить правила анонимизации данных?

Чем ближе к схеме данных, тем лучше. В одной из FAANG компаний, я возглавлял проект по созданию политик анонимизации на уровне схемы данных в виде аннотаций в коде. Основной мотивацией этого было то, что механизм настройки политик вызывал сложности у внутренних пользователей и иногда по своей природе приводил к тому, что для некоторых типов данных политики анонимизации не соответствовали правилам. Таким образом, некоторые ценные данные могли исчезнуть или могли быть обработаны неправильны образом. Я разработал способ чтобы сделать это невозможным, включив аннотации анонимизации в схему данных. Также, я написал скрипт миграции уже существующих правил в пользовательском интерфейсе в виде аннотаций полей и сделал эти правила обязательными.

Что вы можете рассказать по поводу контроля доступа к персональным данных, на примере из вашей карьеры?

Для проекта социальной сети я разработал проект управления внутренним доступом к данным на уровне схемы данных. Цель заключалась в том, чтобы внести в схему данных определение прав доступа на уровне колонок (а не только таблицы как это было изначально) — это значительно расширило возможности задания прав доступа. Я также руководил миграцией — простановкой недостающих аннотаций на основе существующих правил (определенных в пользовательском интерфейсе).

Какой, по-вашему, самый эффективный способ хранения персональных данных и какие важные изменения, которые могут положительно повлиять на работу компании вы можете выделить?

Важно понимать, что если бы я не решил оперативно проблему с анонимизацией данных оперативно, это могло бы привести к нарушению внутренних правил или даже закона (GDPR и/или CCPA). Последнее могло стоить компании многомиллиардных штрафов, не говоря уже о репутационных рисках. В случае, когда инженер данных мог забыть установить корректное правило архивации, это могло приводить к потере данных или неправильной анонимизации. Обычно потеря данных в масштабах транснациональной компании приводит к значительной потере денег. Я разработал способ сделать это невозможным, включив правила анонимизации в схему данных, сэкономив тем самым компании много средств в будущем.

Переходя от теории к практике, вы работали над несколькими open-source-проектами по обработке данных, расскажите подробнее об этих проектах и в чем их отличительные черты?

Проект "Look" предлагает новаторский подход к обеспечению согласованности данных, получаемых из разных источников под высокой нагрузкой. Источником правды являются команды, приобретающие общий глобальный порядок, записывающиеся в виде неизменяемого лога, который реплицируется на другие машины в кластере. На основании лога строятся материализованные представления данных. Представления используются для выполнения оптимальных запросов в режиме реального времени.

Тогда как "Перун" предлагает методическую основу для управления состоянием в распределенных архитектурах, используя алгоритмы преобразования декларативного описания целевого состояния системы к императивному – набору команд, необходимых для достижения последнего. Таким образом решается проблема управления переходами состояния, например в микросервисной архитектуре.

Иван, вы не понаслышке знаете, что с данными необходимо обращаться с предельной осторожностью. Как вы видите будущее сферы хранения данных?

Я считаю, что будущее сферы хранения данных зависит от нескольких факторов. Одним из ключевых является развитие технологии искусственного интеллекта и машинного обучения, которые могут значительно улучшить процессы обработки и анализа данных. Еще одним важным фактором является повышение безопасности и конфиденциальности данных, чтобы обеспечить защиту личной информации пользователей. Также необходимо продолжать разрабатывать новые технологии хранения данных, такие как квантовые технологии и оптические системы хранения, чтобы увеличить емкость и скорость доступа к данным.

*признана экстремистской организацией и запрещена на территории РФ

Опубликовано 17.08.2023

Информационная безопасность Утечки данных

Предыдущая
Информационная безопасность: атака на РЖД, мошенничество в Телеграме, самокаты под контролем

Следующая
Обнаружение мошенничества с помощью алгоритмов ИИ

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30