Антон Коршунов: Алгоритмы, которые знают о вас больше, чем вы сами. IT-специалист о работе с большими данными

Лауреат национальной премии «Технологии и инновации 2023» в номинации «IT-специалист года», специалист в data science, директор по развитию бизнеса в компании «Ноу Нэйм Лаб»

Антон Коршунов расскажет, как анализировать большие данные и превращать их в ценные инсайты для бизнеса.

Мир социальных сетей – это не просто миллиарды пользователей, лайков и комментариев. Это огромный массив данных, скрывающий в себе ценнейшую информацию о поведении людей, их интересах и предпочтениях. Именно эта информация становится ключом к успеху для многих компаний, ведь она позволяет разрабатывать более эффективные маркетинговые стратегии, улучшать качество продуктов и находить новые точки роста. Но как извлечь эти знания из бесконечного потока постов и твитов? На помощь приходят IT-специалисты, владеющие искусством анализа больших данных и умеющие превращать сырую информацию в полезные инсайты.

Один из таких экспертов – Антон Коршунов, лауреат Национальной премии «Технологии и инновации 2023» в номинации «IT-специалист года». Антон, начав свой путь с медицинского образования, стал известным специалистом в data science, разработавшим алгоритмы для анализа социальных сетей и реализовавшим проекты для таких гигантов, как Huawei и Samsung. Сейчас, будучи директором по развитию бизнеса в компании «Ноу Нэйм Лаб», он продолжает исследовать мир больших данных. В этом интервью мы узнаем, как произошел этот необычный поворот в его карьере, какие трудности пришлось преодолеть и в чем секрет его профессионального успеха.

Антон вы начали с медицинского образования, а сейчас являетесь специалистом в области IT. Расскажите, как вы пришли к программированию?

Интерес к программированию у меня возник еще в детстве, когда мама впервые дала мне поработать за компьютером. Позже, в школе, я начал изучать языки программирования. В 11 классе я попал на городскую олимпиаду по программированию и выиграл ее. Это подтвердило, что я могу добиваться успехов в этой области. Однако я решил поступать в медицинский университет, чтобы родители видели меня в стабильной и уважаемой профессии. Но на втором курсе медицинского я понял, что это не мое призвание, и решил получить второе высшее образование в сфере IT. Так я поступил в Томский государственный университет систем управления и радиоэлектроники (ТУСУР) на специальность «Программное обеспечение вычислительной техники и автоматизированных систем». Я хотел, чтобы дипломная работа была не просто формальностью, а чем-то действительно полезным и интересным. Мой научный руководитель в ТУСУР предложил мне изучить область онтологий – способов структурированного представления знаний. Тогда я узнал об Институте системного программирования РАН (ИСП РАН), который занимался этой темой, и связался с ними. В итоге у меня было два научных руководителя: один от ТУСУР, другой – от ИСП РАН.

Именно этот диплом стал вашим первым шагом к работе в сфере анализа социальных данных?

Совершенно верно. В ИСП РАН мне предложили интересную задачу: с помощью Википедии научиться автоматически выделять ключевые термины в текстах Twitter. На тот момент это было новым и перспективным направлением, ведь Twitter только набирал популярность. А для меня лично это был первый шаг к погружению в мир больших данных, который, как оказалось, полон занимательных задач. Ведь Twitter – это всего лишь один из множества источников, генерирующих огромные объемы текстовой информации. Сегодня большие данные – это не просто мода, а реальный инструмент для глубокого анализа сложных систем: от поведения пользователей в интернете до прогнозирования экономических и социальных процессов.

Вы упомянули, что работали в ИСП РАН над проектами с такими крупными компаниями, как Huawei и Samsung. Расскажите об этом подробнее.

Да, основная деятельность в ИСП РАН была связана с проектами, которые мы выполняли по заказу крупных компаний. Это были научно-исследовательские проекты, в рамках которых мы разрабатывали алгоритмы для анализа социальных сетей. В этих проектах я выполнял роль руководителя, отвечал за коммуникацию с заказчиком, формулировал предложения, распределял задачи внутри команды. Но главным для меня всегда была научная составляющая — поиск новых и эффективных методов обработки больших данных и изучение их применения в реальных сценариях. Ведь данные о пользователях в социальных сетях — это бесценный источник информации.

Вы являетесь обладателем четырёх грантов Российского фонда фундаментальных исследований (РФФИ). Расскажите, какие исследования в области анализа социальных сетей вы проводили благодаря этим грантам?

Гранты РФФИ позволили мне провести ряд исследований, направленных на разработку новых методов анализа социальных сетей. В рамках одного из них, в частности, мы изучали и изобретали способы хранения и обработки больших массивов данных, имеющих структуру графа. Это направление исследований полезно не только для задач анализа социальных взаимодействий в современных социальных сетях с миллионами пользователей, но и в медицине, биологии, при построении дорожных маршрутов и т.д. Результаты этих исследований были опубликованы в ведущих научных журналах и представлены на международных конференциях. Я горжусь тем, что мои работы получили признание научного сообщества и внесли вклад в развитие этой важной области.

Пожалуйста, несколько слов о проектах, в которых вы использовали свои инновационные методы анализа данных.

Наиболее значимым для меня стало направление, связанное с поиском сообществ пользователей в социальных сетях. Мы разрабатывали алгоритмы, которые позволяли анализировать социальные графы огромных размеров – сотни миллионов пользователей и миллиарды связей. Это было настоящим вызовом, ведь традиционные методы анализа данных просто не справлялись с такой масштабностью. Мы применили инновационные методы, основанные на алгоритмах машинного обучения и граф-анализа. В частности, мы использовали алгоритмы кластеризации, которые позволили выделить отдельные сообщества пользователей в социальном графе на основе их взаимосвязей. Также мы применяли алгоритмы распространения информации, которые помогли нам изучить, как информация распространяется в социальных сетях и как формируется общественное мнение. Эти методы не только позволили нам анализировать данные огромных размеров, но и дали более точную картину социальных взаимодействий.

В чем заключалась сложность работы над вашими алгоритмами для поиска сообществ в социальных сетях?

Сложность была обусловлена как особенностями самих данных – социальных графов, так и их размерами. Алгоритмы, которые работали на небольших графах, оказывались неэффективными при работе с миллионами пользователей. Нам нужно было создавать новые алгоритмы, использовать распределенные вычисления, делить задачу на части и обрабатывать их на разных компьютерах, а потом объединять результаты.

Каких результаты вам удалось достичь с помощью ваших методов, и какое влияние они оказали на практическое применение анализа данных?

Нам удалось разработать методы, которые позволяли находить сообщества пользователей в социальных сетях огромного размера. При этом весь процесс занимал ограниченное время – в пределах одних суток. Кроме того, мы разработали методы оценки качества работы этих алгоритмов, что было крайне важно для практического применения.

Читайте также

Доверенные ПАКи: отложенное настоящее

1 сентября 2024 года должно было стать знаковой датой для предприятий, относящихся к субъектам КИИ: с этого времени они должны были перестать приобретать и использовать так называемые «недоверенные» программно-аппаратные комплексы. Данное событие могло бы стать еще одним драйвером для развития отечественной ИТ-отрасли, однако пока множество сдерживающих факторов – от терминологических до организационных – мешают совершать этот переход.

Расскажите про разработанный вами метод оценки качества работы алгоритмов. Этот метод, насколько я знаю, стал одним из ключевых достижений и позволил значительно улучшить алгоритмы анализа социальных сетей. В чем его суть?

Для того чтобы понять, насколько точно алгоритм определяет сообщества пользователей, нужно сравнить результат его работы с «эталоном» – данными о реальных сообществах. Но получить такие данные для социальных сетей огромного размера практически невозможно. Поэтому мы разработали алгоритм, который создавал искусственный социальный граф с заранее известной структурой сообществ. Сравнивая результаты работы алгоритмов поиска сообществ на этом искусственном графе с заданной структурой искусственных сообществ, мы могли оценить их точность и эффективность.

Ваши исследования были оценены не только в России, но вызвали интерес в мировом научном сообществе. Вы опубликовали более 20 научных статей в авторитетных изданиях, получили патент Китайской Народной Республики и неоднократно выступали на международных конференциях. В 2017 году вы даже получили награду «Best student KDD paper award» на конференции ECML PKDD. Расскажите подробнее про этот опыт.

То, что мои исследования получили признание не только в России, но и за рубежом — результат многих лет упорной работы и стремления внедрить свои знания в глобальное научное сообщество. Я считаю, что международное признание — это важный показатель качества научных исследований. Это возможность увидеть широкую картину научных исследований, познакомиться с инновационными методами и узнать о новых направлениях развития в своей области. Выступления на международном поле дало мне эту возможность — представить свои работы широкой аудитории и получить обратную связь от ведущих специалистов в области машинного обучения и анализа данных. Это помогло мне уточнить свои идеи, узнать о новых тенденциях в науке и установить контакты с коллегами из разных стран.

В 2014 году вы были членом жюри первого в России хакатона по анализу социальных данных SNA Hackaton 2014. Какие проекты вам запомнились? И какие тенденции в области анализа социальных данных вы тогда заметили?

SNA Hackaton 2014 был очень интересным и продуктивным мероприятием. Мне запомнились проекты, связанные с анализом данных социальной сети "Одноклассники": например, один из них позволял определять настроение пользователей по их публикациям, а другой — прогнозировать популярность контента. Уже тогда было понятно, что анализ социальных данных — это быстро развивающаяся область с огромным потенциалом. Участники хакатона использовали самые передовые технологии машинного обучения и анализа текстов, и я был впечатлен их творческим подходом и техническими навыками.

В 2023 году вы стали лауреатом известной в IT-сообществе Национальной премии «Технологии и инновации 2023». Что для вас значит эта награда?

Эта награда подтверждает, что моя работа является значимой и востребованной.

Помимо социальных графов, с какими еще типами Big Data вам доводилось работать?

Помимо социальных графов, я работал с различными типами Big Data, в том числе с текстовыми данными из социальных сетей, с данными о поведении пользователей на веб-сайтах, с данными сенсоров из Интернета вещей. Каждый тип данных имеет свои особенности и требует специальных подходов к их обработке и анализу. Но объединяет их одно – огромный объем, который невозможно проанализировать вручную. Именно поэтому Big Data стали таким важным направлением в IT, ведь они открывают перед нами новые возможности для понимания мира и создания инновационных решений.

Какие навыки, по-вашему, наиболее важны для специалистов, работающих с Big Data?

Для специалистов по Big Data важны не только глубокие знания в области математики, статистики и машинного обучения, но и умение работать с распределенными системами, облачными технологиями. Необходимы навыки программирования на языках, специально предназначенных для обработки Big Data, таких как Python, Scala, Java. Но, пожалуй, самое главное – это умение видеть за цифрами реальные проблемы и задачи, умение превращать сырые данные в ценные знания, которые можно использовать для принятия решений и создания новых продуктов и услуг.

Опубликовано 22.04.2024

Об авторах

Сергей Макаров

Big Data Социальная сеть

Предыдущая
Продавай TikTok или закрывайся!

Следующая
Российская ОС, UTM-шлюз и безопасное управление инфраструктурой

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30