Антон Коршунов: Алгоритмы, которые знают о вас больше, чем вы сами. IT-специалист о работе с большими данными

Логотип компании
Антон Коршунов расскажет, как анализировать большие данные и превращать их в ценные инсайты для бизнеса.

Мир социальных сетей – это не просто миллиарды пользователей, лайков и комментариев. Это огромный массив данных, скрывающий в себе ценнейшую информацию о поведении людей, их интересах и предпочтениях. Именно эта информация становится ключом к успеху для многих компаний, ведь она позволяет разрабатывать более эффективные маркетинговые стратегии, улучшать качество продуктов и находить новые точки роста. Но как извлечь эти знания из бесконечного потока постов и твитов? На помощь приходят IT-специалисты, владеющие искусством анализа больших данных и умеющие превращать сырую информацию в полезные инсайты.

Один из таких экспертов – Антон Коршунов, лауреат Национальной премии «Технологии и инновации 2023» в номинации «IT-специалист года». Антон, начав свой путь с медицинского образования, стал известным специалистом в data science, разработавшим алгоритмы для анализа социальных сетей и реализовавшим проекты для таких гигантов, как Huawei и Samsung. Сейчас, будучи директором по развитию бизнеса в компании «Ноу Нэйм Лаб», он продолжает исследовать мир больших данных. В этом интервью мы узнаем, как произошел этот необычный поворот в его карьере, какие трудности пришлось преодолеть и в чем секрет его профессионального успеха.

Антон вы начали с медицинского образования, а сейчас являетесь специалистом в области IT. Расскажите, как вы пришли к программированию?

Интерес к программированию у меня возник еще в детстве, когда мама впервые дала мне поработать за компьютером. Позже, в школе, я начал изучать языки программирования. В 11 классе я попал на городскую олимпиаду по программированию и выиграл ее. Это подтвердило, что я могу добиваться успехов в этой области. Однако я решил поступать в медицинский университет, чтобы родители видели меня в стабильной и уважаемой профессии. Но на втором курсе медицинского я понял, что это не мое призвание, и решил получить второе высшее образование в сфере IT. Так я поступил в Томский государственный университет систем управления и радиоэлектроники (ТУСУР) на специальность «Программное обеспечение вычислительной техники и автоматизированных систем». Я хотел, чтобы дипломная работа была не просто формальностью, а чем-то действительно полезным и интересным. Мой научный руководитель в ТУСУР предложил мне изучить область онтологий – способов структурированного представления знаний. Тогда я узнал об Институте системного программирования РАН (ИСП РАН), который занимался этой темой, и связался с ними. В итоге у меня было два научных руководителя: один от ТУСУР, другой – от ИСП РАН.

Именно этот диплом стал вашим первым шагом к работе в сфере анализа социальных данных?

Совершенно верно. В ИСП РАН мне предложили интересную задачу: с помощью Википедии научиться автоматически выделять ключевые термины в текстах Twitter. На тот момент это было новым и перспективным направлением, ведь Twitter только набирал популярность. А для меня лично это был первый шаг к погружению в мир больших данных, который, как оказалось, полон занимательных задач. Ведь Twitter – это всего лишь один из множества источников, генерирующих огромные объемы текстовой информации. Сегодня большие данные – это не просто мода, а реальный инструмент для глубокого анализа сложных систем: от поведения пользователей в интернете до прогнозирования экономических и социальных процессов.

Вы упомянули, что работали в ИСП РАН над проектами с такими крупными компаниями, как Huawei и Samsung. Расскажите об этом подробнее.

Да, основная деятельность в ИСП РАН была связана с проектами, которые мы выполняли по заказу крупных компаний. Это были научно-исследовательские проекты, в рамках которых мы разрабатывали алгоритмы для анализа социальных сетей. В этих проектах я выполнял роль руководителя, отвечал за коммуникацию с заказчиком, формулировал предложения, распределял задачи внутри команды. Но главным для меня всегда была научная составляющая — поиск новых и эффективных методов обработки больших данных и изучение их применения в реальных сценариях. Ведь данные о пользователях в социальных сетях — это бесценный источник информации.

Вы являетесь обладателем четырёх грантов Российского фонда фундаментальных исследований (РФФИ). Расскажите, какие исследования в области анализа социальных сетей вы проводили благодаря этим грантам?

Гранты РФФИ позволили мне провести ряд исследований, направленных на разработку новых методов анализа социальных сетей. В рамках одного из них, в частности, мы изучали и изобретали способы хранения и обработки больших массивов данных, имеющих структуру графа. Это направление исследований полезно не только для задач анализа социальных взаимодействий в современных социальных сетях с миллионами пользователей, но и в медицине, биологии, при построении дорожных маршрутов и т.д. Результаты этих исследований были опубликованы в ведущих научных журналах и представлены на международных конференциях. Я горжусь тем, что мои работы получили признание научного сообщества и внесли вклад в развитие этой важной области.

Пожалуйста, несколько слов о проектах, в которых вы использовали свои инновационные методы анализа данных.

Наиболее значимым для меня стало направление, связанное с поиском сообществ пользователей в социальных сетях. Мы разрабатывали алгоритмы, которые позволяли анализировать социальные графы огромных размеров – сотни миллионов пользователей и миллиарды связей. Это было настоящим вызовом, ведь традиционные методы анализа данных просто не справлялись с такой масштабностью. Мы применили инновационные методы, основанные на алгоритмах машинного обучения и граф-анализа. В частности, мы использовали алгоритмы кластеризации, которые позволили выделить отдельные сообщества пользователей в социальном графе на основе их взаимосвязей. Также мы применяли алгоритмы распространения информации, которые помогли нам изучить, как информация распространяется в социальных сетях и как формируется общественное мнение. Эти методы не только позволили нам анализировать данные огромных размеров, но и дали более точную картину социальных взаимодействий.

В чем заключалась сложность работы над вашими алгоритмами для поиска сообществ в социальных сетях?

Сложность была обусловлена как особенностями самих данных – социальных графов, так и их размерами. Алгоритмы, которые работали на небольших графах, оказывались неэффективными при работе с миллионами пользователей. Нам нужно было создавать новые алгоритмы, использовать распределенные вычисления, делить задачу на части и обрабатывать их на разных компьютерах, а потом объединять результаты.

Каких результаты вам удалось достичь с помощью ваших методов, и какое влияние они оказали на практическое применение анализа данных?

Нам удалось разработать методы, которые позволяли находить сообщества пользователей в социальных сетях огромного размера. При этом весь процесс занимал ограниченное время – в пределах одних суток. Кроме того, мы разработали методы оценки качества работы этих алгоритмов, что было крайне важно для практического применения.

Читайте также
1 сентября 2024 года должно было стать знаковой датой для предприятий, относящихся к субъектам КИИ: с этого времени они должны были перестать приобретать и использовать так называемые «недоверенные» программно-аппаратные комплексы. Данное событие могло бы стать еще одним драйвером для развития отечественной ИТ-отрасли, однако пока множество сдерживающих факторов – от терминологических до организационных – мешают совершать этот переход.

Расскажите про разработанный вами метод оценки качества работы алгоритмов. Этот метод, насколько я знаю, стал одним из ключевых достижений и позволил значительно улучшить алгоритмы анализа социальных сетей. В чем его суть?

Для того чтобы понять, насколько точно алгоритм определяет сообщества пользователей, нужно сравнить результат его работы с «эталоном» – данными о реальных сообществах. Но получить такие данные для социальных сетей огромного размера практически невозможно. Поэтому мы разработали алгоритм, который создавал искусственный социальный граф с заранее известной структурой сообществ. Сравнивая результаты работы алгоритмов поиска сообществ на этом искусственном графе с заданной структурой искусственных сообществ, мы могли оценить их точность и эффективность.

Ваши исследования были оценены не только в России, но вызвали интерес в мировом научном сообществе. Вы опубликовали более 20 научных статей в авторитетных изданиях, получили патент Китайской Народной Республики и неоднократно выступали на международных конференциях. В 2017 году вы даже получили награду «Best student KDD paper award» на конференции ECML PKDD. Расскажите подробнее про этот опыт.

То, что мои исследования получили признание не только в России, но и за рубежом — результат многих лет упорной работы и стремления внедрить свои знания в глобальное научное сообщество. Я считаю, что международное признание — это важный показатель качества научных исследований. Это возможность увидеть широкую картину научных исследований, познакомиться с инновационными методами и узнать о новых направлениях развития в своей области. Выступления на международном поле дало мне эту возможность — представить свои работы широкой аудитории и получить обратную связь от ведущих специалистов в области машинного обучения и анализа данных. Это помогло мне уточнить свои идеи, узнать о новых тенденциях в науке и установить контакты с коллегами из разных стран.

В 2014 году вы были членом жюри первого в России хакатона по анализу социальных данных SNA Hackaton 2014. Какие проекты вам запомнились? И какие тенденции в области анализа социальных данных вы тогда заметили?

SNA Hackaton 2014 был очень интересным и продуктивным мероприятием. Мне запомнились проекты, связанные с анализом данных социальной сети "Одноклассники": например, один из них позволял определять настроение пользователей по их публикациям, а другой — прогнозировать популярность контента. Уже тогда было понятно, что анализ социальных данных — это быстро развивающаяся область с огромным потенциалом. Участники хакатона использовали самые передовые технологии машинного обучения и анализа текстов, и я был впечатлен их творческим подходом и техническими навыками.

В 2023 году вы стали лауреатом известной в IT-сообществе Национальной премии «Технологии и инновации 2023». Что для вас значит эта награда?

Эта награда подтверждает, что моя работа является значимой и востребованной.

Помимо социальных графов, с какими еще типами Big Data вам доводилось работать?

Помимо социальных графов, я работал с различными типами Big Data, в том числе с текстовыми данными из социальных сетей, с данными о поведении пользователей на веб-сайтах, с данными сенсоров из Интернета вещей. Каждый тип данных имеет свои особенности и требует специальных подходов к их обработке и анализу. Но объединяет их одно – огромный объем, который невозможно проанализировать вручную. Именно поэтому Big Data стали таким важным направлением в IT, ведь они открывают перед нами новые возможности для понимания мира и создания инновационных решений.

Какие навыки, по-вашему, наиболее важны для специалистов, работающих с Big Data?

Для специалистов по Big Data важны не только глубокие знания в области математики, статистики и машинного обучения, но и умение работать с распределенными системами, облачными технологиями. Необходимы навыки программирования на языках, специально предназначенных для обработки Big Data, таких как Python, Scala, Java. Но, пожалуй, самое главное – это умение видеть за цифрами реальные проблемы и задачи, умение превращать сырые данные в ценные знания, которые можно использовать для принятия решений и создания новых продуктов и услуг.

Опубликовано 22.04.2024

Об авторах
Похожие статьи