Геоаналитика и искусственный интеллект
Статья будет интересна всем аналитикам, управленцам из бизнеса и госсектора, принимающим решения на основе данных.
Тех, кто дочитает этот материал, ожидает сюрприз — эксперимент с GPT-3 (Bing Chat).
Искусственный интеллект должен ускорять и уточнять процессы принятия решения человеком, избавлять его от рутины — в этом основное предназначение ИИ. Геоаналитика — набор методов и инструментов, основанных на базе принципов геоинформатики, которые с использованием геоданных предоставляют человеку новые знания для принятия управленческих решений в самых разных сферах деятельности, будь то розничная торговля и услуги населению (геомаркетинг), или, к примеру, урбанистика (городское планирование). Это могут быть задачи размещения торговых точек, ресторанов, банков, аптек. Или более сложные задачи городского планирования с урбанистическим подходом («ближе к людям — комфортнее город»), где планируются социальные объекты (школы, детские сады, площадки), пункты раздельного сбора мусора, многофункциональные центры или видеокамеры для безопасного проживания населения.
Пока в Рунете не очень много систематизированных статей с примерами на тему того, можно ли совместить геоинформатику и ИИ? Есть ли применения? Есть ли сервисы или проектные работы? Может ли ИИ «предсказать», где ставить известный магазин продуктов данного формата? Или спрогнозировать цену на конкретную недвижимость в доме? А может ли ИИ указать локации в городе, где комфортно проживание для людей определенного профиля (где они обеспечены всем необходимым для городской жизни)?
На наш взгляд, по опыту работы 20 лет с геоданными и геоаналитикой в разных сферах (статья написана основателем «Геоинтеллекта» — первого российского сервиса для геоаналитики, компания работает с 2003 года, а сервису недавно исполнилось 10 лет), следует выделить два направления:
- Добыча данных, «превращение в геоданные», где уже давно используются нейронные сети для распознавания изображений из космоса или аэрофотосъемка (еще их иногда называют «дешифрирование данных дистанционного зондирования земли» (ДДЗ)).
- Прогнозирование каких-то показателей, например экономических, по конкретным объектам пространства с целью принятия управленческих решений на основе геоданных, в том числе полученных частично из п. 1, а частично — на основе ретроспективы, объектов-аналогов, подходов ML, а также гибридных математических моделей.
Именно с помощью этих двух пунктов хотелось бы понятийно раскрыть широкий спектр задач, не вдаваясь в математические подробности, но и не забывая о примерах из жизни. Ну и на основе обоих пунктов продемонстрировать «упаковку» геоинформационного продукта: либо в виде рекомендательной тепловой карты, либо в виде калькулятора с выводом основного результата.
Добыча геоданных
Добыча геоданных происходит различными путями. Для открытых источников активно используют RPA — эмуляции действия пользователей на сайтах и сбор данных с возможностью геокодирования (процесс изготовления геоданных из данных). Пропустим это, хотя про геокодирование важно поговорить отдельно, в нем тоже могут быть применены математические методы, использующиеся в ИИ.
Но более интересной выглядит добыча данных из космических снимков (ДДЗ) или аэрофотосъемки с использованием компьютерного зрения. Такие технологии уже давно существуют, но с удешевлением ДДЗ и появлением беспилотной техники эти методы стали весьма востребованными для добычи геоданных, связаные, как правило, с картой-схемой (но не только, но об этом позже) . Картографы вздрогнули, но работа их никуда не делась. Нейронные сети, которые помогают распознавать космические снимки аналогично лицам людей или котикам, также предоставляют возможность картографам проверять то, что изобразила машина на карте. Базовые слои карты-схемы имеют разные масштабы: дома, леса, дороги и т. д. Все это можно распознать с разной точностью, зависящей от технических характеристик картинки (в данном случае — снимка) и возможности ее разметить.
Основные цели — ускорить работу картографа и создание плана местности — это банально. А вот найти незаконную застройку с учетом выверенных границ земельного участка Росреестра — уже интереснее. Или выявить незаконную вырубку леса, свалки. Или понять, какова площадь нефтяного пятна, разлитого в водоеме. С помощью новых технологий, основанных на глубоком обучении, все эти задачи активно решаются уже сейчас.
Кроме того, по определенному диапазону космических снимков можно спрогнозировать урожайность полей, когда ему «отдыхать» и даже какая площадь борщевика. Такие проекты уже есть в России.
Здесь важно иметь справочники, картографический материал, границы земельных участков — без этого довольно трудно обучать модели распознавания. К сожалению, карты Open Street Map (OSM) не всегда могут тут помочь, но именно на них часто обучают математические модели те, кто активно занимается распознаванием снимков.
Особо хочу отметить задачу распознавания типов домов, этажности. С формой дома более-менее понятно, а вот с этажностью, и особенно с серией домов — сложнее. Весьма трудно поддаются распознаванию дома в центре исторических городов с нестандартной постройкой, а также — ИЖС. Сегодня уже много продуктов, которые распознают снимки, они могут входить в настольное ПО ГИС (геоинформационных систем), тарифы зависят от площади распознавания, точности, территории.
Строящееся жилье как пример распознавания открытых космических снимков и сопоставления с другими открытыми источниками
Пример базы загородных СНТ, коттеджных поселков, основанная на совмещении распознавания снимков и Росреестра
Есть и обратная задача: по фотографии какого-то события, сделанной с мобильного телефона, найти в городе и правильно геопозиционировать место съемки. Задача далеко не простая, но осуществимая. В мире такие задачи решили, наверное, единицы мастеров. Дело в том, что на входе здесь надо просматривать все фасады городских домов, панорамы всех улиц, другие фотографии. Хотя похвастаться настоящим дорогостоящим цифровым двойником в России может только, вероятно, столичный регион. Ну а в дальнейшем это может стать отличным инструментом для формирования безопасной городской среды проживания людей, раскрываемости преступлений и т. д.
Ну и, резюмируя, скажу, что ИИ уже применяется в формировании 3D-моделей домов, причем быстрее, чем раньше, а значит, есть надежда, что реальные цифровые 3D-модели городов станут дешевле и доступнее и для малых городов. Благодаря генеративному ИИ процессы проектирования и визуализации становятся все более автоматизированными, а сами модели разнообразнее и реалистичнее.
Прогнозирование на основе геоданных
Мы долгое время занимаемся тремя задачами:
- прогнозирование экономических показателей объектов торговли, банков и др. объектов бизнеса (конкретных торговых сетей);
- прогнозирование цен на конкретную недвижимость в конкретных домах в конкретных городах;
- определения спроса (потенциала) в локации, рейтингование локаций (дом, квартал, земельных участок, зона постовых индексов, муниципалитет, субъект, страна).
У крупного бизнеса стоит задача ускорения открытия магазинов (или ресторанов, аптек, банкоматов и т. д). Лучшие локации могут уйти конкурентам. Значит, нужно автоматизировать процесс поиска и создать математическую модель, которая прогнозировала бы товарооборот в будущем месте для конкретного магазина конкретного формата.
Почти все топ-10 крупных розничных сетей из разных сегментов торговли применяют такие технологии геомаркетинга. Крупные компании уже давно внедрили автоматизацию (воркфлоу) принятия решения на инвестиционном комитете. Раньше эта работа занимала недели, и для ее выполнения требовалось много людей — теперь система проводит оценку сама, тут нужен только один-два специалиста для сопровождения. Бизнес-процессы выбора локации в крупном бизнесе — довольно сложный вопрос. Здесь оказывают влияние как внешние факторы (конкуренты, население, трафик и т. д.), так и банальная «невозможность подъехать и выгрузить товар».
Ключевой функцией такой системы и является «калькулятор среднедневного товарооборота». Эта функция основана на применении ML методов к ретроспективным данным о выручках магазинов всей сети, зависимых и от внешних, и (лучше, но это не всегда так) от внутренних факторов.
Модель внедрена в процессы компании и оперативно дает оценку не в виде тепловой карты, а в виде цифры в денежном выражении. Такие оценки могут служить пересчетом EBITDA, NPV и других характеристик ТЭО магазина. У нас был пример, что один отчет в MS Excel открывался у заказчика около двух минут. После внедрения данной технологии заказчик получал уже готовые расчеты за полминуты. Модель должна постоянно обновляться, «дообучаться». Ведь условия меняются, и иногда даже ребрендинг магазина дает серьезную ошибку в прогнозе. И здесь особое значение приобретает одна из ключевых метрик оценки качества модели - точность. Удается достигнуть точности 85%, дальше в ход идет правило Парето, каждый процент точности требует от заказчика большого количества аккуратных данных, в том числе внутренних, а от исполнителя — их обработки. Таким образом, нам удалось в одном проекте достичь 94% точности по прогнозу трафика в магазин и 90% — по оценке дневного товарооборота.
Калькулятор прогноза товарооборота для одной крупной продуктовой компании (обезличенно в небрендированном интерфейсе для NDA)
Геоданные, которые используются для такого ИИ для магазина, — это и население по домам (домохозяйства), и мобильность людей (трафиковые места, которые тоже собираются определенным образом, не всегда с использованием сотовых операторов), точки конкурентов, доходы клиентов, отзывы в Интернете о тех или иных офлайн-магазинах, близость к социальным объектам и т. д. Недавно стали доступны и банковские данные (не данные ОФД, а именно данные эквайринга банков). Постепенно они стали дешеветь, и их тоже можно аккуратно использовать в математических моделях.
Оценка трафика улично-дорожной сети по гибридной математической модели на основе различных источников данных
Конечно, в крупных компаниях, когда планы большие и нужны интеграции с внутренними системами, лучше внедрять такую геоинформационную систему (ГИС) для геомаркетинга с математической моделью внутри компании, хотя бывают в нашей практике и исключения. Даже крупные компании пользуются облачным сервисом, что избавляет их от головной боли внутреннего сопровождения информационной системы. Однако надо иметь в виду, что чувствительные данные об исторических выручках компании, заложенные в математической модели, должны быть внутри компании. Поэтому чаще все-таки выбирают on-premise-решения. Сегодня такие решения внедрены у Х5 Group, «Дикси», «Вкусвилл» и многих иных компаний как сектора FMCG, так и других секторов.
Из плохого. Когда-то мы мечтали, что можно сделать хотя бы одну математическую модель для сегмента ретейла, но, увы, этого не случилось. Слишком сложная задача оказалась. Ведь с точки зрения статистики количество измерений не всегда достаточно, чтобы использовать те или иные модели ML. Магазинов, насчитывающих более 100 точек в одном городе, не так мало. Все работают по-разному, данные собирают по-разному. Форматы у всех свои. В общем, пришли к тому, что ИИ для конкретного магазина (определенного формата) возможен, а для всего рынка — нет.
Геоаналитика недвижимости
К прогнозу стоимости квадратного метра жилой недвижимости (определенной недвижимости в определенном городе) мы шли постепенно. Сначала для ретейла мы (на основе статистики аренды недвижимости за большой период времени) сделали калькулятор оценки доходов, потом для кластеризации территорий по некоторым городам вручную (!) оцифровали типы домов.
Изучив данные о жилой недвижимости, мы пришли к выводу, что можно создать математические модели для различных объектов (МКД, ИЖС — отдельно вторичка, отдельно первичка) для разной квартирографии и других параметров.
Здесь используются, как правило, ретроспективные накопленные геоданные, собранные по открытым сайтам агрегаторов недвижимости. В разных странах они различаются, имеют свои особенности. Понимание того, как человек сравнивает, когда покупает недвижимость для проживания, дало нам, как исследователям пространства, учесть пространственную составляющую — близость парков, метро, городскую среду.
В результате получилась сначала математическая модель, которую мы апробировали в одном-двух городах, а потом масштабировали ее в нескольких крупных городах, причем не только в России.
Математическая модель оценки стоимости квадратного метра жилья разных видов в многоквартирном доме (МКД) на основе ML
Если говорить о применимости, то такую модель с удовольствием потребляет рынок строительства. Оценка одной компании занимала один человеко-месяц по разным локациям. Теперь подобная оценка занимает минуты. В компании также был внедрен специальный отчет. Исследователь-маркетолог выгружал класс жилья, сравнивал цены на разные типы квартир и т. д., делал из всего этого вывод, либо отчет сам «предлагал» варианты того, какой объект на данном участке надо строить и какой конфигурации, с учетом класса и квартирографии.
В коммерческой недвижимости тоже есть свои математические методы оценки стоимости. Например, оценочные компании из государственного сектора (бывшие БТИ), всегда имели на вооружении такие математические модели для оценки цен и понимания функционала городской недвижимости с целью сбора налогов. В результате такой оценки на базе ML мы получаем рейтингование участков улиц, а на входе — все те же исторические геоданные агрегаторов недвижимости.
В строительстве актуальными задачами, которые решаются с применением геоаналитики, являются расчет количества мест в социальных объектах, паркингах, размещение контейнеров по вывозу мусора, раздельному сбору и т. д.
Рейтингование локаций в виде тепловых карт
Оценив при помощи математических методов территории, можно составить их рейтинг, оформив его в виде тепловой карты — доступного понятного сервиса, на основе которого можно принимать решения на уровне «красное плохо, зеленое хорошо»).
Для крупных ретейлеров, банков и т. д. это могут быть либо квадраты 65/65 метров (чем мельче, тем лучше), причем для гипермаркетов эти «квадраты» могут быть и больших размеров. В нескольких проектах мы делали «дорожную карту развития ретейла», посчитав все прогнозы выручек магазинов и отранжировав их по цвету. Таким образом, исследователь компании («развитолог») сразу видел, какие помещения рассматривать в первую очередь при помощи наложения свободных площадей с рекомендательной тепловой картой.
Для малого бизнеса существуют подходы, позволяющие упростить и унифицировать такие тепловые карты. Мы их назвали «бизнес-потенциалы». Их величина от 280 метров. Для каждой из категорий (а их более 100) нужно делать свою карту, поскольку есть разные конкуренты, разные факторы влияния и т. д. Здесь учитывается экспертиза исследователей, и чем больше она оцифрована, тем точнее такие интеллектуальные тепловые карты, фактически оценивающие локальный спрос (хватит ли тут людей для второй точки или достаточно одного конкурента).
Для строителей делается рейтинг кварталов или земельных участков. Модель оценки инфраструктуры для жилого комплекса и рейтингования земельных участков по границам Росреестра — задача очень актуальная, так как цена ошибки выбора участка по сравнению с объектом недвижимости высока. Конечно, их не так много, и порой потом объект становится объектом притяжения. Но математическая модель на основе рейтингования земельных участков на базе ML очень сильно ускорила так называемый Best Used-анализ и уточнила его. Таким анализом пользуются крупные консультанты, к ним обращаются девелоперы при составлении отчетов для получения кредитных средств на строительство. Для строителей важно делать такую тепловую карту не по квадратам, а по понятным в этой области границам, например по кварталам. Нами была разработана и внедрена у некоторых клиентов модель, реализованная в веб-интерфейсе «Индекс комфортности по кварталам», учитывающая удаленность от разных объектов. Выбирая степень важности под свой профиль потребления городского сервиса (школы, поликлиники, парка, метро и т. д.), вы можете самостоятельно выстроить правильную ткань города по кварталам с учетом своих предпочтений. Таким образом, девелопер может оценить свой будущий квартал. Также нами сделаны интерактивные инструменты, отвечающие на вопрос «А что будет, если?» — например, поставить школу, где ее не хватает, и как будет выглядеть город. А это уже задача городского планирования на уровне сити-менеджмента.
Индекс комфортности по кварталам Санкт-Петербурга к государственным медицинским учреждениям, магазинам, школам, паркам и т. д.
Для государственного управления важно рейтинговать управляемые административные границы, создавать конкуренцию. Тогда на местах будут аккуратно относится к сбору данных, с одной стороны, и к управлению на основе данных — с другой. В качестве примера можно привести рейтинг качества жизни АСИ по субъектам РФ. В нем много разных индексов, есть, в частности, и геоаналитические (доступность к школам, объектам образования, магазинам, паркам и т. д.). Этот рейтинг показывает не только то, на каком месте в итоге расположен каждый субъект, но и то, что делается внутри субъектов по муниципальным образованиям, а также демонстрирует динамику исправления ошибок на местах для улучшения своих позиций перед руководством и избирателями.
Рейтинг качества жизни АСИ
Еще один реальный кейс из нашей практики. В городе Ташкенте использовали индекс комфортности и данные обратной связи граждан «Народный контроль». Это позволило руководителям муниципалитетов соперничать и исправлять территорию внутри, преобразуя ее конкретными решениями и делая ее лучше.
В основе рейтинга Махаллей (жилых блоков г. Ташкента) лежит индекс комфортности (математическая модель) и тепловая карта обратной связи граждан
ИИ и заболеваемость
В этой статье мы не затронули имитационные и геостатистические модели, которые помогают найти причинно-следственные связи между факторами и откликами (например, в качестве факторов берется загрязнение определенными веществами в атмосфере за период, а в качестве отклика — заболеваемость). Это тема отдельной статьи, однако тут хотелось бы остановиться на методе, который покажет вероятные локации с точки зрения влияния в конкретном месте конкретного фактора.
Ниже представлены картинки из одной кандидатской работы, которые демонстрируют для разного вида патологий одни и те же локации в мегаполисе, хотя причины — разные.
Сегодня при наличии оцифрованных и геокодированных данных по случаям инфекционной и неинфекционной заболеваемости можно и нужно продолжать подобные исследования на базе пространственной автокорреляции и геостатистических подходов. Ряд методов, к сожалению, отсутствует в отечественных ПО, поэтому надо их делать с нуля, что сегодня затрудняет подобные исследования.
Вместо заключения
ИИ и геоаналитика только начинают формировать проекты и сервисы. Примеры единичны, но они есть и в России — в сегментах ретейла, строительства, государственного управления.
Распознавание космических снимков и использование нейронных сеток будет только улучшаться, а технологии — становиться точнее и доступнее. При этом они существенно ускоряют работу картографов, уточняют карты, улучшают их точность и качество для разных задач человеческой деятельности, в том числе помогая понять причины в разных нарушениях, связанных с землей.
Существуют калькуляторы прогноза посетителей магазина или товарооборота. Для каждого магазина одной сети и одного формата — свои, они существенно ускоряют рутинные процесс оценки помещений внутри крупных компаний. А внутри малого бизнеса существуют модели спроса (бизнес-потенциала) для разных категорий бизнеса в виде тепловых крат.
Для строительного рынка есть модели прогнозирования цен на недвижимость определенных квартир в домах, а также рейтингование земельных участков по спросу, комфортности проживания и т. д.
В государственном управлении рейтингование жилых кварталов, или муниципалитетов, или субъектов — это метод контроля и управления лицами, принимающими решения на региональном или муниципальном уровне соответственно, а также метод понимания уровня цифровизации в регионе.
А теперь обещанный сюрприз тем, кто дочитал до конца. Закончить хотелось бы нашими экспериментами с GPT-3. Так как мы занимаемся геомаркетингом уже давно, имеем опыт работы с сотнями клиентов, знакомы с проблемами крупных и малых компаний, мы задали все эти вопросы Bing Chat (GPT-3). К сожалению, текстов очень мало для того, чтобы получить адекватный ответ. В целом много противоречий, если воспроизводить эксперимент и спрашивать одно и то же, «творческий» ИИ давал разные ответы на те же вопросы, и иногда ссылался на геоинтеллект. Но нам понравился один ответ «базовой» версии: «Обратитесь к специализированным компаниям. Они вам помогут открыть торговую точку в городе N».
Кстати Bing Chat умеет «гуглить» недостающую информацию, в отличии от других ИИ, таких как ChatGPT и прочих.
Общие вопросы. ИИ справляется, хоть и немного запутался в терминологии «геомаркетинг» и «геотаргетинг». Впрочем, в Сети так и есть
Здесь более-менее нормально, вдумчивый инвестор и аналитик не будет верить, но в целом написано понятно
Вот и первая конкретика. Сначала один ответ...
В другом чате при таком же вопросе уже другой ответ. Но есть ссылка на Геоинтеллект.
Опубликовано 25.12.2023