Как экономить время на обучении ИИ? Отдай свою работу на аутсорсинг… другому ИИ
Многие компании нанимают фрилансеров для выполнения типовых рутинных задач, таких как решение CAPTCHA, маркировка данных и аннотирование текста. Затем эти данные передаются в модели искусственного интеллекта для их обучения. Обычно таким сотрудникам плохо платят, и выжимают из них все что возможно в максимально короткий срок.
Естественно, что некоторые из них обращаются к инструментам, позволяющим ускорить выполнение задач и увеличить их заработок. Например, многие используют для этого ChatGPT. Чтобы выяснить какова доля таких «оптимизаторов» в общей массе наемных работников, группа исследователей из Швейцарского федерального технологического института (EPFL) наняла 44 человека, и попросила их обобщить 16 выдержек из медицинских исследовательских работ. Затем выполненная работа была проанализирована на наличие однообразных словесных конструкций или использование клавиш Ctrl+C и Ctrl+V. Это должно было показать, что сотрудники генерировали ответы на свои задания где-то еще.
Результаты эксперимента показали, что от 33% до 46% работников используют в работе модели искусственного интеллекта, такие как ChatGPT от OpenAI. Этот процент, вероятно, будет расти еще выше, поскольку ChatGPT и другие системы искусственного интеллекта станут более мощными и легкодоступными.
Собственно, в самом использовании искусственного интеллекта нет ничего плохого, однако использование материалов сгенерированных искусственным интеллектом, для обучения другой модели искусственного интеллекта умножает ошибки в обучаемых моделях. Не секрет, что искусственный интеллект регулярно выдает ложную информацию за подлинную. Если на основе этой информации обучать другие модели, то ошибки будут нарастать как снежный ком.
Условно говоря, если обучающая модель утверждает: «кактус — это синяя птица», то обучаемые системы воспринимают ее как истинную, и через несколько циклов такого обучения мы встретим разнообразную информацию о научной дисциплине «орнитоботаника кактусов и опунций».
Самое неприятное в этой ситуации, что простого пути для решения проблемы пока не придумали. Ученые подчеркивают крайнюю необходимость проверять данные для обучения, на предмет генерации их искусственным интеллектом. Но абсолютно точного инструмента для этого еще не существует.