Опубликован: 30.05.2023 | Доступ: свободный | Студентов: 632 / 152 | Длительность: 16:08:00
Лекция 5:

Вопросы безопасности и этики применения ИИ

Появление и распространение технологий ИИ порождает целый спектр воп

Существует множество направлений, связанных с темой "ИИ и безопасность". Во-первых, ИИ может быть использован для защиты от традиционных угроз (атак, не основанных на ИИ). И мы видим, как искусственный интеллект становится составной частью приложений для обеспечения безопасности. Во-вторых, ИИ может быть использован для взлома систем безопасности. В-третьих, ИИ сам по себе может быть источником уязвимостей, которые используются для взлома. Но даже если система ИИ выполнена без очевидных уязвимостей, она тем не менее может быть источником различного рода проблем. Например, высокоинтеллектуальный инструментарий может оказаться опасным в руках недобросовестных личностей, организаций и государств.

В рамках данного курса невозможно рассмотреть все аспекты проблемы, мы дадим лишь краткий обзор некоторых тем и чуть подробнее остановимся на рисках, связанных с ограничениями интерпретируемости ИИ-систем и с нарушением этических норм.

Классификация направлений ИИ-безопасности

Аналитики представляют разные системы классификации вопросов и направлений, связанных с обеспечением безопасности, обусловленной использованием ИИ. Например, авторы работы из CAICT (рис. 4.1) предлагают вопросы безопасности, связанные с применением ИИ, рассматривать в трех измерениях - это риски, связанные с угрозами безопасности со стороны ИИ, приложения обеспечения безопасности и средства управления безопасностью.

 Основные направления ИИ-безопасности в концепции CAICT. Источник: [239]

Рис. 4.1. Основные направления ИИ-безопасности в концепции CAICT. Источник: [239]

Другая классификация рисков, связанных с ИИ (в концепции AIRS 1AIRS - это рабочая группа, которая ставит своей задачей продвигать, просвещать и развивать управление ИИ для индустрии финансовых услуг, уделяя особое внимание выявлению, категоризации и снижению рисков) представлена на рис. 4.2.

 Основные риски, связанные с ИИ в концепции AIRS. Источник: [240]

Рис. 4.2. Основные риски, связанные с ИИ в концепции AIRS. Источник: [240]

Здесь риски разделены на четыре группы: риски, связанные с данными, с атаками на ИИ, с тестированием и с так называемым комплаенсом 2Соответствие каким-либо внутренним или внешним требованиям .

Риски, связанные с данными

Подобные риски связаны с наличием ограничений в обучении моделей и с качеством данных. В большинстве случаев невозможно обучить ИИ-систему на всех возможных комбинациях входных данных, что формирует несовершенство модели и, соответственно, одно из направлений рисков.

Низкое качество данных (неполные, ошибочные, устаревшие данные и т. п.) может не только ограничить способность системы к обучению, но и негативно повлиять на то, как она будет принимать решения в будущем. Кроме того, часто данные могут быть несбалансированными по каким-то критериям, что ведет к возможной предвзятости обученной на них модели.

Риски, связанные с атаками на ИИ-системы

Говоря об атаках на ИИ, следует отметить, что большинство известных потенциальных атак на системы ИИ можно отнести к одной из следующих категорий.

Атаки на конфиденциальность данных - это вид атак, при которых злоумышленник может узнать набор данных, используемых для обучения модели, тем самым нарушая конфиденциальность данных.

Отравление обучающих данных (training data poisoning) - это атака, направленная на загрязнение данных, используемых для обучения ИИ-модели, что негативно сказывается на процессе обучения или результатах (может быть использовано для увеличения коэффи-циента ошибок ИИ-приложения или для потенциального влияния на процесс переобучения или принятия решения моделью).

Вредоносный ввод (Adversarial Inputs, ввод противника) - атака на ИИ-приложения, которые используют входные данные от внешней системы, интерпретируют эти данные и выполняют на основе этого некоторые действия. Атака направлена на компрометацию входных данных. Используя вредоносный ввод, противник нарушает работу классификатора. Такие вредоносные входы известны как ввод противника.

В качестве примера компрометации системы компьютерного зрения приводят эксперименты, когда атакованная система "видит не то, что есть на самом деле". Широко описаны случаи, когда добавление специально созданного враждебного шума (Adversarial Noise) к исходному изображению (незаметно для человеческого глаза) приводит к тому, что объект распознается машиной с ошибкой. Известен пример, когда нанесение на поверхность мяча мыльной пены заставляло изменить мнение ИИ и распознавать модифицированный объект как чашку кофе, а не мяч.

При атаке "извлечение модели" противник пытается украсть саму модель, причем украденная модель может быть использована в качестве инструмента для создания дополнительных рисков.

Риски, связанные с ограничениями возможностей по тестированию и валидации ИИ-моделей

Комментируя риски, связанные с ограничениями возможностей по тестированию и валидации моделей, следует отметить, что в зависимости от варианта использования система ИИ может по-разному развиваться с течением времени. Некоторые формы ИИ могут создавать проблемы, которые могут увеличиваться со временем.

Тестирование и валидация систем ИИ может представлять трудности по сравнению с традиционными системами. Тестирование по всем сценариям может оказаться невозможным, что формирует потенциальные риски. Некоторые системы ИИ по своей природе склонны к изменениям с течением времени, могут сопровождаться изменениями в выходных данных и неверными выводами.