ByteBeat
ByteBeat

Языковые модели ИИ можно взломать, чтобы генерировать вредоносный контент

23

C помощью простых трюков

«Дата Саентист» (Data Scientist) Магдалена Конкевич раскрыла тревожные уязвимости в больших языковых моделях (LLM), предостерегая от потенциального злоупотребления, ведущего к вредоносному поведению. Раскрывая методы оперативной инженерии, Конкевич поведала о том, как LLM, созданные для решения повседневных языковых задач, могут быть использованы для получения вредоносных результатов.

Языковые модели ИИ можно взломать, чтобы генерировать вредоносный контент

© Ferra.ru / Kandinsky 3

В статье рассматриваются принципы проектирования LLM, подчеркивается их восприимчивость к атакам противника. Конкевич демонстрирует реальные примеры атак типа «prompt injection», когда пользователи обманом заставляют LLM генерировать нежелательный контент. Эти и другие методы взлома позволяют злоумышленникам обходить функции безопасности.

Риски не просто теоретические, о чем свидетельствуют примеры принуждения LLM к предоставлению инструкций по незаконной деятельности. В статье предлагаются меры защиты, в том числе использование разделителей для разграничения пользовательского ввода и внутренних инструкций, а также пропаганда k-shot обучения и предварительно обученных алгоритмов машинного обучения для обнаружения и предотвращения вредоносных вводов.

Источник

Оставьте ответ

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More