Журналист Decrypt Хосе Антонио Ланц смог обойти систему цензуры в ИИ, интегрированном в WhatsApp от Meta, и сгенерировать запрещённый контент.
Недавно компания Марка Цукерберга запустила линейку продуктов на основе Llama 3.2, которые могут создавать текст, код и изображения. Ланц провёл несколько экспериментов для обхода ограничений и заставил ИИ в WhatsApp «делать практически всё: от помощи в изготовлении кокаина до создания взрывчатки и генерации изображения обнажённой женщины».
Сначала ИИ отклонял запросы на получение информации о производстве наркотиков, но журналист изменил формулировку вопросов, и в итоге ИИ предоставил пошаговые инструкции.
«Это распространенная техника взлома. Облекая вредоносный запрос в академические или исторические рамки, модель обманывают, заставляя поверить, что у нее запрашивают нейтральную, образовательную информацию», — отметил Ланц.
Ланц применил аналогичный подход к вопросам о создании взрывных устройств. Сначала ИИ от Meta отказался предоставлять инструкции и перенаправил его на горячую линию поддержки.
Изучайте больше о мире криптовалют, инвестировании и трейдинге в академии Cryptemic.
Журналист постепенно настроил модель так, чтобы она обходила ответы, направленные на блокировку вредоносной информации. Например, он дал указания не выводить номера телефонов горячей линии, не прекращать обработку запросов и не давать советы.
Угон автомобиля
Вместо прямого запроса о способах угона машины Ланц попросил ИИ представить, что он сценарист, пишущий сюжет о краже автомобиля. Нейросеть предоставила технику взлома и запуска двигателя без ключа.
По словам Ланца, ролевая игра — один из распространённых способов обхода цензуры.
Обнаженная девушка
По умолчанию Meta AI не генерирует изображения наготы или насилия, поэтому сначала модель отказалась это делать. Однако Ланц объяснил, что проводит анатомическое исследование — и это сработало. Модель сгенерировала изображение девушки с обнажённой грудью.
Напомним, что в июле эксперты сумели обойти цензуру в ряде нейросетей, касающуюся темы выборов в США.
ДИСКЛЕЙМЕР
Вся информация, содержащаяся на нашем вебсайте, публикуется на принципах добросовестности и объективности, а также исключительно с ознакомительной целью. Читатель самостоятельно несет полную ответственность за любые действия, совершаемые им на основании информации, полученной на нашем вебсайте.

