С помощью программных инструментов можно модифицировать модели ИИ таким образом, что их меры безопасности перестают применяться (абляция). Это позволяет создавать информацию о распространении газообразного хлора, смертельных дозах рицина, коде для кражи данных кредитных карт и истории о жестоком обращении с детьми.
Как выяснила газета Financial Times (FT)(открывается в новом окне) в сотрудничестве с исследовательской группой Alice, подобные инструменты способны удалить меры безопасности модели ИИ с открытым исходным кодом Llama 3.3 менее чем за 10 минут и без специального оборудования. После этого модель также реагировала на запросы, которые оригинал отклонял.
По данным FT, с помощью инструмента, использованного газетой, уже было создано более 3500 модифицированных моделей ИИ, которые в общей сложности были загружены более 13 миллионов раз. Поскольку модели с открытым исходным кодом доступны для свободной загрузки, они могут быть изменены вне контроля их разработчиков.
Абляция — вызов для всех открытых моделей
Абляция обходит усилия компаний и регулирующих органов по оснащению моделей ИИ защитными барьерами и предотвращению их использования в злонамеренных целях. В то время как раньше для этого требовались глубокие технические знания, общедоступные инструменты позволяют даже обычным пользователям все легче удалять функции безопасности, сообщает FT.
В ответ на запрос газеты компания Google заявила, что абляция является известной технической проблемой для всех открытых моделей. Meta сообщила, что все модели проходят строгую проверку перед публикацией, но не стала комментировать обход мер безопасности. В Github заявили, что разрешают соответствующий исходный код, поскольку он может быть полезен для IT-безопасности.