OpenAI запустила программу по поиску уязвимостей в своих AI-сервисах, включая ChatGPT, призывая пользователей находить и раскрывать проблемы в работе системы. Вознаграждения за обнаруженные уязвимости варьируются от 200 долларов за «незначительные нарушения» до 20 000 долларов за «исключительные открытия», а отчёты можно отправлять через платформу по кибербезопасности Bugcrowd. Следует отметить, что программа не предусматривает вознаграждения за социальный формат взлома ChatGPT или принуждение его генерировать вредоносный код или текст. «Проблемы, связанные с содержанием модельных подсказок и ответов строго не входят в рамки программы по поиску уязвимостей и не будут вознаграждаться», — говорится на странице Bugcrowd OpenAI.
Взлом выдачи ChatGPT обычно включает в себя ввод сложных сценариев в систему, которые позволяют пользователю обойти собственные системы безопасности искусственного интеллекта. Руководство OpenAI говорит, что такие проблемы безопасности модели плохо подходят для программы по поиску уязвимостей, так как они не являются отдельными, дискретными ошибками, которые можно непосредственно исправить. Компания отмечает, что решение этих проблем часто требует значительных исследований и более широкого подхода, и отчёты о таких проблемах следует отправлять через страницу обратной связи с моделью компании. Но хорошо, что производитель решил заниматься этим вопросом, потому что недостатков у чат-бота предостаточно.