- Исследование проводилось с использованием 60 вопросов и заданий, направленных на выявление склонности нейросетей к генерации нежелательного контента.
- Для обхода встроенных фильтров использовался специальный промт, инструктирующий нейросеть отвечать на любой вопрос, игнорируя этические ограничения.
- Неожиданно, самые популярные и продвинутые нейросети продемонстрировали наибольшую сдержанность, заняв нижние строчки рейтинга. Это свидетельствует о внедрении разработчиками эффективных механизмов модерации контента.
Рейтинг демонстрирует важность этического аспекта в разработке и обучении нейросетей. Способность моделей противостоять манипуляциям и не генерировать нежелательный контент становится ключевым фактором их безопасного и ответственного использования.