Тестирование ИИ на этику: GPT-5 и GPT-OSS продемонстрировали лучшие результаты в EQ-Bench, а DeepSeek-R1 не справился с проверкой на здравый смысл
Последние тесты EQ-Bench показали, что искусственный интеллект продолжает развиваться, но все еще сталкивается с этическими вызовами. В то время как GPT-5 и открытая модель GPT-OSS показали впечатляющие результаты в области критического мышления, другие, как DeepSeek-R1, показали слабые места.
EQ-Bench: новый взгляд на этические аспекты ИИ
EQ-Bench – это комплексная система тестирования, разработанная для оценки этических суждений и здравого смысла у моделей искусственного интеллекта. Этот бенчмарк призван выявить, насколько хорошо ИИ может справляться с задачами, требующими понимания человеческих ценностей, моральных дилемм и логических рассуждений в повседневных ситуациях. Результаты тестов, опубликованные исследователями, проливают свет на текущее состояние разработок в области "этичного" ИИ.
Лидеры тестирования: GPT-5 и GPT-OSS
Наиболее высокие показатели в EQ-Bench продемонстрировали две модели: GPT-5 от OpenAI и открытая модель GPT-OSS. Они показали способность к более глубокому пониманию контекста, следованию этическим принципам и принятию взвешенных решений в предложенных сценариях. Это свидетельствует о прогрессе в разработке ИИ, направленном на создание систем, которые не только функциональны, но и безопасны для общества.
Неожиданный провал: DeepSeek-R1
В то же время, модель DeepSeek-R1, несмотря на свои технологические достижения, показала неудовлетворительные результаты в тестах на здравый смысл. В определенных ситуациях ИИ продемонстрировал отсутствие базового понимания логики и причинно-следственных связей, что ставит под сомнение его пригодность для задач, требующих интуитивного или "человеческого" подхода к решению проблем.
Значение результатов
Успехи GPT-5 и GPT-OSS подчеркивают важность комплексного подхода к разработке ИИ, который включает не только наращивание вычислительной мощности и объема данных, но и глубокое изучение и внедрение этических норм. Провал DeepSeek-R1, в свою очередь, напоминает о том, что даже самые продвинутые модели могут иметь существенные пробелы в области, которую люди считают само собой разумеющейся.
EQ-Bench продолжает оставаться ценным инструментом для оценки развития ИИ, помогая разработчикам и исследователям выявлять слабые места и направлять усилия на создание более надежных, этичных и безопасных систем искусственного интеллекта.