最近发现大量codex用户报告gpt5.5存在截断思考链导致降智情况,具体表现为reasoning token固定为516时,无法解答下面的问题:
"""
在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辨)。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多少个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖?(同时手中有圆形苹果味匹配五角星桃子味糖果,或者有圆形桃子味匹配五角星苹果味糖果都满足要求)
苹果味 桃子味 西瓜味
圆形 7 9 8
五角星形 7 6 4"""
该题目经过测试gpt-5.5 low思考强度能够回答正确;降智表现为gpt-5.5 xhigh思考强度,reasoning token=516,却回答不正确
所以请求在输出时添加reasoning token,此举可以让用户简单分辨此条回复是否存在降智。
最近发现大量codex用户报告gpt5.5存在截断思考链导致降智情况,具体表现为reasoning token固定为516时,无法解答下面的问题:
"""
在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辨)。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多少个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖?(同时手中有圆形苹果味匹配五角星桃子味糖果,或者有圆形桃子味匹配五角星苹果味糖果都满足要求)
苹果味 桃子味 西瓜味
圆形 7 9 8
五角星形 7 6 4"""
该题目经过测试gpt-5.5 low思考强度能够回答正确;降智表现为gpt-5.5 xhigh思考强度,reasoning token=516,却回答不正确
所以请求在输出时添加reasoning token,此举可以让用户简单分辨此条回复是否存在降智。