与 ChatGPT 5.5 Pro 过招的一次记录

一篇详细的使用记录:作者拿一个真实的棘手问题去试 ChatGPT 5.5 Pro,过程里既有惊艳的瞬间,也有典型的翻车。

记录里的两面

这类第一人称长文的价值在于不挑结论。作者展示了模型表现出色的部分:对问题背景的快速吸收、几条人没想到的排查思路;也原样保留了翻车现场:一个编造得极其可信的技术细节,差点被当真,核对文档才发现纯属虚构。一个会读心的天才和一个面不改色的吹牛者住在同一个模型里,这是当下高端模型最真实的画像。

从个例到方法

HN 上这类帖子隔三差五就有一篇,为什么还值得看?因为厂商发布会和跑分榜都不会告诉你「翻车长什么样」,而识别翻车恰恰是用好这些工具的核心技能。从这篇和类似记录里能归纳出实用的纪律:模型给的事实性断言,凡是要据此做决定的,一律核对原始出处;它的思路可以慷慨地采纳,它的「引用」必须吝啬地相信。工具越强,这条纪律越值钱。

via: Hacker News