机械之心报道
编纂 :Panda
前些天,实锤有不少用户报怨 GPT-4 变笨了,钻研但事实变患上有多笨呢?
克日,实锤来自斯坦福 、钻研UC Berkeley 的实锤一篇 arXiv 预印本论文给出了对于这一下场的定量试验服从并宣告了相关评估以及照应数据 。
在论文宣告不久,钻研这篇钻研就引起了巨匠普遍的实锤关注与品评辩说 ,良多网友都认同论文论述的钻研服从。
尽管,实锤任何事物都有两面性。钻研也有网友并不认同论文论断 ,实锤宣告了一篇质疑文章以为这篇论文的钻研服从过于重大化了 ,「尽管钻研服从很幽默 ,实锤但有些措施值患上怀疑 。钻研」
质疑文章链接 :
https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time
那接下来,咱们来看斯坦福、UC Berkeley 的这篇论文发现了甚么。
论文链接:
https://arxiv.org/pdf/2307.09009.pdf
名目数据:
https://github.com/lchen001/LLMDrift
详细而言 ,经由四个使命钻研过 GPT-3.5 以及 GPT-4 的 2023 年三月版以及六月版的生乐成果后 ,钻研者发现这两个 LLM 确着实一些目的上变患上更差了,特意是 GPT-4 求解数学下场的能耐,可能说是雪崩式着落 —— 三月版 97.6% 的精确度到六月只剩 2.4%。钻研者还预料了这些变更的原因。
图源:推特 @svpino
GPT-3.5 以及 GPT-4 等大型语言模子(LLM)正被普遍运用 。随着光阴推移 ,GPT-4 这样的 LLM 可能凭证用户的数据以及反映以及妄想的变更而更新。可是,咱们当初仍不清晰 GPT-3.5 以及 GPT-4 的更新方式 ,也不清晰其更新方式会对于这些 LLM 的行动发生奈何样的影响 。
这些未知让咱们难以坚贞地将 LLM 整合进更大的使命流程中