谷歌推出基准测试检验AI:Gemini 3 Pro准确率仅69%

Reacties · 1 Uitzichten

12 月 13 日消息,据《商业内幕》今日报道,谷歌 DeepMind 本周发布了 FACTS 基准测试,用来检验 AI 在事实准确性方面到底靠不靠谱。 这一测试从四个维度评估模型能力,包括是否能凭自身知识准确回答事实问题、能否正确

   12 月 13 日消息,据《商业内幕》今日报道,谷歌 DeepMind 本周发布了 FACTS 基准测试,用来检验 AI 在事实准确性方面到底靠不靠谱。

  这一测试从四个维度评估模型能力,包括是否能凭自身知识准确回答事实问题、能否正确使用网络搜索、是否能在长文档中扎实引用信息,以及对图像内容的理解水平。在参测模型中,谷歌的 Gemini 3 Pro 表现最好,准确率为 69%,其他主流模型则明显落后。

  这一成绩对企业同样是个警钟。虽然 AI 在生成速度和语言流畅度上优势明显,但在事实可靠性方面仍然远低于人类标准,特别是在需要专业细分知识、复杂推理或严格基于原始材料的场景中。

  报道指出,谷歌希望通过明确模型出错的位置和方式,加快 AI 的改进速度。但眼下可以得出的结论非常清楚,AI 确实在进步,然而仍有大约三分之一的时间会犯错。

Reacties
会员免费服务:时刻音乐 时刻云盘 时刻工具箱 时刻标签 GitHub加速 时刻工具