基于大模型外部评价体系框架介绍金工专题报告中邮证券202506302

| 1 次浏览

AI 摘要

【核心观点】 本报告构建了一个专注于逻辑推理的金融问答能力评价基准,包含188道高质量题目,并通过思维链提示(CoT)等方法评估了DeepSeek、混元、Qwen、GLM等主流大模型的金融问答能力。结果显示,思维链提示对所有模型的准确率均有显著提升(最高超过15%),但模型在处理复杂问题和概念相近题目时仍有较大提升空间。 【关键要点】 • 构建了专注于逻辑推理的金融问答能力评价基准,包含188道高质量题目 • 通过零样本提示、思维链提示、少样本提示和组合策略四种场景进行评测 • 思维链提示(CoT)对所有模型准确率提升最显著,最高超过15% • 模型在复杂问题和概念相近题目上仍存在理解偏差和逻辑陷阱 • 对比了FinanceBench、LiveCodeBench、AIME等现有金融能力评测基准 【风险提示】 ⚠ 历史数据可能存在失效风险 ⚠ 大模型存在'幻觉'现象与随机性 ⚠ 模型错误可能源于逻辑陷阱和概念混淆 ⚠ 评测结果基于特定提示策略,可能影响实际应用表现