基于大模型外部评价体系框架介绍金工专题报告中邮证券202506302
| 1 次浏览
AI 摘要
【核心观点】
本报告构建了一个专注于逻辑推理的金融问答能力评价基准,包含188道高质量题目,并通过思维链提示(CoT)等方法评估了DeepSeek、混元、Qwen、GLM等主流大模型的金融问答能力。结果显示,思维链提示对所有模型的准确率均有显著提升(最高超过15%),但模型在处理复杂问题和概念相近题目时仍有较大提升空间。
【关键要点】
• 构建了专注于逻辑推理的金融问答能力评价基准,包含188道高质量题目
• 通过零样本提示、思维链提示、少样本提示和组合策略四种场景进行评测
• 思维链提示(CoT)对所有模型准确率提升最显著,最高超过15%
• 模型在复杂问题和概念相近题目上仍存在理解偏差和逻辑陷阱
• 对比了FinanceBench、LiveCodeBench、AIME等现有金融能力评测基准
【风险提示】
⚠ 历史数据可能存在失效风险
⚠ 大模型存在'幻觉'现象与随机性
⚠ 模型错误可能源于逻辑陷阱和概念混淆
⚠ 评测结果基于特定提示策略,可能影响实际应用表现