基于大模型外部评价体系框架介绍金工专题报告中邮证券202506302

【核心观点】本报告构建了一个专注于逻辑推理的金融问答能力评价基准，包含188道高质量题目，并通过思维链提示（CoT）等方法评估了DeepSeek、混元、Qwen、GLM等主流大模型的金融问答能力。结果显示，思维链提示对所有模型的准确率均有显著提升（最高超过15%），但模型在处理复杂问题和概念相近题目时仍有较大提升空间。【关键要点】 • 构建了专注于逻辑推理的金融问答能力评价基准，包含188道高质量题目 • 通过零样本提示、思维链提示、少样本提示和组合策略四种场景进行评测 • 思维链提示（CoT）对所有模型准确率提升最显著，最高超过15% • 模型在复杂问题和概念相近题目上仍存在理解偏差和逻辑陷阱 • 对比了FinanceBench、LiveCodeBench、AIME等现有金融能力评测基准【风险提示】 ⚠ 历史数据可能存在失效风险 ⚠ 大模型存在'幻觉'现象与随机性 ⚠ 模型错误可能源于逻辑陷阱和概念混淆 ⚠ 评测结果基于特定提示策略，可能影响实际应用表现

基于大模型外部评价体系框架介绍金工专题报告中邮证券202506302

AI 摘要