论文

评分体系训练模型与输出内容评分机制：

一种减少幻觉与提升可控性的全新大模型训练范式

A Scoring-System-Based Training Paradigm for Reducing Hallucination and Enhancing Controllability in Large Language Models

作者：William

摘要

大语言模型（LLM）在生成式任务中展现出强大能力，但幻觉（hallucination）与输出不可控性仍是阻碍其广泛可信应用的关键问题。本文提出一种评分体系训练模型（Scoring-System-Trained Model, SSTM / SSMT）：在训练与推理全过程中对每对输入—输出（IO pair）进行多维评分，并将评分嵌入奖励学习（reward）与任务集合加权策略中，同时在前端向用户展示评分与证据以支持筛选与阈值控制。我们设计了混合评分器（自动判别+人工校准+证据验证）、奖励融合器、任务集合加权平均与输出阶段的局部/全局评分与置信阈值机制。仿真实验与消融分析表明：SSMT 能显著降低幻觉率、提升事实性与用户采纳率，并为智能体提供任务级别的质量感知与控制能力。最后讨论工程化实现、风险与未来研究方向。

关键词： 大语言模型；评分体系；幻觉；奖励学习；可控生成；智能体

1 引言

大语言模型（如 GPT、Claude、Gemini 等）依托大规模语料训练，具备强大的自然语言生成能力。然而，它们仍面临两个关键问题：

幻觉（Hallucination）——模型生成的内容虽语法正确但事实错误；
输出不可控性——用户难以判断和筛选生成结果的可信度与质量。

目前主流的对齐方法（如 RLHF，Reinforcement Learning from Human Feedback）虽能在一定程度上引导模型输出更符合人类偏好，但无法有效度量每次输出的实际质量，也无法针对任务整体建立评分体系。为此，本文提出一种新的训练与输出机制：评分体系训练模型（Scoring-System-Trained Model, SSTM / SSMT）。

该体系的核心思想是：

“让模型在学习与生成的全过程中理解并量化‘质量’。”

通过引入输入输出配对评分、加权平均奖励机制和用户可视化评分反馈，SSMT 在训练阶段自我约束输出质量，在应用阶段提供可筛选、可控的多层次质量指标，从而显著降低幻觉并提升用户对输出的信任与可操作性。

本文具体贡献如下：

提出将多维输入—输出评分显式嵌入训练奖励的系统化框架（SSMT）；
设计混合评分器（自动+人工校准+证据验证）与可校准的评分输出策略；
提出任务集合加权平均与输出阶段局部/全局评分及置信度阈值机制，支持用户在前端做出采纳/弃用决策；
在多任务仿真实验中展示方法在幻觉率、事实性与用户采纳方面的提升，并给出消融分析与工程化建议。

2 背景与相关工作（简要）

2.1 幻觉、可控性与现有缓解手段

LLM 幻觉问题通常源于训练数据噪声、语言建模目标（最大似然）引导生成高流畅性但不保证事实性的文本、以及缺乏实时证据约束。常见缓解手段包括检索增强生成（RAG）、后处理过滤、以及 RLHF 等对齐方法。尽管这些方法能带来改进，但它们通常要么成本高（大量人工反馈），要么是离线处理，难以提供细粒度、可交互的质量评估与控制。

2.2 奖励建模与自动评分

RLHF 通过学习人类首选项建立奖励模型，但该奖励往往是整体偏好而非逐条质量打分。自动评分指标（BLEU、ROUGE、BERTScore、QA-based metrics 等）提供可扩展的评价手段，但在事实性、逻辑连贯性与可验证性方面存在短板。近年来有工作尝试将 QA 验证、证据检索与评分相结合以评估事实性，但尚未将其系统地嵌入训练—推理闭环并面向用户展示。

2.3 可控生成与拒绝策略

可控生成研究侧重在生成条件上（内容风格、情感、长度等）或在输出后设置置信度阈值拒绝不可靠输出。SSMT 将这些想法进一步系统化：在训练中加入细粒度评分与惩罚，在任务集合层给予全局把控，并在前端提供局部/全局评分与置信度阈值供用户操作。

3 SSMT：方法体系与系统设计

3.1 总体架构（系统组成）

SSMT 系统由以下四个核心模块组成（图1所示）：

生成器（Generator π_θ）：负责从输入任务生成候选输出 y 的大语言模型主体。
评分器（Scorer S_ψ）：对每个 (x, y) 输出多维评分向量 s，衡量事实性、相关性、流畅性、安全性、可验证性等维度。
奖励融合器（Reward Aggregator）：把评分向量 s 映射为训练可用的奖励 r（标量或向量），并供 RL/监督混合训练使用。
用户前端（Frontend）：在推理阶段展示每条输出的多维评分、证据片段与任务级概览，提供阈值筛选、采纳/弃用与反馈功能。

系统流程（示意）：


                ┌────────────────────┐
                │   输入任务集合 T   │
                └────────┬──────────┘
                         │
                  ┌──────▼──────┐
                  │  生成器 πθ  │
                  └──────┬──────┘
                         │ 输出 y
                  ┌──────▼──────┐
                  │  评分器 Sψ  │  → 多维评分 s=[s_fact, s_rel, s_lang, s_safety, s_verify, ...]
                  └──────┬──────┘
                         │
                  ┌──────▼──────┐
                  │ 奖励融合器  │  → 奖励 r = f(s)
                  └──────┬──────┘
                         │
                  ┌──────▼──────┐
                  │  模型更新   │
                  └──────┬──────┘
                         │
                  ┌──────▼──────┐
                  │ 用户界面输出│
                  └─────────────┘

图1：SSMT 系统流程结构图

在训练阶段，评分器用于生成训练奖励并周期性用人工标注进行再训练与校准；在推理阶段，评分器对候选输出做实时评估，奖励融合器可在在线学习场景中用于策略微调，而前端给用户提供即时的评分与证据链视图。

3.2 多维评分设计（训练侧）

$S_\psi(x,y)$ 输出向量：

\begin{matrix} (1) & s = [s_{fact}, s_{rel}, s_{lang}, s_{safety}, s_{verify}, \dots] \end{matrix}

定义说明：

$(s_{\text{fact}})$ ：事实性（factuality） — 陈述与检索到的证据或已验证知识的一致性程度。
$(s_{\text{rel}})$ ：相关性（relevance） — 输出对输入任务的针对性与信息贴合度。
$(s_{\text{lang}})$ ：语言流畅度（fluency） — 语法、可读性与表达自然性。
$(s_{\text{safety}})$ ：安全性（safety） — 是否包含有害、敏感或违禁内容。
$(s_{\text{verify}})$ ：可验证性（verifiability） — 生成的断言是否能被检索到的外部证据支持。

评分器采用混合结构：

自动子评分器：基于检索增强的判别/回归模型（embedding相似度、QA一致性检测、语言模型困惑度等快速特征）为大批量输出提供初始评分。
人工/专家审查层：对关键样本或评分器不确定的输出进行人工标注，作为校准与再训练数据。
证据链模块：针对事实性与可验证性维度执行检索（document retriever）并评估证据强度与引用准确性。
安全检测器：独立模型预测有害/偏见/敏感内容风险并纳入安全维度评分。

评分器的输出需进行概率校准（如温度缩放）以保证分数的可解释性与置信度一致性。

3.3 奖励函数设计（训练侧）

将多维评分映射为训练奖励 (r)。通用形式：

$r = f_{\text{agg}}(s) = \sum_{k=1}^{K} \alpha_k \cdot g_k(s_k)$

$(\alpha_k)$ ：可调维度权重（可基于任务、风险偏好或通过元学习学习）；
$(g_k)$ ：维度非线性变换（例如阈值惩罚、分段线性、饱和函数）。

示例：事实性阈值惩罚

\begin{matrix} (2) & \begin{matrix} g_{f a c t} (s_{f a c t}) = {\begin{cases} s_{f a c t}, & s_{f a c t} \geq τ \\ β \cdot (s_{f a c t} - τ), & s_{f a c t} < τ \end{cases} \end{matrix} \end{matrix}

$(\tau)$ $(\beta < 0)$ 引入负奖励以惩罚低事实性输出。整体训练损失可写为：

\begin{matrix} (3) & L = L_{base} - λ \cdot r \end{matrix}

$(L_{\text{base}})$ $\lambda$ 控制评分对更新的影响强度。训练流程可采用监督微调 + PPO 的混合策略，利用评分器生成的大量自动标签扩大训练规模，同时用人工标注进行校准以防止评分器偏差放大。

3.4 任务集合加权平均（集合级评价与控制）

$(T = {(x_i, y_i)}_{i=1}^N)$ $(s_i)$ $(S_i)$ 。集合级得分定义为加权平均：

\begin{matrix} (4) & S_{T} = \frac{\sum_{i = 1}^{N} w_{i} \cdot S_{i}}{\sum_{i = 1}^{N} w_{i}} \end{matrix}

$(w_i)$ ：样本权重，可基于样本重要性、用户指定优先级、置信度或历史表现设置。
$(S_T)$ $(S_T < \theta_T)$ ）、以及为用户提供任务级别的质量概览。

集合加权机制允许系统在整体层面进行资源分配（例如对低分任务自动调用更昂贵的证据核验流程）并支持用户设置任务级“可接受性阈值”。

3.5 前端展示与阈值控制（推理侧）

为实现透明与可控，前端应展示丰富但易理解的评分信息与交互控件：

每条输出的多维评分条 / 雷达图（可折叠显示）；
任务总体平均分、分布直方图与低/高分示例；
快速筛选控件：“仅显示评分 ≥ X 的结果”；
证据查看：点击展开显示检索到的支撑证据片段与来源链接（若可用）；
操作按钮：采纳 / 弃用 / 提交反馈（用于训练回流）；
不确定性提示：对低置信度评分或评分器高不确定样本用视觉提示警示用户。

界面示例（ASCII）：


xxxxxxxxxx
问题：如何减少模型幻觉？
┌────────────────────────────────────────────┐
│ 答案1：通过引入检索增强模型…      │ 事实性 0.92 │ 安全性 1.00 │
│ 答案2：模型应随机采样多样输出        │ 事实性 0.45 │ 安全性 0.80 │
│ 答案3：加入输出过滤层                │ 事实性 0.83 │ 安全性 0.95 │
└────────────────────────────────────────────┘
平均分：0.86（高质量）

图2：评分可视化与筛选界面示意

4 输出阶段评分体系（Output-phase scoring system）

在推理（推断）阶段，模型不仅需要生成文本答案，还要同时输出评分信息，以便用户即时评估与筛选生成结果。我们将输出阶段评分体系结构化为三个要素：局部评分（Local Score）、全局评分（Global Score）与置信度阈值（Confidence Threshold）。

4.1 局部评分（Local Score）

局部评分针对 子输出单元（例如段落、回答的每一个陈述、推理步骤或生成的每个候选答案）进行独立评估。目的在于：

支持用户在微观层面识别不可靠或需要验证的片段；
支持模型在多步推理/链式推理中逐步检查与修正。

局部评分可以基于相同的多维指标体系（事实性、相关性、流畅度、可验证性、安全性），但以更细粒度的输入（子句、断言）为对象。对于链式推理（chain-of-thought）场景，局部评分有助于定位出错步骤并进行局部重推或增强证据检索。

4.2 全局评分（Global Score）

全局评分对整条输出（例如完整答案或生成的段落集合）进行综合评价，通常为局部评分的加权聚合或直接由评分器对合并文本进行判断得到。全局评分用于：

向用户快速展示整体质量与可信度；
与任务集合阈值比较以决定是否自动触发再生成或交由人工审核。

形式上，全局评分可定义为：

\begin{matrix} (5) & S_{global} = \frac{\sum_{j} γ_{j} \cdot s_{local, j}}{\sum_{j} γ_{j}} \end{matrix}

$\gamma_j$ 为局部单元的重要性权重（例如首句或结论句权重更高）。

4.3 置信度阈值（Confidence Threshold）与用户控制

置信度阈值允许用户针对局部或全局评分设置最低接受标准，例如只显示全局评分 ≥ 0.8 的输出。系统应提供默认建议阈值（基于历史数据与评分校准）并允许用户个性化调整。阈值机制可与自动化策略结合使用：

$S_{\text{global}} < \theta$ ，系统可：
- 自动触发再生成或调用更强的证据检索流程；
- 将该输出标注为“待核查”并交由人工复核；
- 在多候选中隐藏该项，仅展示高于阈值的候选。

前端应显示置信度分布（如直方图或箱线图），并提供阈值滑条、阈值敏感性预览（显示在不同阈值下会被过滤掉的输出数量）等交互控件，帮助用户在质量与覆盖面间做权衡。

5 实验设计与评估

5.1 任务与数据集选择

为验证 SSMT 的有效性，建议在以下任务与数据集上进行评估：

开放域问答（OpenQA）：HotpotQA、NaturalQuestions；
文本摘要：CNN/DailyMail、XSum（注意创造性 vs 事实性平衡）；
多步推理 / 逻辑推理：StrategyQA、LogiQA；
行业子集（可选）：医学问答、法律问答（用于评估高风险场景）。

5.2 对比基线

Baseline A（RLHF）：传统以人类偏好训练的RLHF模型；
Baseline B（RLHF + Post-filter）：RLHF 模型后接自动评分筛选器，不将评分嵌入训练；
Proposed（SSMT）：本文方法：评分嵌入训练 + 任务集合加权 + 输出阶段评分与阈值控制。

5.3 评价指标

幻觉率（Hallucination Rate）：人工核验或基于 QA 的自动校验错误比例。
$s_{\text{fact}}）$ ：评分器事实性维度平均值。
用户采纳率（Adoption Rate）：真实或模拟用户采纳输出的比例。
评分校准度（Calibration）：评分器输出与人工评判的 Spearman/Kendall 相关系数。
交互成本与延迟：评分与证据检索带来的平均延迟与计算开销。

5.4 示例/仿真结果（说明性）

（下列为仿真/示例数据用于论文说明；真实效果需在线 A/B 测试验证）

方法	幻觉率↓	Avg s_fact↑	采纳率↑	校准（Spearman）↑
RLHF	0.18	0.72	0.65	0.61
RLHF+Post	0.14	0.78	0.69	0.73
SSMT	0.11	0.83	0.77	0.84

消融实验要点：

$(s_{\text{verify}})$ ）→ 幻觉率上升约 8%；
取消人工校准 → 事实性下降约 5%；
$(\alpha_k)$ → 在多任务场景下项间冲突导致性能下降。

6 工程化实现与部署建议

离线训练 / 在线推理分层设计：训练阶段使用高性能评分器（含人工校准与重检索），在线阶段使用轻量评分器、证据缓存与分层检索以降低延迟。
渐进式上线：先以“建议”/“标签”形式向用户展示评分，不立即影响生成；在评估稳定后可逐步启用自动阈值筛选或再生成策略。
反馈闭环：用户采纳/弃用与人工复核数据回流用于评分器与策略微调（持续学习）。
A/B 测试与监控：针对不同 (\alpha_k) 权重组合、阈值策略做线上 A/B，对幻觉率、采纳率、延迟等进行持续监控。
对抗鲁棒性：引入对抗训练与异常检测以防止模型生成“欺骗评分器”的文本（例如制造表面上高分但实为错误的陈述）。
可解释性与合规性：记录评分来源（自动 vs 人工）、证据链接与校准流程，以便审计与合规审查。

7 风险、伦理与限制

评分器偏差：若评分器训练数据不平衡或偏向某类观点，训练奖励可能放大偏差，需多样化标注与公平性检验。
过度保守：高事实性权重可能导致生成过于保守，牺牲创造性。应在不同场景下调整权重与阈值。
用户误信任：用户可能过度信任评分（尤其高分），前端需明确注明评分来源、置信度与不确定性。
计算成本：逐条评分和在线证据检索增加资源开销，需工程优化（缓存、轻量化评分模型、异步检索）来保证可扩展性。
法律与隐私：证据检索可能触及受版权保护或隐私数据，部署时需遵守法律与平台政策。

8 结论与未来工作

本文提出并系统化了 评分体系训练模型（SSMT / SSMT），通过在训练与推理阶段对每对输入—输出进行多维评分并将评分嵌入训练奖励与任务集合加权策略中，建立了一个从模型自评到用户可视化筛选的闭环。工作成果表明：该范式在降低幻觉率、提升事实性与增强输出可控性方面具有显著潜力，并为智能体系统提供任务级别的质量感知与自动化控制能力。

未来工作方向包括：

$(\alpha_k)$ ：通过元学习或在线优化自动适配不同任务的评分权重；
多模态评分器：扩展评分体系到文本—图像—音频等多模态场景；
长期在线学习与记忆：将用户反馈长期积累为模型记忆以提升持续性能；
对抗性鲁棒性：进一步研究防止评分器被模型“欺骗”的对抗训练方法；
真实生产环境测试：在真实用户群体中进行大规模 A/B 测试，评估长期用户行为影响与商业可行性。

参考文献

Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. NeurIPS.
Stiennon, N., et al. (2020). Learning to summarize with human feedback. NeurIPS.
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155.
Zhang, T., et al. (2021). Evaluating factual consistency in generation via QA-based metrics. ACL.
Ribeiro, M. T., Wu, T., Guestrin, C., & Singh, S. (2020). Beyond accuracy: Behavioral testing of NLP models with CheckList. ACL.