论文


评分体系训练模型与输出内容评分机制:

一种减少幻觉与提升可控性的全新大模型训练范式

A Scoring-System-Based Training Paradigm for Reducing Hallucination and Enhancing Controllability in Large Language Models


作者:William

摘要

大语言模型(LLM)在生成式任务中展现出强大能力,但幻觉(hallucination)与输出不可控性仍是阻碍其广泛可信应用的关键问题。本文提出一种评分体系训练模型(Scoring-System-Trained Model, SSTM / SSMT):在训练与推理全过程中对每对输入—输出(IO pair)进行多维评分,并将评分嵌入奖励学习(reward)与任务集合加权策略中,同时在前端向用户展示评分与证据以支持筛选与阈值控制。我们设计了混合评分器(自动判别+人工校准+证据验证)、奖励融合器、任务集合加权平均与输出阶段的局部/全局评分与置信阈值机制。仿真实验与消融分析表明:SSMT 能显著降低幻觉率、提升事实性与用户采纳率,并为智能体提供任务级别的质量感知与控制能力。最后讨论工程化实现、风险与未来研究方向。

关键词: 大语言模型;评分体系;幻觉;奖励学习;可控生成;智能体


1 引言

大语言模型(如 GPT、Claude、Gemini 等)依托大规模语料训练,具备强大的自然语言生成能力。然而,它们仍面临两个关键问题:

目前主流的对齐方法(如 RLHF,Reinforcement Learning from Human Feedback)虽能在一定程度上引导模型输出更符合人类偏好,但无法有效度量每次输出的实际质量,也无法针对任务整体建立评分体系。为此,本文提出一种新的训练与输出机制:评分体系训练模型(Scoring-System-Trained Model, SSTM / SSMT)

该体系的核心思想是:

“让模型在学习与生成的全过程中理解并量化‘质量’。”

通过引入输入输出配对评分、加权平均奖励机制和用户可视化评分反馈,SSMT 在训练阶段自我约束输出质量,在应用阶段提供可筛选、可控的多层次质量指标,从而显著降低幻觉并提升用户对输出的信任与可操作性。

本文具体贡献如下:

  1. 提出将多维输入—输出评分显式嵌入训练奖励的系统化框架(SSMT);

  2. 设计混合评分器(自动+人工校准+证据验证)与可校准的评分输出策略;

  3. 提出任务集合加权平均与输出阶段局部/全局评分及置信度阈值机制,支持用户在前端做出采纳/弃用决策;

  4. 在多任务仿真实验中展示方法在幻觉率、事实性与用户采纳方面的提升,并给出消融分析与工程化建议。


2 背景与相关工作(简要)

2.1 幻觉、可控性与现有缓解手段

LLM 幻觉问题通常源于训练数据噪声、语言建模目标(最大似然)引导生成高流畅性但不保证事实性的文本、以及缺乏实时证据约束。常见缓解手段包括检索增强生成(RAG)、后处理过滤、以及 RLHF 等对齐方法。尽管这些方法能带来改进,但它们通常要么成本高(大量人工反馈),要么是离线处理,难以提供细粒度、可交互的质量评估与控制。

2.2 奖励建模与自动评分

RLHF 通过学习人类首选项建立奖励模型,但该奖励往往是整体偏好而非逐条质量打分。自动评分指标(BLEU、ROUGE、BERTScore、QA-based metrics 等)提供可扩展的评价手段,但在事实性、逻辑连贯性与可验证性方面存在短板。近年来有工作尝试将 QA 验证、证据检索与评分相结合以评估事实性,但尚未将其系统地嵌入训练—推理闭环并面向用户展示。

2.3 可控生成与拒绝策略

可控生成研究侧重在生成条件上(内容风格、情感、长度等)或在输出后设置置信度阈值拒绝不可靠输出。SSMT 将这些想法进一步系统化:在训练中加入细粒度评分与惩罚,在任务集合层给予全局把控,并在前端提供局部/全局评分与置信度阈值供用户操作。


3 SSMT:方法体系与系统设计

3.1 总体架构(系统组成)

SSMT 系统由以下四个核心模块组成(图1所示):

系统流程(示意):

图1:SSMT 系统流程结构图

在训练阶段,评分器用于生成训练奖励并周期性用人工标注进行再训练与校准;在推理阶段,评分器对候选输出做实时评估,奖励融合器可在在线学习场景中用于策略微调,而前端给用户提供即时的评分与证据链视图。

3.2 多维评分设计(训练侧)

评分器 Sψ(x,y) 输出向量:

(1)s=[sfact,srel,slang,ssafety,sverify,]

定义说明:

评分器采用混合结构:

  1. 自动子评分器:基于检索增强的判别/回归模型(embedding相似度、QA一致性检测、语言模型困惑度等快速特征)为大批量输出提供初始评分。

  2. 人工/专家审查层:对关键样本或评分器不确定的输出进行人工标注,作为校准与再训练数据。

  3. 证据链模块:针对事实性与可验证性维度执行检索(document retriever)并评估证据强度与引用准确性。

  4. 安全检测器:独立模型预测有害/偏见/敏感内容风险并纳入安全维度评分。

评分器的输出需进行概率校准(如温度缩放)以保证分数的可解释性与置信度一致性。

3.3 奖励函数设计(训练侧)

将多维评分映射为训练奖励 (r)。通用形式:

r=fagg(s)=k=1Kαkgk(sk)

示例:事实性阈值惩罚

(2)gfact(sfact)={sfact,sfactτβ(sfactτ),sfact<τ

其中 (τ) 为阈值,(β<0) 引入负奖励以惩罚低事实性输出。整体训练损失可写为:

(3)L=Lbaseλr

(Lbase) 为原始损失(交叉熵或PPO损失),λ 控制评分对更新的影响强度。训练流程可采用监督微调 + PPO 的混合策略,利用评分器生成的大量自动标签扩大训练规模,同时用人工标注进行校准以防止评分器偏差放大。

3.4 任务集合加权平均(集合级评价与控制)

定义任务集合 (T=(xi,yi)i=1N)。每个样本得到评分向量 (si) 或降维后的标量评分 (Si)。集合级得分定义为加权平均:

(4)ST=i=1NwiSii=1Nwi

集合加权机制允许系统在整体层面进行资源分配(例如对低分任务自动调用更昂贵的证据核验流程)并支持用户设置任务级“可接受性阈值”。

3.5 前端展示与阈值控制(推理侧)

为实现透明与可控,前端应展示丰富但易理解的评分信息与交互控件:

界面示例(ASCII):

图2:评分可视化与筛选界面示意


4 输出阶段评分体系(Output-phase scoring system)

在推理(推断)阶段,模型不仅需要生成文本答案,还要同时输出评分信息,以便用户即时评估与筛选生成结果。我们将输出阶段评分体系结构化为三个要素:局部评分(Local Score)、全局评分(Global Score)与置信度阈值(Confidence Threshold)。

4.1 局部评分(Local Score)

局部评分针对 子输出单元(例如段落、回答的每一个陈述、推理步骤或生成的每个候选答案)进行独立评估。目的在于:

局部评分可以基于相同的多维指标体系(事实性、相关性、流畅度、可验证性、安全性),但以更细粒度的输入(子句、断言)为对象。对于链式推理(chain-of-thought)场景,局部评分有助于定位出错步骤并进行局部重推或增强证据检索。

4.2 全局评分(Global Score)

全局评分对整条输出(例如完整答案或生成的段落集合)进行综合评价,通常为局部评分的加权聚合或直接由评分器对合并文本进行判断得到。全局评分用于:

形式上,全局评分可定义为:

(5)Sglobal=jγjslocal,jjγj

其中 γj 为局部单元的重要性权重(例如首句或结论句权重更高)。

4.3 置信度阈值(Confidence Threshold)与用户控制

置信度阈值允许用户针对局部或全局评分设置最低接受标准,例如只显示全局评分 ≥ 0.8 的输出。系统应提供默认建议阈值(基于历史数据与评分校准)并允许用户个性化调整。阈值机制可与自动化策略结合使用:

前端应显示置信度分布(如直方图或箱线图),并提供阈值滑条、阈值敏感性预览(显示在不同阈值下会被过滤掉的输出数量)等交互控件,帮助用户在质量与覆盖面间做权衡。


5 实验设计与评估

5.1 任务与数据集选择

为验证 SSMT 的有效性,建议在以下任务与数据集上进行评估:

5.2 对比基线

5.3 评价指标

5.4 示例/仿真结果(说明性)

(下列为仿真/示例数据用于论文说明;真实效果需在线 A/B 测试验证)

方法幻觉率↓Avg s_fact↑采纳率↑校准(Spearman)↑
RLHF0.180.720.650.61
RLHF+Post0.140.780.690.73
SSMT0.110.830.770.84

消融实验要点


6 工程化实现与部署建议


7 风险、伦理与限制


8 结论与未来工作

本文提出并系统化了 评分体系训练模型(SSMT / SSMT),通过在训练与推理阶段对每对输入—输出进行多维评分并将评分嵌入训练奖励与任务集合加权策略中,建立了一个从模型自评到用户可视化筛选的闭环。工作成果表明:该范式在降低幻觉率、提升事实性与增强输出可控性方面具有显著潜力,并为智能体系统提供任务级别的质量感知与自动化控制能力。

未来工作方向包括:


参考文献

  1. Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. NeurIPS.

  2. Stiennon, N., et al. (2020). Learning to summarize with human feedback. NeurIPS.

  3. Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155.

  4. Zhang, T., et al. (2021). Evaluating factual consistency in generation via QA-based metrics. ACL.

  5. Ribeiro, M. T., Wu, T., Guestrin, C., & Singh, S. (2020). Beyond accuracy: Behavioral testing of NLP models with CheckList. ACL.