看穿大模型的“小心思”:阿里千问开源可解释性模块 Qwen-Scope

懂副业 百科资讯 2

4 月 30 日消息,今日,阿里千问宣布推出 Qwen-Scope—— 基于 Qwen3 系列和 Qwen3.5 系列模型训练所得的可解释性模块。

据介绍,阿里千问在 Qwen 隐藏层插入稀疏自编码器(SAE)并加以训练,通过施加稀疏性约束,自动提取出高度解耦、低冗余且更具可解释性的隐藏空间特征。Qwen-Scope 不仅可以用于分析 Qwen 模型行为的内在机制,也在模型优化上有着巨大潜力,应用场景包括推理结果定向控制、数据分类与合成、模型训练与优化、评估样本分布分析与对比等。

附官方详细介绍如下:

Qwen-Scope 核心亮点包括:

  • 推理:无需显示给出自然语言指令,实现推理结果定向控制;

  • 数据:仅需少量种子数据便可收集用于数据分类的特征,显著降低数据依赖;同时可以使用未激活特征信息定向构造数据,补足长尾能力;

  • 训练:通过分析语言混用和重复生成等低错问题,定位异常激活特征,在监督微调和强化学习阶段辅助模型训练,降低此类回复出现频率;

  • 评估:计算不同样本间或不同评测集间特征激活模式,联合判断评测冗余程度,指导挑选评测集、提升评测能力覆盖度、降低评测成本。

整体概览

本次 Qwen-Scope 开源的权重涉及 7 个大模型,覆盖 Qwen3 及 Qwen3.5 系列的稠密模型和混合专家模型,共有 14 组稀疏自编码器权重。为了使得稀疏自编码器特征分布广、语义含义强、训练过程稳定可靠,我们从对应模型的预训练数据采样了 0.5B 词元数据规模进行训练。

实践

大家可以借助 Qwen-Scope 对 Qwen 系列模型进行分析和开发,下面我们会在推理、评测、数据、训练四个角度分别展示 Qwen-Scope 的用途,详细内容可以参考技术报告。

推理:模型行为的分析与可控的结果

通过控制特征的激活,实现对推理结果的定向控制,如语言、实体、风格的定向修改,而无需显式的给出自然语言指令。

数据:分类与合成

Qwen-Scope 对模型表示做了各个方向的解析和归纳,所以它可以用来作为数据处理工具,在数据分类和数据合成上均可提供数据处理思路。在毒性数据分类场景下,我们可以基于少量种子数据,分析毒性样本在 SAE 特征上的激活模式,并筛选出与毒性高度相关的特征用于分类。整个过程无需额外训练分类器,显著降低了标注和训练成本;同时,即使只依赖少量启动数据,也能获得较高的分类准确率,大幅降低了对大规模标注数据的依赖。

在数据合成场景中,Qwen-Scope 还可以帮助识别已有数据中激活次数少甚至未激活的毒性文本特征,并定向合成补充样本。相比传统合成数据方案,这种方式具有更强的可控性和针对性,能够更高效地覆盖长尾能力,使训练数据能效比提升至约 15 倍。

训练:定向优化

Qwen-Scope 的特征也可以应用在训练阶段。例如,当我们发现模型存在语言混用现象(比如英文回复中异常出现中文词)时,我们可以定位到异常激活特征,并在监督微调阶段,针对异常激活特征设计损失函数,引导模型降低 badcase 出现的频率。

再比如重复生成问题,这是一种低频现象,很难在强化学习阶段被采样到。为此,我们可以通过控制相应特征从而提高采样出异常回复的频率,增加学习奖励密度,以方便模型在强化学习阶段充分优化这一问题。

评估:测试样本的缺失与冗余

评估是大模型开发的核心之一,如今待评估能力、维度越来越多,样本规模越来越大,哪些评测集存在冗余,哪些领域覆盖不足是一个关键问题。通过 Qwen-Scope,我们可以对测试集的特征覆盖度进行分析以判断不同评测集之间的评测冗余程度。如下图所示,我们发现部分常用评测集在所激活特征上存在互相覆盖关系,致使部分评测集会受重复评估影响导致实用意义相比而言会更小。我们希望此类分析方法,可以方便大家挑选出覆盖度更高的、评测成本更低的测试样本和评测集。

总结

Qwen-Scope 不仅可以用于分析模型行为,更可以深入模型内部,将复杂的参数运算转化为人类可理解的概念与规律。它不仅仅能“看懂”模型,更能“改进”模型。实践证明,它可以在推理、评估、数据、训练等阶段,向我们提供模型优化思路、指导优化方向。可解释性,不仅是事后分析的工具,也可以是驱动模型进化的核心引擎之一。我们欢迎社区反馈,同时更希望可以看到大家发挥创造力,展示更多的、有趣的用法!

试用

大家可以前往 Huggingface 或魔搭体验 Qwen-Scope。

链接地址

Hugging Face:

https://huggingface.co/spaces/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921MGq3Tu

Modelscope:

https://modelscope.cn/studios/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921FZvQi4ios/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921FZvQi4

技术报告:

https://qianwen-res.oss-accelerate.aliyuncs.com/qwen-scope/Qwen_Scope.pdf