2026-04
Workflow
一个可执行的科研流程范式
我后来慢慢意识到,真正拖住研究的通常不是想法不够多,而是问题定义、证据组织和执行节奏没有被放进同一个系统里。对我来说,好的流程不是附属品,而是研究质量本身的一部分。
我为什么越来越在意流程
这些年我逐渐不再相信“多读论文,灵感总会自己出现”这种科研叙事。对我更有效的方式,是把研究当成一个被持续维护的系统:问题定义、文献地图、实验执行、写作结构和失败复盘,最好都能落到稳定的外部对象上,而不是只存在脑子里。
我更认可的路径是:先从现象而不是方法出发,确认哪一种失败模式值得研究;再做一张克制的文献地图,说明已有方法为什么不够;接着把要证明的内容写成主张与证据矩阵;最后再进入实现和实验。这样做的好处是,研究不容易在中途漂移成另一个问题。
我如何把它落到具体对象上
在我的习惯里,source of truth 文档负责定义当前版本的工作内容,review note 记录哪些假设已经被推翻,execution plan 把任务拆成可执行步骤,dashboard 类工具则把长期目标和短期动作连接起来。像 SelfOS 这种本地工具,对我来说不是“生产力玩具”,而是给研究流程增加外部记忆和可见反馈。
这套流程不是抽象口号,它通常会直接改变项目走向。像 AV-RISE、HEME 这类线索,如果没有把失败样本、论文主张和执行拆分写清楚,很容易在“方法很好看”和“问题其实没定义准”之间来回摇摆。流程的作用,不是让研究更机械,而是让判断更可回看。
我现在保留的几条原则
- 问题先行,不被方法名词牵着走。
- 文献服务于论证,不服务于堆砌。
- 实验服务于主张,不服务于表格数量。
- 写作尽早开始,让结构反过来约束实现。
- 所有关键决定都尽量留下可回看的痕迹。
2025-09
Paper
AV-RISE:我为什么重新理解鲁棒音视频语音表征
在鲁棒音视频语音识别这条线上,AV-RISE 对我最重要的启发不是“又做了一个多模态模型”,而是把跨模态去噪提升成了表征学习本身的问题。模型难的不是接入两个模态,而是在它们不一致时仍然知道该如何组织证据。
我真正关心的问题
这条线对我很重要,因为它把一个常被低估的问题摆到了台面上:真实场景里的音视频语音理解,难点并不只是把两个模态拼接起来,而是在它们不可靠、不同步、受污染甚至彼此误导时,模型究竟该相信什么。
很多系统把多模态融合理解成天然增益,好像只要视觉和音频都接进来,结果就会更稳。但在真实环境里,噪声、遮挡、姿态变化、口型模糊和模态间微小但关键的不一致,都会让“融合”本身变成额外负担。对 AVSR 来说,问题从来不只是模态够不够多,而是跨模态证据会不会互相污染。真正让我在意的,是那些复杂噪声、模态不一致和弱信号修复场景,因为系统一旦在这里判断失真,后面再强的融合也补不回来。
AV-RISE 这篇工作给了我什么判断
对我而言,AV-RISE 的价值不只是一个方法结果,而是一种看问题的方式:去噪不该被看成简单前处理,而应被视为表征学习本身的一部分。所谓层级式跨模态去噪,本质上是在不同层级重新组织音视频之间的互补关系,让模型不仅看到共同信息,还能从不一致中分辨哪些是噪声,哪些反而是补充线索。这种“先重组证据,再做判断”的思路,比单纯堆更强的融合层更重要。
后来我做多模态情感任务时,先问的就不再是“能不能融合”,而是这条样本里每个模态到底提供了什么证据。因为情感场景同样存在模态冲突、信号退化和细粒度证据缺失的问题。鲁棒语音表征和鲁棒情感理解,在我这里并不是完全独立的两条线,而是同一类证据重组问题在不同任务上的展开。
它对我后续工作的影响
- 我更少把“更强融合”当成默认答案。
- 我会更主动追问:模型在证据不完整时是否还能做出稳健判断。
- 后面不管做情感理解还是 Agent,我都更在意证据退化时的修复机制。
2026-03
Agent
一个好的情感 Agent,应该具备什么能力
我想做的情感 Agent,不是会说漂亮安慰话的聊天人格,而是一个能感知用户状态、会校准自己、敢在不确定时先澄清、也知道边界在哪里的系统。这更接近一种可学习的 affective skill,而不是一个“陪聊人格壳”。
我为什么对“情感 Agent”这个词保持克制
我对“情感 Agent”一直比较警惕,因为它很容易被理解成一个会说安慰话、会模仿共情语气的对话系统。如果只是这样,它并不值得单独成为研究对象。对我来说,更值得研究的是:当系统面对不确定、模糊和长期互动时,它能否形成稳定的情感判断与介入策略。
所以我更倾向于把它理解为一组可评估、可拆解的能力,而不是一个完整的人格设定。像 CARES 这类方法框架给我的最大启发也是这一点:情感支持的核心不是把回复表面写得更像人,而是把它建模成一个长期的 intervention policy,也就是在部分观测状态下决定“下一步该如何介入”。
我目前认为它至少需要四层能力
如果只说最重要的几件事,我更在意它能不能先看出状态变化,能不能知道自己不确定,以及能不能在开口之前先确认。换成更具体的研究结构,我现在会把它拆成 belief tracker、clarification gate、multi-act stance planner,以及 versioned skill evolution 这四层。前者负责估计 emotion、need、preference、memory、risk、conflict 和 uncertainty,后者决定是 reflect、clarify、validate、reframe、suggest,还是 boundary / abstain。
很多系统的问题不是不会共情,而是太快进入了错误理解,然后在错误前提上越聊越深。相比之下,一个更成熟的 Agent 应该在不确定时先确认,再决定是否介入以及介入到什么程度。这种 clarifying behavior 不只是安全策略,也是一种质量策略。比如当用户表达模糊情绪时,先问一句确认问题,往往比直接安慰更有价值。
我暂时不想把它做成什么
- 不是泛化很宽的陪伴型外壳。
- 不是临床心理支持系统,也不应越过高风险边界。
- 当前更关注感知、校准、澄清与干预链路,而不是开放式人格陪伴。
2026-04
Models
情感模型之后:我更关心冲突、不确定与修复
如果只看近两年这条线的发展,Emotion-LLaMA、AffectGPT、Emotion-LLaMAv2 / MMEVerse 已经把“更强的通用基线”和“更完整的 benchmark”往前推了很多。我现在更关心的,不是继续把模型做大,而是它在遇到冲突和不确定时,能不能知道自己该停、该修,以及该怎么修。
为什么我不再只盯着“更大”
在多模态情感理解里,随着 AffectGPT 这类工作出现,一个明显变化是:我们已经拥有了相当强的通用基线。也就是说,问题不再只是“怎么把模型做大、把融合做强、把训练数据做多”。平均性能继续提升当然有价值,但它并不能完全解释那些最关键、最顽固的失败样本。
按我目前的观察,很多错误并不是因为模型完全看不见证据,而是它太早形成了一个看似合理的默认答案,之后缺少足够强的机制去识别:这个样本其实还存在未解决的冲突、模糊或缺失信息。EMOE、CA-MER / MoSEAR 这类工作已经在提醒我们,冲突和不确定并不是边角问题,而是决定系统上限的结构性问题。比如文本看起来平静,但语气、表情或局部视觉线索明显往另一个方向拉,这类样本往往最能暴露系统的短板。
我现在更关心的瓶颈
所以我更在意的,不是简单追求一个更大的统一模型,而是是否存在显式的仲裁与修复机制。如果系统始终沿着单一路径完成推理,那么在高冲突样本上,它依然可能给出流畅但并不可靠的判断。对我来说,HEME / selective repair 这条思路有吸引力,正是因为它把“什么时候不该继续相信默认答案”抬成了一等问题。
这也是我后来思考 HEME 这类后续问题时一直在追问的点:一个强通用路径什么时候已经足够,什么时候应该引入额外修复;修复单元应该围绕模态、任务,还是围绕更细粒度的证据效用来组织。从研究上看,这比“再做一个更大的融合模型”更值得继续往下挖。真正需要回答的,不只是平均分会不会涨,而是默认答案何时不可靠、只在 hard cases 干预会不会更稳,以及 late corrective re-entry 是否真的优于只改 output head。
下一步更值得回答的问题
- 如何检测默认路径已经不可靠,而不是事后解释。
- 如何只在 hard cases 上做干预,而不破坏 easy cases。
- 如何把冲突、不确定和修复变成可评估的对象,而不是主观描述。