悉尼科技大学:当AI学会分辨"共同喜好"与"独特品味"
作者:容桂陈奕迅 来源:平凉 浏览: 【大中小】 发布时间:2025-09-10评论数:
这项由悉尼科技大学的马守星、湖南大学的曾雅文、澳门城市大学的吴世清以及香港教育大学的许冠东共同完成的研究,发表在2025年10月的第33届ACM国际多媒体会议上。完整论文可通过DOI:http://doi.org/10.1145/3746027.3755779获取,代码也已公开发布供研究者使用。
当你在购物网站浏览商品时,系统总是能神奇地猜出你可能喜欢什么。这些推荐系统就像是一位贴心的店员,不仅知道商品的外观,还能读懂商品描述,然后根据你的历史购买记录为你推荐心仪的物品。然而,现有的推荐系统面临着一个关键挑战:如何在理解用户共同喜好的同时,又不忽略每个人的独特品味?
就如同两个人都喜欢某件衬衫,一个人可能被其时尚的扭结设计吸引,另一个人则看重商品描述中提到的口袋功能。传统的推荐系统往往只关注两人的共同点,却忽略了这些重要的个性化差异。研究团队发现,现有方法存在两个主要问题:简单的多模态特征对比会产生噪声并丢失有价值的独特信息;对用户兴趣和商品共现关系的挖掘不够充分。
为了解决这些问题,研究团队开发了一个名为REARM的新框架,这个名称来源于"REfining multi-modAl contRastive learning and hoMography relations"。该框架的核心理念是教会AI系统既要识别用户的共同喜好,又要保留每个人的独特品味,同时更深入地挖掘用户兴趣和商品关联模式。
一、破解多模态推荐的双重挑战
想象你正在为朋友挑选生日礼物,你需要同时考虑商品的外观和功能描述。传统的推荐系统就像是一个只看表面的购物助手,它会注意到你和朋友都喜欢某种风格的商品,但却忽略了你们各自的独特偏好。
研究团队深入分析了现有多模态推荐系统的局限性。第一个问题类似于"一刀切"的服务方式。当系统发现两个用户都对某件商品感兴趣时,它会简单地认为两人的喜好完全一致,忽略了个体差异。比如说,两个人都购买了同一件女孩衬衫,系统会重点关注"女孩衬衫"这个共同标签,但可能忽略了其中一人真正看重的是图像中展现的时尚扭结设计,另一人更关注的是文字描述中的"大童款"标识。
第二个问题则像是缺乏社交洞察的推荐员。现有系统虽然会分析用户的共同购买行为和商品的语义相似性,但却忽略了更深层的关联模式。它们没有充分探索用户兴趣图谱和商品共现关系之间的相互作用,就如同一个推荐员只知道客户买了什么,却不理解客户为什么买,也不知道不同商品之间的潜在联系。
为了应对这些挑战,研究团队提出了一个创新的解决方案。他们认为,理想的推荐系统应该像一位经验丰富的个人购物顾问,既能识别客户群体的共同趋势,又能敏锐捕捉每个人的独特需求。这位顾问不仅要看懂商品的外观和描述,还要深入理解客户的兴趣网络和商品之间的复杂关联。
研究团队的理论基础建立在对多模态对比学习的深刻理解上。他们发现,传统方法假设不同模态之间存在高度冗余,即大部分有用信息都是共享的,独特信息很少。但在实际的推荐场景中,这个假设并不总是成立。每种模态都可能包含独特且有价值的信息,同时共享信息中也可能存在与推荐任务无关的噪声。
二、构建更智能的特征提取机制
研究团队开发的REARM框架采用了一种类似精密筛选器的工作方式。这个筛选器不仅能够过滤掉无关信息,还能保留对推荐有价值的独特特征。
整个框架的工作流程可以比作一个三步骤的精炼过程。首先是同质关系学习,就像是构建一张详细的关联地图,展示用户之间和商品之间的各种联系。接着是异质关系学习,类似于分析用户与商品之间的互动模式。最后是精炼对比学习,就像是用高级过滤器处理信息,保留有价值的内容,去除噪声。
在同质关系学习部分,研究团队创新性地构建了用户兴趣图和商品共现图。用户兴趣图就像是绘制每个用户的兴趣地图,不仅记录用户购买了什么,还分析用户的兴趣偏好模式。商品共现图则像是商品之间的关联网络,记录哪些商品经常被同一用户购买,反映商品之间的潜在联系。
这种方法的巧妙之处在于,它不是简单地将所有用户或商品一视同仁,而是根据不同的关系类型构建不同的连接。比如,两个用户可能因为有相似的购买历史而建立共现关系,同时又因为兴趣偏好的相似性建立另一种语义关系。系统会智能地平衡这两种关系,就像一位经验丰富的社交网络分析师,既关注表面行为的相似性,又深入挖掘内在兴趣的一致性。
在处理商品信息时,系统首先会将不同模态的原始特征转换为统一的表示空间,就像是将不同语言的描述翻译成同一种语言。然后通过图神经网络进行信息传播,让每个节点不仅包含自身信息,还融合了邻居节点的相关信息。这个过程就像是让每个商品不仅了解自己,还了解与自己相关的其他商品的特点。
为了进一步提升特征质量,研究团队引入了注意力机制。自注意力模块就像是一个内部调节器,帮助系统调整各个维度特征的重要性权重。交叉注意力模块则像是一个跨模态的沟通桥梁,让图像特征和文本特征能够相互影响和补充。这种设计确保了系统不会简单地将不同模态的信息机械式地组合,而是让它们进行更深层的交流和整合。
三、精炼对比学习的创新突破
研究团队在对比学习方面的创新可以比作开发一套精密的质量控制系统。传统的对比学习就像是用粗糙的筛子过滤信息,容易让有价值的独特信息流失,同时让无关噪声混入结果中。而REARM的精炼对比学习则像是配备了两套精密过滤器的高级处理系统。
第一套过滤器是元网络系统,专门处理模态共享特征中的噪声问题。这个元网络就像是一位经验丰富的质检员,能够从共享特征中识别出哪些信息真正与推荐任务相关,哪些只是表面的巧合。比如,当系统发现某件商品的图像和文字都提到"女孩"时,元网络会进一步分析这个共同特征是否真的对推荐有帮助,还是只是一个可能误导系统的标签。
元网络的工作原理类似于一个智能的知识提取器。它不是简单地接受所有共享信息,而是学习如何从这些信息中提取真正有价值的知识。系统会根据具体的推荐上下文,动态生成定制化的变换矩阵,就像是为每种情况量身定制一套处理规则。这种自适应的处理方式确保了系统能够根据不同的商品和用户特点,灵活调整信息处理策略。
第二套过滤器是正交约束机制,专门负责保护模态独特特征。这个机制就像是一个独特性保护器,确保每种模态的独特价值信息不会在融合过程中丢失。正交约束的数学原理是通过限制不同模态特征之间的重叠度,鼓励每种模态保持自己的独特贡献。
这种设计的智慧在于它认识到,真正优秀的推荐系统不应该试图将所有信息都标准化为相同的形式,而应该让不同类型的信息在保持各自特色的同时协同工作。就像一个优秀的团队,每个成员都有自己的专长,团队的力量来自于这些专长的互补,而不是所有人都变得完全相同。
在实际应用中,这两套过滤器协同工作。当系统处理一个用户对商品的偏好时,元网络会从共享特征中提取可靠的共同偏好信息,过滤掉可能的噪声干扰。同时,正交约束确保每种模态的独特贡献得到保留,让系统能够捕捉到用户可能被商品的某个特定方面吸引的细微差别。
四、实验验证与性能表现
研究团队在三个真实的电商数据集上进行了全面的性能测试,这些数据集分别来自婴儿用品、体育用品和服装类别。这种选择很有代表性,因为这三个类别的商品都具有丰富的视觉和文字信息,同时用户的购买决策往往受到多种因素的影响。
实验结果就像是一场令人惊喜的性能提升展示。在所有测试的数据集和评估指标上,REARM都显著超越了现有的最先进方法。以Recall@20指标为例,REARM在婴儿用品数据集上达到了0.1105,相比之前最好的方法MIG-GT的0.1021有了明显提升。在体育用品数据集上,性能提升更为显著,从之前最好的0.1139提升到了0.1231。
这些数字背后的意义可以用一个具体的例子来理解。假设传统方法能够在20个推荐商品中准确命中11个用户真正感兴趣的商品,那么REARM能够命中12个以上。这个看似微小的提升在实际应用中意味着显著的用户体验改善和商业价值提升。
更有趣的是研究团队进行的消融实验,这就像是逐个拆解机器的零件来验证每个部分的作用。当他们移除同质关系学习模块时,系统性能出现了明显下降,证明了深度挖掘用户和商品关系的重要性。当移除精炼对比学习的任一组件时,性能同样下降,验证了噪声过滤和独特特征保护的必要性。
研究团队还专门测试了不同模态的贡献。他们发现,单独使用视觉模态或文本模态都无法达到最佳效果,这证实了多模态融合的价值。同时,文本模态在服装类商品上表现更好,这符合常识,因为服装的尺寸、材质等重要信息往往更多地体现在文字描述中。
为了直观展示系统的改进效果,研究团队制作了一个交互概率差异热力图。这个图像就像是系统决策过程的可视化窗口,颜色越深的区域表示REARM相比传统方法预测出更高的交互可能性。令人兴奋的是,这些高预测区域中的许多在测试集中确实被验证为真实的用户兴趣,证明了系统预测的准确性。
五、超参数调优与模型稳健性
研究团队对REARM进行了细致的参数调优分析,这个过程就像是为一台精密仪器寻找最佳工作状态。他们测试了多个关键参数对系统性能的影响,发现了一些有趣的规律。
用户共现图的权重调节就像是平衡两种不同信息源的重要性。研究发现,纯粹的用户共现信息(权重为1)并不总是最优的,适当融入用户兴趣信息往往能带来更好的效果。这个发现符合直觉:仅仅因为两个用户购买了相同的商品并不意味着他们的兴趣完全一致,了解他们的深层兴趣偏好能够提供更准确的推荐。
商品共现图的权重调节显示了类似的模式。不同数据集的最优权重设置有所不同,这反映了不同商品类别的特性差异。体育用品数据集需要更高的权重设置,可能因为体育用品的搭配购买模式更加明显,用户往往会一次性购买多个相关商品。
元网络中变换矩阵的秩参数调节就像是控制信息压缩的程度。研究发现,体育用品数据集需要最大的矩阵秩(7),这可能因为该数据集拥有最多的交互数据,需要更大的模型容量来捕捉丰富的用户行为模式。这个发现为实际应用提供了有价值的指导:数据越丰富的场景可能需要更复杂的模型结构。
图神经网络的层数选择也展现了有趣的特点。与传统研究中常用的2层设置不同,REARM在所有数据集上都需要3层以上的网络深度才能达到最佳性能。研究团队认为这与注意力机制的引入有关,注意力机制保留了更多有价值的信息,使得更深层的网络能够有效利用这些信息进行更复杂的推理。
六、理论基础与技术创新
REARM的理论基础建立在对多模态冗余假设的深刻反思上。传统的多模态对比学习基于这样的假设:不同模态之间存在高度冗余,大部分任务相关信息都是共享的,独特信息很少且不重要。但研究团队通过理论分析和实验验证发现,这个假设在推荐系统中往往不成立。
他们提出了一个新的理论框架,将任务相关信息分解为共享信息和独特信息两个部分,并分别进行优化。这种分解并非简单的技术操作,而是基于对推荐任务本质的深入理解。在真实的购物场景中,用户的决策往往既受到商品共同特征的影响(比如品牌声誉、基本功能),也受到独特特征的驱动(比如特殊的设计细节、个性化的功能)。
正交约束的理论基础来自线性代数中的正交矩阵性质。当两个矩阵正交时,它们的内积为零,这意味着它们包含的信息没有重叠。研究团队巧妙地将这个数学概念应用到特征学习中,通过软正交约束来鼓励不同模态保持信息的独特性,同时允许一定程度的灵活性以适应实际应用的需要。
元网络的设计灵感来自元学习的思想,即"学会如何学习"。在REARM中,元网络不是学习固定的特征变换,而是学习如何根据不同的输入动态生成最适合的变换规则。这种自适应性使得系统能够处理各种不同类型的商品和用户,而不需要为每种情况手动设计特定的处理策略。
七、实际应用价值与未来展望
REARM的技术创新在实际应用中具有广泛的价值。对于电商平台来说,更准确的推荐能够直接转化为更高的用户参与度和销售转化率。研究显示的性能提升意味着用户能够更快找到心仪的商品,平台能够更好地匹配用户需求和商品供给。
从用户体验角度来看,REARM解决了传统推荐系统的一个重要痛点:推荐结果的同质化。传统系统往往倾向于推荐相似的商品,用户容易感到推荐缺乏新意。而REARM通过保护模态独特特征,能够发现用户可能感兴趣但不太明显的商品特点,从而提供更多样化和个性化的推荐。
技术实现方面,REARM的计算复杂度与传统的图神经网络相当,这得益于元网络中较小的矩阵秩设置和高效的图结构处理。这种设计使得该方法在保持高性能的同时,具备了实际部署的可行性。
研究团队在论文中也诚实地指出了当前方法的局限性。首先,REARM主要针对视觉和文本两种模态进行了优化,对于音频、视频等其他模态的扩展还需要进一步研究。其次,该方法在冷启动场景(新用户或新商品)下的表现还有待验证,这是推荐系统领域的共同挑战。
未来的研究方向包括几个有趣的方向。一是探索更多模态的融合,特别是在短视频电商兴起的背景下,如何有效利用视频信息将成为重要课题。二是研究动态推荐场景,考虑用户兴趣和商品特征随时间的演变。三是将REARM的理念扩展到其他需要多模态信息融合的任务中,如内容创作、智能客服等。
从更广阔的视角来看,REARM代表了AI系统设计哲学的一种演进。它不再追求将所有信息标准化为统一形式,而是学会在保持多样性的同时实现协同。这种思路不仅适用于推荐系统,也可能为其他AI应用领域提供启发。
研究团队已经将REARM的代码开源,这为学术界和工业界的进一步研究和应用奠定了基础。开源代码的发布也体现了研究团队对推动整个领域发展的责任感和贡献精神。
总的来说,REARM不仅在技术上实现了突破,更重要的是提供了一种新的思考框架:如何在AI系统中平衡统一性和多样性,如何在追求共性的同时保护个性。这种平衡艺术可能正是未来AI系统需要掌握的核心能力之一。对于希望深入了解这项研究的读者,完整论文和实现代码都可以通过前面提到的链接获取,为进一步的学习和实践提供了宝贵资源。
Q&A
Q1:REARM框架主要解决了推荐系统的什么问题?
A:REARM主要解决了传统多模态推荐系统的两大痛点:一是简单的特征对比会引入噪声并丢失有价值的独特信息,就像只看商品的共同标签而忽略了个性化特点;二是对用户兴趣和商品关联关系挖掘不充分,缺乏深层的行为模式分析。
Q2:元网络和正交约束在REARM中起什么作用?
A:元网络就像一个智能质检员,专门从模态共享特征中过滤噪声,提取真正与推荐相关的信息。正交约束则像一个独特性保护器,确保每种模态(如图像、文本)的独特价值信息在融合过程中不会丢失,让系统既能识别共同喜好又能保留个性化偏好。
Q3:REARM相比其他推荐方法有多大的性能提升?
A:实验显示REARM在三个电商数据集上都显著超越了现有最佳方法。例如在体育用品数据集上,Recall@20从之前最好的0.1139提升到0.1231,这意味着在20个推荐商品中,用户真正感兴趣的商品数量从约11个提升到超过12个,显著改善了用户体验。
- {loop type="catelog" row=10}{$vo.title}