专利 一种基于多场景数据融合推荐的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111669757.6 (22)申请日 2021.12.3 0 (71)申请人天翼电子商务有限公司地址 100037 北京市西城区阜成门外大街 31号4层429D (72)发明人韩弘炀　傅剑文　陈心童　章建森　周文彬　 (51)Int.Cl. G06F 16/2457(2019.01) G06F 16/27(2019.01) G06F 16/28(2019.01) G06F 16/9535(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多场景数据融合推荐的方法 (57)摘要本发明公开了一种基于多场景数据融合推荐的方法，包括以下： (1)采集模块：利用流技术对用户在第i场景下的曝光和点击数据进行采集并存储至hive中记为tablei；应当指出的是，数据采集技术及存储形式包括但不限于以上方式。本专利针对推荐系统中多场景推荐，提出一种基于多场景数据融合推荐的方法，补充了其他场景中的用户交互信息，既丰富了样本又补充了用户真实近期交互物料，能够使用更为丰富的数据进行建模。通过提取用户、物料、场景相关信息建模，利用单个模型充分学习用户在不同场景下对物料的兴趣表征，使得同一用户在不同场景对同样的物料有不同的展示顺序，能够在节省消耗的同时利用简单的模型得到准确的推荐结果。权利要求书1页说明书4页附图2页 CN 114528323 A 2022.05.24 CN 114528323 A 1.一种基于多场景数据融合推荐的方法，其特征在于，包括以下： (1)采集模块：利用流技术对用户在第i场景下的曝光和点击数据进行采集并存储至hive中记为 tablei；应当指出的是，数据采集技术及存储形式包括但不限于以上方式； (2)数据融合模块：对于hive中的所有tablei进行样本合并，丰富用户对物料的交互行为，并在样本维度上拼接用户、物料、场景等相关补充特征及回溯样本生成日期前t日用户点击的场景&物料 sequence，对于每条样本，曝光样本label记为0，点击样本label记为1，最终存储至hive中记为tableall； (3)模型训练模块： a.对于用户近t日点击的场景&物料sequence，将场景和物料的embedding进行concat 得到向量序列{Vi}，并将其与样本中场景与物料concat后的embedding V进行att ention操作(函数f)，得到对当前样本场景&物料sequence的表征A； b.利用attention后的结果A，与用户embedding U共同输入一个多层深度网络(函数 g)，有效生成用户在不同场景下对不同物料的兴趣偏好表征B； B＝g(A,B)； c.使用用户在不同场景下对不同物料的兴趣偏好表征concat非场景特征的其他特征 embedding形成向量Xin输入一个多层深度网络进行训练，其损失函数为： (4)多场景推荐模块： a.对于每个场景j用SQL取其场景及召回算法对用户召回的物料相应的特征及其补充特征，并根据近t日所有表 tablei取该用户的场景&物料sequence； b.利用训练好的模型对结果进行预测，每个场景j生成一个推荐结果表resultj储存在 hive中。权　利　要　求　书 1/1 页 2 CN 114528323 A 2一种基于多场景数据融合推荐的方法技术领域 [0001]本发明涉及推荐系统领域，特别涉及一种基于多场景数据融合推荐的方法。背景技术 [0002]传统多场景推荐模型都是每个场景构建一个模型，这样缺失了用户在其他场景的交互行为以及用户实际近期交互行为，使得在某些场景下对用户推荐效果不够准确。尽管少量场景使用了此类交互信息，但仅在于增加样本，并未考虑不同场景下用户的兴趣偏好存在差异； [0003]千人千面形式的个性化推荐已在众多生活中的场景发挥其作用，不断智能化地满足用户各方面的喜好，其准确捕捉用户兴趣的来源就是用户大量的交互数据。如何利用好用户的交互数据是推荐系统中的重要环节。目前推荐系统的使用大多都是每个场景构建一个模型，这样无可避免的缺失了用户在其他场景对同样物料行为的交互信息。即使少量场景使用了此类交互信息，也仅在于增加样本，并未考虑不同场景下用户的兴趣偏好存在差异； [0004]针对这一实际背景，本方案提出了一种基于多场景数据融合推荐的方法，既能够利用多个场景中的用户交互信息，又考虑了用户在不同场景下偏好的差异，还能够对于多个场景仅使用单个模型得到每个场景更为准确的推荐结果，节约人力物力资源消耗的同时又简化了模型。发明内容 [0005]本发明要解决的技术问题是克服现有技术的缺陷，提供一种基于多场景数据融合推荐的方法。 [0006]本发明提供了如下的技术方案： [0007]本发明提供一种基于多场景数据融合推荐的方法，包括以下： [0008](1)采集模块： [0009]利用流技术对用户在第i场景下的曝光和点击数据进行采集并存储至hive中记为 tablei；应当指出的是，数据采集技术及存储形式包括但不限于以上方式； [0010](2)数据融合模块： [0011]对于hive中的所有tablei进行样本合并，丰富用户对物料的交互行为，并在样本维度上拼接用户、物料、场景等相关补充特征及回溯样本生成日期前t日用户点击的场景& 物料sequence，对于每条样本，曝光样本label记为0，点击样本label记为1，最终存储至 hive中记为tableall； [0012](3)模型训练模块： [0013]a.对于用户近t日点击的场景&物料sequence，将场景和物料的embedding进行 concat得到向量序列{Vi}，并将其与样本中场景与物料concat后的embedding V进行 attention操作(函数f)，得到对当前样本场景&物料sequence的表征A；说　明　书 1/4 页 3 CN 114528323 A 3

专利 一种基于多场景数据融合推荐的方法

专利一种基于多场景数据融合推荐的方法