专利 一种基于音乐多模态数据的用户长短期偏好推荐预测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111658449.3 (22)申请日 2021.12.3 0 (71)申请人广东工业大学地址 510000 广东省广州市东风东路729号 (72)发明人吴亚迪　陈平华　 (74)专利代理机构东莞市卓易专利代理事务所 (普通合伙) 44777 代理人黄瀛 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/635(2019.01) G06F 16/68(2019.01) G06F 16/683(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于音乐多模态数据的用户长短期偏好推荐预测方法 (57)摘要本发明公开了一种基于音乐多模态数据的用户长短期偏好推荐预测方法，实现了针对音乐应用程序、商店和社区，为用户提供一种精准发现用户喜好的推荐预测方法，通过处理音乐的多模态数据，研究歌曲的隐含情感信息、用户的听歌序列对音乐推荐的不同影响，采用注意力机制和多个LSTM(长短期记忆)网络分别对歌曲情感和用户长短期偏好进行建模，最后提出一个新的混合推荐预测方法，在一定程度上探索到用户和歌曲的情感相关性及用户的长短期偏好，增强音乐了推荐预测性能。权利要求书2页说明书6页附图1页 CN 114254205 A 2022.03.29 CN 114254205 A 1.一种基于音乐多模态数据的用户长短期偏好推荐预测方法，其特征在于，包含以下步骤：获取音乐的音频数据信号，并使用预设的逻辑回归分配器对所述音频数据信号进行处理，生成声学感情特征；构建情感词汇库，并获取所述音乐的文本信息，根据所述情感词汇库对所述文本信息进行分析，以提取音乐情感特征，所述文本信息包括歌词文本信息以及评论文本信息，所述音乐情感特征包括歌词情感特征以及评论情感特征；使用双层注意力网络分别对所述声学情感特征以及所述评论情感特征进行处理，得到双层注意力机制输出；获取用户的历史听歌数据，并根据多个LSTM网络生成隐藏状态序列以及用户短期偏好；对所述隐藏状态序列使用时间加权操作和平均池化及加权均值化操作，生成用户长期偏好；利用Softmax函数融合所述双层注意力机制输出、用户长期偏好以及用户短期偏好，获得音乐的概率分布，并生成推荐。 2.根据权利要求1所述的一种基于音乐多模态数据的用户长短期偏好推荐预测方法，其特征在于，所述获取音乐的音频数据信号，并使用预设的逻辑回归分配器对所述音频数据信号进行处理，生成声学感情特征的步骤具体包括：获取并通过开元提取器对所述音乐的音频信号数据进行提取预处理，生成声学物理特征，所述声学物理特征包括节奏、强度、响度、 MFCC、高音以及相对应的泛函，所述泛函包括范围、均值、偏度以及峰度；使用预设的逻辑回归分析器对所述声学物理特征进行运算分类，生成声学情感特征。 3.根据权利要求2所述的一种基于音乐多模态数据的用户长短期偏好推荐预测方法，其特征在于，所述逻辑回归分析的模型为其中，所述 wT为权重矩阵，所述x为声学物理特征。 4.根据权利要求3所述的一种基于音乐多模态数据的用户长短期偏好推荐预测方法，其特征在于，所述情感词汇库包括数个表情符号以及多个常见的用于表征情感的情感词汇，每首音乐对应多个情感类别，所述提取音乐情感特征对步骤执行后，还包括步骤：使用平均频率公式计算音乐每个所述情感类别的所述情感词汇的平均频率，所述平均频率公式为其中，所述PEij表示情感类别在所述文本信息中的出现频率，表示情感类别中第k个情感词汇在所述文本信息中出现的次数， N*j表示所述文本信息的总词汇数。 5.根据权利要求4所述的一种基于音乐多模态数据的用户长短期偏好推荐预测方法，其特征在于，还包括用户特征、音乐特征以及时间特征，所述使用双层注意力网络分别对所述声学情感特征以及所述评论情感特征进行处理，得到双层注意力机制输出的步骤具体包括：权　利　要　求　书 1/2 页 2 CN 114254205 A 2将所述声学情感特征、歌词情感特征、评论情感特征、用户特征、音乐特征以及时间特征输入至嵌入层中，以降低输入维数，分别获得d维embed ding特征向量ev、 el、 ec、 u、 m、 t：通过所述双层注意力网络分别计算各个输入特征的注意力权重，得到双层注意力机制输出，所述计算获得注意力机制输出的公式如下 Zatt＝γvev+γlel+γcec+γuu+γmmM+γtt；其中，所述γv、 γl、 γc、 γu、 γm、 γt分别为各输入特征的注意力权重。 6.根据权利要求5所述的一种基于音乐多模态数据的用户长短期偏好推荐预测方法，其特征在于，所述获取用户的历史听歌数据，并根据多个LSTM网络生成隐藏状态序列以及用户短期偏好的步骤中，给定用户u，使用多个LSTM网络分别对多个历史听歌序列数据和当前听歌序列进行编码： ht＝LSTM(xt， ht‑1)， t∈{1， 2， …， |Sh|}；设多个历史听歌序列数据为{mi，， m2，…， mm}、 {m1，， m2，…， mn}，当前听歌序列为{m1，， m2，…， mt‑1}，其中ht为LSTM的隐藏状态， xt∈Rd*1为序列ht中第t首音乐的d维嵌入向量，通过运算，在序列ht里的音乐的编码为当前听歌序列的最终隐藏状态ht‑1为所述用户短期偏好的表示。 7.根据权利要求6所述的一种基于音乐多模态数据的用户长短期偏好推荐预测方法，其特征在于，所述对所述隐藏状态序列使用时间加权操作和平均池化及加权均值化操作的步骤包括：将一周映射为48个时间段，计算两两时间段之间的时间相似性系数 Ti， j＝|Hi∩Hj|/|Hi∪Hj|；其中， Hi为时间段i内所有用户听过的音乐集合，当两个时间段重合的音乐数量越多，其相似性越高；对于一个历史轨迹Sh，由用户当前时间段c，生成历史序列表示，公式为其中，为Sh中当前时间段c与第j个音乐的时间段之间的时间相似性；对于当前隐藏状态序列，进行平均池化操作，得到当前序列表示，公式为将各个历史序列表示与当前序列表示进行加权均值化，得到用户长期偏好因子Sl，公式为其中， Wl为可训练的权重矩阵。 8.根据权利要求7所述的一种基于音乐多模态数据的用户长短期偏好推荐预测方法，其特征在于，作为本发明另一个优选的实施例，所述Softmax函数对公式为最终向用户推荐top ‑N个喜欢的音乐。权　利　要　求　书 2/2 页 3 CN 114254205 A 3

专利 一种基于音乐多模态数据的用户长短期偏好推荐预测方法

专利一种基于音乐多模态数据的用户长短期偏好推荐预测方法