专利 一种基于自然语言处理技术的反欺诈方法、系统、设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111657952.7 (22)申请日 2021.12.3 0 (71)申请人浙江邦盛科技股份有限公司地址 310012 浙江省杭州市西湖区西斗门路3号天堂软件园D幢17层ABCD座 (72)发明人高杨　王新根　黄滔　陈伟　牛诗雅　 (74)专利代理机构杭州求是专利事务所有限公司 33200 代理人刘静 (51)Int.Cl. G06Q 20/40(2012.01) G06Q 30/02(2012.01) G06F 40/216(2020.01) G06F 40/247(2020.01)G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于自然语言处理技术的反欺诈方法、系统、设备及存储介质 (57)摘要本发明公开了一种基于自然语言处理技术的反欺诈方法、系统、设备及存储介质，从金融反欺诈转账交易数据集中获取处理所需的样本数据，并标签化处理；解析每条交易数据的转账备注信息，并进行处理；从中解析每条样本所需用户关联特征，并结合转账备注信息处理结果和样本标签化处理结果建立目标样本数据集，进行预处理后对训练神经网络；将经过训练的神经网络部署至在线反欺诈决策服务器；在线决策时，融合用户关联特征信息进行反欺诈转账交易决策，并返回反欺诈交易决策结果。本发明考虑了电子银行业务中辅助业务场景的操作特征数据，使用辅助业务场景辅助目标业务场景下的欺诈操作请求的识别，使反欺诈模型的欺诈识别准确率得到了大幅度的提升。权利要求书3页说明书9页附图3页 CN 114298715 A 2022.04.08 CN 114298715 A 1.一种基于自然语言处理技术的反欺诈方法，其特征在于，该方法包括以下步骤： (1)从金融反欺诈转账交易数据集中获取每条交易数据的转账备注信息，并进行处理；具体如下： (1.1)将每条转账备注信息拆分为单字，在每个单字结尾添加后缀，并统计转账备注信息中每个单字的出现频率； (1.2)按照频率对单字进行排序，依次选择频率排名前m的单字与其在转账备注信息中的邻居单字合并为字符串，放入子词词表中； (1.3)对子词词表进行去重操作，并计算子词的单字之间的互信息量，删除互信息量小于阈值的子词； (1.4)使用上述子词词表对转账交易备注信息进行分词，并通过Word2Vec方法训练中文词嵌入向量，将中文词嵌入向量经过长短期记忆网络进行特征提取后作为后续神经网络的输入； (2)从金融反欺诈转账交易数据集中获取每条交易数据所需的用户关联特征信息和从步骤(1)得到的转账备注信息处理结果，并对金融反欺诈转账交易数据集中每条交易数据进行标签化处理，建立多维度用户特征数据以形成目标样本数据集，对所述目标样本数据集进行特征工程和数据预处理并划分为训练集和测试集，利用所述训练集训练神经网络，得到后续用于预测实时转账交易请求发生欺诈可能性的神经网络模型； (3)在线决策时，将由用户实时发起的转账交易请求数据按照步骤(1)的方法处理后和用户的关联特征信息组成转账交易决策数据输入至从步骤(2)中训练好的神经网络模型，进行反欺诈转账交易决策，所述神经网络模型输出为用户欺诈概率值，根据用户欺诈概率值来判断该转账交易请求发生欺诈行为的可能性，并将反欺诈交易决策的结果返回给转账交易请求的关联用户或用户所在的交易平台。 2.根据权利要求1所述的反欺诈方法，其特征在于，所述金融反欺诈转账交易数据集从银行中获取，为包含转账备注信息的转账交易数据集。 3.根据权利要求1所述的反欺诈方法，其特征在于，根据用户的交易记录，对所述每个样本数据进行标签化处理，根据所述样本数据对应的用户历史信贷情况建立用户标签，即对指定期限内是否有异常转账交易记录的用户分别定义为优质用户和重点监控的用户。 4.根据权利要求1所述的反欺诈方法，其特征在于，所述用户关联特征信息包括所述样本数据对应的用户授权数据和用户行为数据；所述用户授权数据包括用户年龄、用户征信记录特征，用户行为数据包括用户最近12小时转账累计金额特征。 5.根据权利要求1所述的反欺诈方法，其特征在于，在训练神经网络模型前，对所述目标样本数据集进行数据预处理，包括数据标准化、缺失值填充；所述缺失值填充处理包括分别统计所述多维度转账数据集中全部变量的缺失率，并根据统计的缺失率进行直接删除特征或使用平均值对所有缺失样本进行填充。 6.根据权利要求1所述的反欺诈方法，其特征在于，所述中文词嵌入向量将输入长短期记忆网络进行处理，生成多维度特征表示值；所述用户关联特征信息与所述长短期记忆网络生成的特征表示值进行拼接后送入神经网络中进行计算。 7.一种基于自然语言处理技术的反欺诈系统，其特征在于，该系统包含数据接收节点、交易处理节点、模型训练节点和持久化节点；权　利　要　求　书 1/3 页 2 CN 114298715 A 2所述数据接收节点在线提取手机银行和网银用户在转账业务系统中实时发起的转账交易请求，然后使用Kafka 收集转账交易请求的发起用户的关联特征信息，将两者组成的转账交易决策数据送入交易处理节点；所述交易处理节点包括交易信息处理模块、自然语言处理模块和反欺诈决策模块；所述交易信息处理模块从数据接收节点中获取处理所需的转账交易决策数据，并提取用户关联特征信息送入反欺诈决策模块，提取转账备注信息送入自然语言处理模块；所述自然语言处理模块对转账备注信息进行处理，然后送入反欺诈决策模块；所述反欺诈决策模块将从交易信息处理模块和自然语言处理模块获取的数据经过特征工程和数据预处理之后，输入至由模型训练节点进行神经网络模型的训练，得到部署在在线反欺诈服务器上的神经网络模型，进行反欺诈转账交易决策，所述神经网络模型输出为用户欺诈概率值，根据用户欺诈概率值来判断该转账交易请求发生欺诈行为的可能性，然后将反欺诈交易决策的结果通过在线反欺诈决策服务器调用接口进行调用，并将调用结果返回给转账交易请求的关联用户或用户所在的交易平台。所述模型训练节点包含经验收集模块、转账备注信息模块、 HDFS模块、神经网络模型模块和版本管理模块；所述经验收集模块从持久化节点的历史金融反欺诈转账交易数据集中获取每条数据的用户关联特征信息，输入到HDFS模块；所述转账备注信息模块从持久化节点的历史金融反欺诈转账交易数据集中获取每条数据的转账备注信息，并使用与自然语言处理模块相同的方式处理转账备注信息，将处理后的结果输入到HDFS模块；转账备注信息处理方法具体如下： a.将每条转账备注信息拆分为单字，在每个单字结尾添加后缀，并统计转账备注信息中每个单字的出现频率； b.按照频率对单字进行排序，依次选择频率排名前m的单字与其在转账备注信息中的邻居单字合并为字符串，放入子词词表中； c.对子词词表进行去重操作，并计算子词的单字之间的互信息量，删除互信息量小于阈值的子词； d.使用上述子词词表对转账交易备注信息进行分词，并通过Word2Vec方法训练中文词嵌入向量，将中文词嵌入向量经过长短期记忆网络进行特征提取；所述HDFS模块接收经验收集模块和转账备注信息模块的数据并结合历史金融反欺诈转账交易数据集的样本标签化处理结果建立多维度用户特征数据以形成目标样本数据集，对所述目标样本数据集进行特征工程和数据预处理并划分为训练集和测试集，并将训练集和测试集存储至HDFS模块中，所述HDFS模块中的训练集数据用于神经网络模型模块中神经网络模型的训练，神经网络模型训练完成后部署至交易处理节点的反欺诈决策模块上的在线反欺诈决策服务器；所述版本管理模块用于存储不同神经网络模型版本，以灵活更换线上模型、改善线上模型决策效果和控制新模型训练状态；所述持久化节节点用于存储历史金融反欺诈转账交易数据集，包括SQL模块和归档存储模块； SQL模块用于为用户提供查询转账交易记录的数据支持，并用于数据开发人员对转账交易数据进行统计和分析；归档存储模块用于备份交易过程中服务器收集到的过程数据，实现容灾备份功能。 8.一种设备，其特征在于，所述设备包括：权　利　要　求　书 2/3 页 3 CN 114298715 A 3

专利 一种基于自然语言处理技术的反欺诈方法、系统、设备及存储介质

专利一种基于自然语言处理技术的反欺诈方法、系统、设备及存储介质