(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111657952.7
(22)申请日 2021.12.3 0
(71)申请人 浙江邦盛科技股份有限公司
地址 310012 浙江省杭州市西湖区西斗门
路3号天堂软件园D幢17层ABCD座
(72)发明人 高杨 王新根 黄滔 陈伟
牛诗雅
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
代理人 刘静
(51)Int.Cl.
G06Q 20/40(2012.01)
G06Q 30/02(2012.01)
G06F 40/216(2020.01)
G06F 40/247(2020.01)G06F 40/289(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于自然语 言处理技术的反欺诈方法、
系统、 设备及存 储介质
(57)摘要
本发明公开了一种基于自然语言处理技术
的反欺诈方法、 系统、 设备及存储介质, 从金融反
欺诈转账交易数据集中获取处理所需的样本数
据, 并标签化处理; 解析每条交易数据的转账备
注信息, 并进行处理; 从中解析每条样本所需用
户关联特征, 并结合转账备注信息处理结果和样
本标签化处理结果建立目标样 本数据集, 进行预
处理后对训练神经网络; 将经过训练的神经网络
部署至在线反欺诈决策服务器; 在线决策时, 融
合用户关联特征信息进行反欺诈转账交易决策,
并返回反欺诈交易决策结果。 本发 明考虑了电子
银行业务中辅助业务场景的操作特征数据, 使用
辅助业务场景辅助目标业务场景下的欺诈操作
请求的识别, 使反欺诈模型的欺诈识别准确率得
到了大幅度的提升 。
权利要求书3页 说明书9页 附图3页
CN 114298715 A
2022.04.08
CN 114298715 A
1.一种基于自然语言处 理技术的反欺诈方法, 其特 征在于, 该 方法包括以下步骤:
(1)从金融反欺诈转账交易数据集中获取每条交易数据的转账备注信息, 并进行处理;
具体如下:
(1.1)将每条转账备注信息拆分为单字, 在每个单字结尾添加后缀, 并统计转账备注信
息中每个单字的出现频率;
(1.2)按照频率对单字进行排序, 依次选择频率排名前m的单字与其在转账备注信息中
的邻居单字合并为字符串, 放入子词 词表中;
(1.3)对子词词 表进行去重操作, 并计算子词的单字之间的互信息量, 删除互信息量小
于阈值的子词;
(1.4)使用上述子词词表对转账交易备注信息进行分词, 并通过Word2Vec方法训练中
文词嵌入向量, 将中文词嵌入向量经过长 短期记忆网络进 行特征提取后作为后续神经网络
的输入;
(2)从金融反欺诈转账交易数据集中获取每条交易数据所需的用户关联特征信 息和从
步骤(1)得到的转账备注信息处理结果, 并对金融反欺诈转账交易数据集中每条交易数据
进行标签化处理, 建立多维度用户特征数据以形成目标样本数据集, 对所述 目标样本数据
集进行特征工程和数据预处理并划分为训练集和测试集, 利用所述训练集训练神经网络,
得到后续用于预测实时转账交易请求发生欺诈可能性的神经网络模型;
(3)在线决策时, 将由用户实时发起的转账交易请求数据按照步骤(1)的方法处理后和
用户的关联特征信息组成转账交易决策数据输入至从步骤(2)中训练好的神经网络模型,
进行反欺诈转账交易决策, 所述神经网络模型输出为用户欺诈概率值, 根据用户欺诈概率
值来判断该转账交易请求 发生欺诈行为的可能性, 并将反欺诈交易决策的结果返回给转账
交易请求的关联用户或用户所在的交易平台。
2.根据权利要求1所述的反欺诈方法, 其特征在于, 所述金融反欺诈转账交易数据集从
银行中获取, 为包 含转账备注信息的转账交易数据集。
3.根据权利要求1所述的反欺诈方法, 其特征在于, 根据用户的交易记录, 对所述每个
样本数据进行标签化处理, 根据所述样本数据对应的用户历史信贷情况建立用户标签, 即
对指定期限内是否有异常转账交易记录的用户分别定义 为优质用户和重点 监控的用户。
4.根据权利要求1所述的反欺诈方法, 其特征在于, 所述用户关联特征信 息包括所述样
本数据对应的用户授权数据和用户行为数据; 所述用户授权数据包括用户年龄、 用户征信
记录特征, 用户行为数据包括用户最近12小时转账累计金额特 征。
5.根据权利要求1所述的反欺诈方法, 其特征在于, 在训练神经网络模型前, 对所述目
标样本数据集进行数据预 处理, 包括数据标准化、 缺 失值填充; 所述缺 失值填充处理包括分
别统计所述多维度转账数据集中全部变量的缺失率, 并根据统计的缺失率进 行直接删除特
征或使用平均值对所有缺失样本进行填充。
6.根据权利要求1所述的反欺诈方法, 其特征在于, 所述中文词嵌入向量将输入长短期
记忆网络进行处理, 生成多维度特征表示值; 所述用户关联特征信息与所述长短期记忆网
络生成的特 征表示值进行拼接后送入神经网络中进行计算。
7.一种基于自然语言处理技术的反欺诈系统, 其特征在于, 该系统包含数据接收节点、
交易处理节点、 模型训练节点和持久化节点;权 利 要 求 书 1/3 页
2
CN 114298715 A
2所述数据接收节点在线提取手机银行和网银用户在转账业务系统中实时发起的转账
交易请求, 然后使用Kafka 收集转账 交易请求的发起用户的关联特征信息, 将两者组成的转
账交易决策 数据送入交易处 理节点;
所述交易处理节点包括交易信息处理模块、 自然语言处理模块和反欺诈决策模块; 所
述交易信息处理模块从数据接收节点中获取处理所需的转账交易决策数据, 并提取用户关
联特征信息送入反欺诈决策模块, 提取转账备注信息送入自然语言处理模块; 所述自然语
言处理模块对转账备注信息进行处理, 然后送入反欺诈决策模块; 所述反欺诈决策模块将
从交易信息处理模块和自然语言处理模块获取的数据经过特征工程和数据预处理之后, 输
入至由模型训练节点进行神经网络模型的训练, 得到部署在在线反欺诈 服务器上的神经网
络模型, 进 行反欺诈 转账交易决策, 所述神经网络模型输出为用户欺诈 概率值, 根据用户欺
诈概率值来判断该转账 交易请求 发生欺诈行为的可能性, 然后 将反欺诈交易决策的结果通
过在线反欺诈决策服务器调用接口进 行调用, 并将调用结果返回给转账交易请求的关联用
户或用户所在的交易平台。
所述模型训练节点包含经验收集模块、 转账备注信息模块、 HDFS模块、 神经网络模型模
块和版本管理模块; 所述经验收集模块从持久化节点的历史金融反欺诈 转账交易数据集中
获取每条数据的用户关联特征信息, 输入到HDFS模块; 所述转账备注信息模块从持久化节
点的历史金融反欺诈 转账交易数据集中获取每条数据的转账备注信息, 并使用与自然语言
处理模块相同的方式处理转账备注信息, 将处理后的结果输入到HDFS模块; 转账备注信息
处理方法具体如下:
a.将每条转账备注信息拆分为单字, 在每个单字结尾添加后缀, 并统计转账备注信息
中每个单字的出现频率;
b.按照频率对单字进行排序, 依次选择频率排名前m的单字与其在转账备注信息中的
邻居单字合并为字符串, 放入子词 词表中;
c.对子词词表进行去重操作, 并计算子词的单字之间的互信息量, 删除互信息量小于
阈值的子词;
d.使用上述子词词表对转账交易备注信息进行分词, 并通过Word2Vec方法训练中文词
嵌入向量, 将中文词嵌入向量经 过长短期记 忆网络进行 特征提取;
所述HDFS模块接收经验收集模块和转账备注信息模块的数据并结合历史金融反欺诈
转账交易数据集的样本标签化处理结果建立多维度用户特征数据以形成目标样本数据集,
对所述目标样本数据集进 行特征工程和数据预 处理并划分为训练集和测试集, 并将训练集
和测试集存储至HDFS模块中, 所述HDFS模块中的训练集数据用于神经网络模型模块中神经
网络模型的训练, 神经网络模型训练完成后部署至交易处理节点的反欺诈决策模块上的在
线反欺诈决策服务器; 所述版本管理模块用于存储不同神经网络模型版本, 以灵活更换线
上模型、 改善线上模型决策效果和控制新模型训练状态;
所述持久化节节点用于存储历史金融反欺诈转账交易数据集, 包括SQL模块和归档存
储模块; SQL模块用于为用户提供查询转账 交易记录的数据支持, 并用于数据开 发人员对转
账交易数据进行统计和分析; 归档存储模块用于备份交易过程中服务器收集到的过程数
据, 实现容 灾备份功能。
8.一种设备, 其特 征在于, 所述设备包括:权 利 要 求 书 2/3 页
3
CN 114298715 A
3
专利 一种基于自然语言处理技术的反欺诈方法、系统、设备及存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:47:49上传分享