(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111640282.8
(22)申请日 2021.12.3 0
(65)同一申请的已公布的文献号
申请公布号 CN 114005004 A
(43)申请公布日 2022.02.01
(73)专利权人 成都无糖信息技 术有限公司
地址 610000 四川省成 都市高新区吉瑞三
路99号1栋1单 元20层20 01号
(72)发明人 漆伟 张瑞冬 童永鳌 朱鹏
马永霄 张浩
(74)专利代理 机构 成都为知盾专利代理事务所
(特殊普通 合伙) 51267
代理人 李汉强
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/74(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 10/774(2022.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 113836365 A,2021.12.24
CN 113254844 A,2021.08.13
CN 111191695 A,2020.0 5.22
CN 10275 0519 A,2012.10.24
CN 103049483 A,2013.04.17
CN 102662959 A,2012.09.12
CN 110647896 A,2020.01.0 3
CN 112347244 A,2021.02.09
CN 103179095 A,2013.0 6.26
US 10834128 B1,2020.1 1.10
WO 2021133592 A1,2021.07.01
凡友荣 等.基 于URL特征检测的违法网站 识
别方法. 《计算机 工程》 .2018,第4 4卷(第3期),
黎宇坤.一种基 于堆叠模型的钓鱼网站检测
方法. 《中国优秀博硕士学位 论文全文数据库(硕
士)信息科技 辑》 .2020,(第02期), (续)
审查员 陈琪蒙
(54)发明名称
一种基于图片实例级特征的诈骗网站识别
方法及系统
(57)摘要
本发明公开了一种基于图片实例级特征的
诈骗网站识别方法及系统, 属于图像处理技术领
域, 针对现有的技术方案存在的对诈骗网站识别
模式单一, 识别效果不高, 容易出现漏报误报的
情况。 本发 明通过对需要识别的网站首页截图进
行全局特征模 型进行图片 全局特征向量的提取,
然后将提取的图片全局特征向量在特征向量数
据库中进行搜索, 计算搜索该图片 全局特征向量
和特征向量数据库的所有图片全局特征向量的
欧式距离, 并返回距离最近的前N个图片全局特
征向量和所属涉诈类型, 最后计算分别与N个图
片相似实例对象特征点的最多的数量, 得到待识别网站的类型。
[转续页]
权利要求书3页 说明书8页 附图3页
CN 114005004 B
2022.04.01
CN 114005004 B
(56)对比文件
刘可.移动通信中的金融类钓鱼网页检测方
法研究. 《中国优秀博硕士学位 论文全文数据库
(硕士)信息科技 辑》 .2018,(第04期),
Anlit Kumar Jai n 等.Phishi ng
Detection: Analy sis of Visual Simi larity
Based Ap proaches. 《Security and Communication Networks》 .2017,
P.Kalaharsha 等.Detecti ng Phishi ng
Sites - An Overview. 《arXiv》 .2021,
F.C. Dalgic 等.Phish -IRIS: A New
Approach for Visi on Based Brand
Predicti on of Phishi ng Web Pa ges via
Compact Visual Descriptors. 《ISMSIT 2018》
.2018,2/2 页
2[接上页]
CN 114005004 B1.一种基于图片实例级特 征的诈骗网站 识别方法, 其特 征在于, 包括:
S1: 采集原始积累的诈骗网站并获取有效截图, 对其进行数据类型标注, 构建形成预训
练数据集, 然后通过监 督学习的方式构建图片全局特 征模型, 用于提取图片全局特 征向量;
S2: 通过所述图片全局特征模型获取所有截图的图片全局特征向量, 并按照对应的类
型分类保存至特 征向量数据库中;
S3: 对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注, 构建实例级的
对象标注数据集, 然后采用深度神经网络搭建基于诈骗网站场景 的图片实例级特征模型,
用于检测图片中的实例对象特 征点数量及实例对象特 征向量;
S4:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向
量, 然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相
似距离, 然后按照距离的由近到远进行排序, 最后根据距离阈值筛选前面数个距离近的图
片作为匹配样本图片;
S5:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型, 提
取两张图片的实例对象特征点数量和实例对象特征向量, 然后计算他们之 间相似实例对象
特征点的数量, 最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈
值, 得到待识别网站的类型。
2.根据权利要求1所述的一种基于图片实例级特征的诈骗网站识别方法, 其特征在于,
S1具体为:
S1.1: 采集原始积累的诈骗网站并获取有效截图, 对其进行数据类型标注, 构 建形成预
训练数据集;
S1.2: 采用监督学习的方式构 建基于MobileNet神经网络结构的图片分类模型, 通过模
型的训练学习到诈骗类网站的特 征分布情况;
S1.3: 通过 学习好的图片分类模型抽取模型的特 征层为输出作为图片全局特 征模型;
S1.3.1.提取图片分类模型的每个bottleneck层的输出再接上一个全局平均池化层最
终得到每 个bottleneck获取的特 征向量;
S1.3.2.将每个bottleneck层获取的特征向量和最后一层 特征层进行合并组合成全局
特征向量;
S1.3.3.以图片作为输入, 融合的全局特 征向量作为输出, 组成图片全局特 征模型。
3.根据权利要求2所述的一种基于图片实例级特征的诈骗网站识别方法, 其特征在于,
S3中采用深度神经网络搭建基于诈骗网站场景的图片实例级特 征模型具体为:
S3.1:采用三层卷积神经网络获取图片的轮廓信息, 并去除一些噪声和不相关的干扰
信息;
S3.2: 在轮廓信息后加上attention神经网络层, 获取图片中的各个实例级对象的位置
信息;
S3.3: 在轮廓信息后加上autoencoder神经网络层, 分块获取图片的各个部分的特征编
码信息;
S3.4: 通过对位置信息和特征编码信息进行组合, 输出图片的实例级对象特征点数量
和实例级对象的特 征向量;
S3.5: 以图片为输入, 实例级对象特征点数量和实例级对象的特征向量为输出, 组成图权 利 要 求 书 1/3 页
2
CN 114005004 B
3
专利 一种基于图片实例级特征的诈骗网站识别方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:47:18上传分享