团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111665083.2 (22)申请日 2021.12.31 (71)申请人 广州华多网络科技有限公司 地址 511442 广东省广州市番禺区南村镇 万达广场B1栋24层 (72)发明人 钟裕滨 庞磊  (74)专利代理 机构 广州利能知识产权代理事务 所(普通合伙) 44673 专利代理师 王增鑫 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/242(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01)G06N 3/08(2006.01) (54)发明名称 商品标题文本翻译方法及其装置、 设备、 介 质、 产品 (57)摘要 本申请公开一种商品标题文本翻译方法及 其装置、 设备、 介质、 产品, 所述方法包括: 获取用 于描述商品信息的标题文本, 确认该标题文本所 携带的至少一个词汇包含多个对应的译文; 识别 该确认的标题文本所属的领域类别, 确定该领域 类别相对应的领域词; 构造包含 所述领域词的示 范模板, 将其与该标题文本组合为源语言文本; 采用已训练至收敛状态的机器翻译模型对所述 源语言文本进行翻译, 获得该源语 言文本相对应 的目标语言文本, 从目标语言文本中获得标题文 本的译文。 本申请通过为待翻译的标题文本添加 起引导作用的包含该标题文本的领域词的示范 模板, 可指导机器翻译模型准确翻译出标题文本 所属领域相对应的术语, 提升翻译准确度。 权利要求书2页 说明书18页 附图4页 CN 114492470 A 2022.05.13 CN 114492470 A 1.一种商品标题文本翻译方法, 其特 征在于, 包括如下步骤: 获取用于描述商 品信息的标题文本, 确 认该标题文本所携带的至少一个词汇包含多个 对应的译 文; 识别该确认的标题文本所属的领域类别, 确定该 领域类别相对应的领域词; 构造包含所述领域词的示范模板, 将其与该 标题文本组合 为源语言文本; 采用已训练至收敛状态的机器翻译模型对所述源语言文本进行翻译, 获得该源语言文 本相对应的目标语言文本, 从目标语言文本中获得 标题文本的译 文。 2.根据权利要求1所述的商 品标题文本翻译方法, 其特征在于, 获取用于描述商 品信息 的标题文本, 确认该 标题文本所携带的至少一个词汇包 含多个对应的译 文, 包括如下步骤: 获取用于描述商品信息的标题文本, 对所述标题文本进行分词, 获得多个词汇; 查询预设的翻译词典, 以判断确认标题文本中的至少一个词汇是否包含多个译文; 其 中, 所述翻译词典包含词汇的源语言文本与其多个不同译文的目标语言文本之 间的映射关 系数据。 3.根据权利要求1所述的商 品标题文本翻译方法, 其特征在于, 识别该确认的标题文本 所属的领域类别, 确定该 领域类别相对应的领域词, 包括如下步骤: 对所获取的标题文本进行分词, 获得多个词汇; 检测所述标题文本的各个词汇是否命中各个领域词典, 量化出标题文本命中各个领域 词典相对应的命中率, 每个领域词典关联一个领域词, 且收藏属于其相对应的特定领域的 词汇; 判定所述命中率最大的领域词典为与所述标题文本相匹配的领域词典, 确定该领域词 典相对应的领域词以确定该 标题文本相对应的领域类别。 4.根据权利要求1所述的商 品标题文本翻译方法, 其特征在于, 识别该确认的标题文本 所属的领域类别, 确定该 领域类别相对应的领域词, 包括如下步骤: 采用预先训练至收敛状态的标题分类模型, 对所获取的标题文本进行分类映射, 获得 该标题文本相对应的领域类别; 根据所述领域类别获得其相对应的领域词。 5.根据权利要求1所述的商 品标题文本翻译方法, 其特征在于, 构造包含所述领域词的 示范模板, 将其与该 标题文本组合 为源语言文本, 包括如下步骤: 根据预设规则生成示范模板, 使该示范模板 中包含所述标题文本相对应的领域词及固 定词; 将所述示范模板作为前缀或后缀与所述标题文本相拼接, 构成源语言文本 。 6.根据权利要求1至5中任意一项所述的商品标题文本翻译方法, 其特征在于, 所述机 器翻译模型事为预训练模型, 被采用如下步骤实施微调训练: 获取预设的训练数据集中的一个训练样本, 该训练样本包括构 成平行语料的源语言样 本及其相对应的目标语言样本, 每个语言样本包括以相应语言表达的示范模板及用于描述 商品信息的标题文本, 所述 示范模板包 含其相应的标题文本所对应的领域词; 将所获取的训练样本输入经预训练 的所述机器翻译模型对其实施训练, 获得该模型对 该训练样本中的源语言样本的预测结果; 采用该训练样本的目标语言样本计算该 预测结果的损失, 获得损失值;权 利 要 求 书 1/2 页 2 CN 114492470 A 2判断所述损 失值是否达到预设阈值, 当该损 失值达到预设阈值时, 确认模型训练至收 敛状态, 终止训练; 否则, 对模型实施参数回传实现梯度更新, 调用所述训练数据集中的下 一训练样本对 模型实施迭代训练。 7.根据权利要求6所述的商 品标题文本翻译方法, 其特征在于, 获取预设的训练数据集 中的一个训练样本之前, 包括如下用于制备训练数据集的步骤: 从电商数据库中获取多个商品对象相对应的以语言表达的标题文本和以目标语言表 达的标题文本; 识别以源语言表达的标题文本所属的领域类别, 确定该 领域类别相对应的领域词; 从预设的翻译词典中获得所述标题文本 中的词汇关联于该领域词的目标语言译文, 修 正以目标语言表达的标题文本; 构造包含源语言和目标语言相对应的示范模板, 使示范模板包含相应语言表达的所述 领域词, 将不同语言表达的示范模板分别对应与不同语言表达的所述标题文本相组合, 构 造出该标题文本相对应的源语言文本与目标语言文本; 将所述源语言文本与 所述目标语言文本构 成的平行语料存储于训练数据集中, 以作为 机器翻译模型的训练样本供调用。 8.一种计算机设备, 包括中央处理器和存储器, 其特征在于, 所述中央处理器用于调用 运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的 步骤。 9.一种计算机可读存储介质, 其特征在于, 其以计算机可读指令的形式存储有依据权 利要求1至6中任意一项 所述的方法所实现的计算机程序, 该计算机程序被计算机调用运行 时, 执行相应的方法所包括的步骤。 10.一种计算机程序产品, 包括计算机程序/指令, 其特征在于, 该计算机程序/指令被 处理器执行时实现权利要求1至 6任意一项中所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114492470 A 3

.PDF文档 专利 商品标题文本翻译方法及其装置、设备、介质、产品

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 商品标题文本翻译方法及其装置、设备、介质、产品 第 1 页 专利 商品标题文本翻译方法及其装置、设备、介质、产品 第 2 页 专利 商品标题文本翻译方法及其装置、设备、介质、产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:49:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。