算法及模型备案信息说明

导言

为了便于您了解腾讯音乐歌声唱作大模型相关产品或服务(以下简称“本服务”)所依托的算法机理以及相关使用限制,我们特别制定了《算法及模型备案信息说明》(以下简称“本说明”)。请您在正式开始使用本服务之前仔细阅读本说明,以便您后续更加顺畅地体验本服务。

一、模型的算法机制

本服务使用的模型信息如下:

(一)算法名称:腾讯混元大模型多模态算法

算法基本原理:腾讯混元大模型多模态算法是一种基于人工智能的技术,它通过分析和理解多模态内容,然后通过神经网络模块生成符合用户要求的感官效果。

算法运行机制:腾讯混元大模型多模态算法首先通过自然语言处理、embedding 特征提取等方式,提取关键信息和情感等元素。然后通过文本编码器将文本信息经过预处理和违法不良信息审核后,注入给基于 transformer 的扩散模型,生成符合用户要求的文字、图片、视频、音频等。这个过程涉及到自然语言处理、计算机视觉和扩散模型等多种技术。

算法应用场景:腾讯混元大模型多模态算法通过App内网页中转到后台,以API的方式为C端用户提供一系列的服务,是基于跨知识领域和自然语言理解能力、通过产品化的功能和界面,理解用户输入的文字、语音、图片等指令,从而生成歌词。

算法目的意图:用户通过腾讯混元大模型多模态算法可以获得对输入内容的理解,经过提示词、知识库,获得初版的歌词。

备案编号:网信算备440305295988701240155号

(二)算法名称:DeepSeek大语言模型算法

算法基本原理:DeepSeek 大语言模型系以 Transformer 架构为基础的深度神经网络模型。模型基于注意力机制,通过海量语料数据进行预训练,并经过监督微调、人类反馈的强化学习等进行对齐,构建形成深度神经网络,并增加审核、过滤等安全机制,使算法模型部署后能够根据人类的指令或者提示,实现语义分析、计算推理、问答对话、篇章生成、代码编写等任务。

算法运行机制:运行机制为用户输入文本格式的自然语言数据,产品经过预处理和违法不良信息审核后,由算法模型根据语言的统计规律、知识和对齐要求进行推理和计算,通过预测下一个最佳词语来实现文本生成,最后产品将经过审核的生成的歌词内容输出返回给用户预览。

算法应用场景:通过App内网页中转到后台,以API的方式为C端用户提供一系列的服务,是基于跨知识领域和自然语言理解能力、通过产品化的功能和界面,理解用户输入的文字,从而生成歌词。

算法目的意图:用户通过DeepSeek大语言模型可以获得对输入内容的理解,经过提示词、知识库,获得初版的歌词。

备案编号:网信算备110108970550101240011号

本服务使用的算法信息如下:

(一)腾讯音乐歌声合成算法

算法基本原理:本算法提出的一种零次样本和少量样本音色定制方法既能实现零样本低成本音色复刻,也能实现少量样本一定成本音色复刻,帮助用户使用自己的音色翻唱任意歌曲,即保持歌词内容不变的情况下改变音色,类似达到一首歌曲多个翻唱版本。

算法运行机制:本方法提出的一种零次样本和少量样本的音色定制方法,主要分为两个阶段,模型训练阶段、推理转换阶段,其中训练阶段需要分两个步骤: a) 基础模型训练方法、 b) 用户音色定制方法:

a)基础模型训练阶段主要使用购买合规数据和授权干声数据,无需标注,不限语种,直接提取声学特征,进行一个多人的基础大模型训练。

b)为了更加准确的克隆指定目标人音色,可针对未见人进行模型精调得到其定制的音色模型,即针对目标人用户进行少量样本音色定制,录制最少 30s 音频片段,在基础底模上进行精调训练定制专属音色模型;同时为了更加快速方便克隆指定目标人音色,不进行模型精调,也提供通过零次样本音色复刻,仅录制最少 10s 音频片段即可使用基础底模进行推理音色复刻。

推理仅需要一首高质量干声数据,使用已经训练好的音色模型,并提取改歌曲声学特征即可推理转换,得到用户自己音色的翻唱歌曲版本。

算法应用场景:保持已有歌曲的音调、歌词,实现音色替换的翻唱;保持已有歌曲的音调,通过改词,实现改编。

算法目的意图:既能实现零样本低成本音色复刻,也能实现少量样本一定成本音色复刻,对于录制干声无明显限制,支持任意语种,无歌唱技巧要求,即使跑调也可以,只要吐字清晰、无明显噪音即可,帮助用户使用自己的音色翻唱任意歌曲。帮助满足用户享受艺术,满足精神文化需求。

备案编号:网信算备440305544180001240039号

(二)酷狗音乐歌声合成算法

算法基本原理:本算法是一种基于用户少量歌声录音数据的歌声合成算法。能够根据用户录制的2-5 首歌,提取用户的音色特征训练出声学模型。所训练得到的声学模型能够模拟用户声音,从而可以使用用户的声音来合成歌声制作歌曲。

算法运行机制:采用大量标注好的歌声数据训练歌声合成的基础声学模型;根据用户录制的2-5 首歌声数据,微调基础声学模型的参数,得到用户的声学模型;训练得到的用户声学模型能够模拟用户声音,从而可以使用用户的声音来进行歌声合成制作歌曲。

算法应用场景:保持已有歌曲的音调、歌词,实现音色替换的翻唱;保持已有歌曲的音调,通过改词,实现改编。

算法目的意图:帮助用户用自己的声音进行歌声合成,让用户可以用自己的声音来制作歌曲。

备案编号:网信算备440106592132901230027号

二、模型的控制与管理

如果您认为模型的回复可以改进或纠正,可使用本服务所在APP的“帮助与反馈”功能告知我们。感谢您的反馈!

三、模型的局限性以及对您的特别提示

我们致力于提供安全、稳定、持续的服务,以保障用户的正常使用,您理解并同意,尽管我们已经尽了最大努力,但由于大模型技术发展的局限性,我们无法完全保证:

(1) 本服务或算法模型将符合您的实际或特定需求或目的;

(2) 本服务或算法模型百分百准确可靠、功能可用、持续稳定、不存在故障;

(3) 本服务所依赖的大语言模型及其相关技术,能完全和人类一样可以充分理解用户输入的内容,您理解其可能无法发现您的输入内容或本服务生成内容中潜在风险和伦理问题;

(4) 生成内容的真实性、完整性、准确性、及时性及实用性;

(5) 生成内容不具有瑕疵、不存在虚假内容或不合理、引发用户不适的内容。

鉴于此,针对本服务生成的内容请您注意甄别并根据您的实际情况做出理性判断。请审慎理性和依法使用本服务。

四、联系我们

如您对本说明或者有关事宜有任何意见或建议,或您有任何疑问或需要帮助的,请您通过以下方式联系我们:

运营方:腾讯音乐娱乐科技(深圳)有限公司

联系地址:深圳市南山区科兴科学园D3栋12楼

联系电话:400-601-6666

或通过本服务所在APP的"帮助与反馈"功能联系我们。