AI音乐合成热潮下，相关法律边界在哪里

发布时间:2023-05-26 13:24:21| 浏览次数：

人工智能技术的发展体现了典型的“爆炸”式而非“线性”发展的路径，最近，人们不难发现，人工智能技术在绘画、对话等领域取得了突破性发展，而AI在底层技术上的突破，必然导致其在诸多应用领域的创新使用。

近日，AI音乐合成火了起来，很多内容平台上可以看到标题为“AI孙燕姿”“AI邓丽君”“AI周杰伦”等“AI明星”所演唱的歌曲，这些用AI技术制造出来的明星，其演唱效果与真人非常接近，可以说是形神兼备。而且“AI明星”还可以演唱其他人的歌曲，例如让邓丽君唱周杰伦的《千里之外》。因此，所以这一现象引起了网友的广泛关注，吸引了不少网友亲身体验，并上传自己体验“AI明星”演唱歌曲的视频。

“AI明星”是如何诞生的

在讨论“AI明星”涉及的法律风险前，有必要对其产生过程进行了解。

从声音方面看，“AI明星”使用的核心技术来自基于开源项目制作歌声转换模型（例如Sovits4.0），它可以将一个人的声音转换成另一个人的声音，具有较高的准确性和逼真度。这意味着诸如“AI孙燕姿”可以通过该模型学习并模仿孙燕姿的音色和唱腔特点，从而创造出逼真的具有孙燕姿风格的歌曲。具体做法是，歌声转换模型通过内容编码器提取目标歌曲（想要翻唱的歌曲）的音调、音高等特征，然后将每段音频做成时长很短的切片，之后将翻唱者（例如孙燕姿）的声音数据作为训练数据源交给算法提取特征，再将这些特征和歌曲的切片对应。最后对生成的歌曲进行后期优化，比如加入混响或简单修音，一首AI翻唱歌曲就制作完成了。

模型的核心技术是SoftVC内容编码器，它基于深度学习和神经网络技术，目标是学习并提取人声中的内容信息，即与语义相关的特征，而忽略与说话人个体有关的特征。这样的分离可以确保在进行歌声转换时，保留源音频的音乐内容，并将其转换为目标歌手的声音特征。这个过程需要大量的训练数据和不断反复迭代的训练过程，以使生成的输出效果尽可能接近目标歌手。

对于人脸的表情和动态，核心技术也是提取脸部的特征值以及表情特征向量，然后将其与目标人脸进行算法的智能匹配。在智能学习模型的驱动下，AI“学会”了明星的声音和表情后，通过算法将这些声音和表情动态匹配应用到另一首目标歌曲中，“AI明星”就可以演绎其他人的歌曲了。

AI音乐合成带来了非常大的商业想象空间，例如可以把去世的明星“复活”，让他们的艺术生涯得以永续。譬如邓丽君这样的歌手，她的歌声承载着一代人的美好记忆。通过AI的“学习”可以将邓丽君“复现”，对于喜欢她的观众而言，无疑可以带来巨大的心理安慰。

实际上，随着元宇宙、AR、VR等技术的不断成熟，人类必定会进入到虚拟世界中。到那时，实体人是无法在虚拟世界表演的，必然要有数字虚拟人的生成。明星们可以借助AI技术将自己“复刻”到虚拟世界中为用户表演，而且可以通过算法不断调整和优化。这样的“AI明星”的表演和自我进化能力是有可能在数字技术的加持下超越本人，而且可以一直表演下去。

这种合成技术还有一个重要的商业场景，就是让用户亲身参与到音乐制作中。过往的音乐制作具有很高的专业门槛，没有很好的设备和调音知识是无法录制成一首高质量的歌曲的。而有了AI声音模型，用户可以把自己的声音作为数据集进行训练，并且很快就能得到用自己的歌声演唱的各种歌曲，甚至可以让AI生成一些新的词曲，交给自己的AI声音模型演唱，此种方式将大大调动用户的积极性。

相关著作权风险应引起注意

AI音乐合成能够降低音乐制作门槛，提高用户参与度，有着广阔的商业前景，但同样有着法律上的风险，其中有关著作权的法律风险已经引发了许多讨论。

法律上，AI合成或者翻唱的歌曲是AI驱动一个人的声音来表演另一个音乐作品的过程，这个过程涉及著作权中较为复杂的问题。

一是合成过程中的著作权侵权问题。

很多AI翻唱要用到第三方的作词作曲（目标词曲），如果没有获得相关权利人的同意和授权，当然会构成侵权，这个问题在现有的“先授权后使用”的著作权制度下会变得更加尖锐。一方面，因为互联网的实时性，很多词曲的热度一过，价值就会大为减损，所以音乐合成需要更加快速的授权。另一方面，传统的获得授权方式需要等待的时间较长，等拿到权利人完整的授权，用户的使用热情和消费场景可能已经失去，所以需要建立更高效的授权制度，使之更加匹配网络时代的实时性要求。

至于有观点认为，如果合成音乐只是用户自娱自乐，不用于商业盈利就可以免责的问题，在《著作权法》层面确实有“合理使用”制度作为依据（《著作权法》第二十四条规定了13种“合理使用”类型，其中包括“免费表演已经发表的作品，该表演未向公众收取费用，也未向表演者支付报酬，且不以营利为目的”的情形），但此处的表演仅包括现场表演和机械表演，即表演者通过直接向现场观众表演作品或者使用机器设备向受众予以公开播放的表演行为。而网络上的AI翻唱如果通过直播或者上传分享的方式传播，则构成了另一个独立的“信息网络传播”行为，后者是不在合理使用制度的豁免范围内的。所以，广大用户在使用AI进行翻唱的过程中还是要谨慎，翻唱本身可能属于合理使用，但一旦有了信息网络传播行为，仍然可能构成侵权。

二是合成的歌曲是否可以作为作品受到《著作权法》保护。

这个问题在学术界是有争议的，有观点认为机器生成的内容无论如何不会成为作品，也不能受到《著作权法》保护，理由包括脱离了人的创作、没有独创性、不属于智力成果等。虽然现在著作权保护的是自然人，但笔者认为这种思路仍然是从现行法律出发，没有离开以“人”为中心的视角。在当前的技术浪潮下，应该在“人的视角”基础上引入“技术视角”，将越来越多“人机结合”的生成物纳入法律保护范围。例如，AI翻唱的歌曲虽然有大量自动化执行的成分，但如果在合成过程中有人的参与，并不断利用AI工具进行调优，最终生成令人满意的作品，则可以赋予著作权保护。否则，今后越来越多的利用AI进行创作，然后再以人的眼光进行筛选的作品，如果没有法律保护，无法想象会是怎样的局面。究其根本，AI技术的突破，直接改变了人类传统的创作模式，人的创作从以往的“凭空创造”变成了在AI给出的若干选项中遴选、判断、调整和优化。笔者认为，这种创作方式的进步应该得到法律认可。

三是关于平台责任问题。

按照现行的法律规定，用户使用AI技术进行语音合成或者翻唱，之后发布到平台上，平台是否应对此承担责任，这取决于平台是否直接提供这类AI的“二创”服务。

如果平台只是中立的第三方，有关AI“二创”的行为是用户或者其他主体完成的，这种情况下，平台通常需要遵守传统的“避风港原则”，即在权利人向平台发出通知的情况下，进行必要的处理措施而不需要提前的实质性审查。但如果平台提供了利用人声、肖像等进行深度AI创造的技术服务或者支持，则应当尽到更高的注意义务，特别是用户大量发布侵权内容到平台，给平台带来大量的流量和广告收益的情况下，而且，目前已有司法判例要求平台对此承担更高的注意义务。

在合法的前提下，人工智能发展才能更稳健

“先授权后使用”，这是作品使用的基本原则，不仅是著作权，在使用第三方的声音作为AI训练数据源的时候，必须要注意取得授权，使用第三方肖像就更不用说了。特别是《民法典》颁布实施后，肖像权的侵权使用不再以盈利为前提，其合理使用豁免也不可能扩展到整个互联网的范围。

还需要注意的是，有辨识度的声音所对应的人格权是可以获得法律保护的，《民法典》第一千零二十三条规定了对自然人声音的保护，参照适用肖像权保护的有关规定，这是此次《民法典》人格权编的一大亮点。在权利保护层面，则参照肖像权的保护模式，防止其被混淆、滥用、冒用、不正当使用。因此，AI使用同样要注意对有辨识度的声音所对应的人格权进行保护。

同时，深度合成有关违法犯罪问题也非常值得关注，因为深度合成技术一旦应用到声音和人脸领域，可能会引发违法犯罪。声音和人脸是有指向性的，是社交过程中建立信任的重要依据，借助AI技术生成的人脸和声音可能会被用于诈骗和其他衍生犯罪行为。因为这种深度的伪造技术会导致受害人很难分辨不出是真人还是AI，容易在不知情的情况下遭受财产或人身损失。在这一情形下，需要特别强调“科技向善”的概念，这应该成为每个科技使用者坚守的目标。

总而言之，AI音乐合成是人工智能技术在音乐领域的突破性成果，相信未来会带来音乐领域的一次革命，推动音乐向“人机结合”“人机共创”的崭新路径上发展，我们对此应抱有乐见其成和主动拥抱的态度。法律上要做的是“扬长避短”，寻找到对全体参与者而言最大的福利，在不断厘定各方权益边界的同时，更多地为权利使用、流动创造机会、打破壁垒，必要的时候应该针对法律本身进行突破和跟进，为技术发展扫清障碍，唯此，才能享受到技术作为第一生产力所带来的硕果。

（作者系浙江垦丁律师事务所主任）

企业概括

联系方式

企业概括

产品展示

下载中心

人才招聘

关注我们

友情链接：