当前位置: 首页 > 编程日记 > 正文

谁是“艾灵”?是腾讯的真国风 AI 虚拟人!

近日,腾讯AI虚拟人艾灵再秀出新技能,首次展示AI作诗、AI书法等国风才艺,并与青年歌手白举纲跨次元合作,共同演唱国风新歌《百川千仞》。

AI“艾灵”诞生于腾讯AI Lab,来自实验性、探索性技术项目“多模态虚拟人”。机器学习、计算机视觉、自然语言处理等多种核心AI能力融合,让艾灵能“歌”善“言”,饱读“诗书”。

此次最新发布的艾灵写诗技能,来自于文本创作模型SongNet,针对任意关键词,艾灵都能快速“作出”藏头、藏中的诗词。而依托腾讯AI Lab的前沿图像生成技术,艾灵得以拜颜真卿、柳宗元、米芾、苏轼等中国书法大家为师,运用最新的图像生成对抗网络,“写下”神形兼备的书法字体。在2021年春节,她运用这项技能为上千万人写下寓意美满的春联。

目前,团队已经通过公开论文发表了 DurIAN 和 SongNet 的核心技术细节,SongNet 代码也已开源。未来,腾讯AI Lab将把该项技术能力开放给业界,共同探索AI数字人与数字内容生成和教育等现实场景的结合,携手更多创作者一起传承中华优秀文化。

谁是“艾灵”?

传统虚拟偶像一般是通过对真人演员的“动作捕捉+配音”来实现的,但让艾灵这样的AI虚拟人能够动起来、与真人对话,技术难度更大、也对技术的协同性提出了更高的要求。

艾灵背后由一套腾讯AI Lab自研的复杂系统支撑,系统首先要从文本中提取不同信息,包括动作、表情、情感、重音位置、和激动程度等;之后,这些信息被输入到模型中,生成动作和表情,再同步生成语音、口型和表情参数,最终才有了艾灵自然生动的表现。

腾讯“多模态虚拟人”项目希望把计算机视觉、语音/歌声合成和转换、图像/视频合成和迁移、自然语言理解等多模态的AI能力和技术融为一体,生成清晰、流畅、高质的可交互内容,推进AI在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域的应用。

相较于传统方法,应用多模态合成技术打造的虚拟人,无论是在自然度、鲁棒性、可控性、泛化能力以及实时性等方面都取得了更好的效果。

深度学习:秒学才艺的魔法

艾灵所具备的唱歌、表情、作词、书法等多项才艺,均来自于对海量数据的深度学习,这帮助她快速掌握更多技能,向全能AI不断接近。

“气贯长虹”、“充满未来之感”的歌声,来源于腾讯AI Lab研发的DurIAN声学模型。不同于其他虚拟歌姬的“机器合成+人工调教”模式,给艾灵输入一段曲谱,无需人工调教,她就可以合成非常自然和拟真的歌声。

首先,研究者以音素为基本发音单元将任意歌曲描述为一连串音素的序列;然后通过分析歌谱,从文字、旋律、节奏等多个维度分别提取和预测词曲中每个音素的发音、时长、停顿、音高、风格和演唱技巧等特征;最后使用由真人(中国网络声优龟娘)演唱的歌声训练得到的深度神经网络声学模型和声码器模型,合成出与真人声线高度相似歌声音频。

艾灵写藏头诗的能力,来自文本创作模型SongNet。模型的基本骨架是一个自回归语言模型,腾讯AI Lab研究员针对格式、韵律、句子完整性设计了特殊的符号来进行标识和建模。词粒度和句粒度的掩码训练策略可以增强模型给定上下文补全缺失内容的能力。借助于经典的预训练和精调模式,可以进一步提升模型生成诗词的质量。

书法则是艾灵最近掌握的新技能。腾讯AI Lab依托前沿的图像生成技术,通过训练AI书法学习模型,模仿书法的形体及神韵。实验室投入了大量精力,运用最新的AI图像生成对抗网络,同时训练了两个“学徒”——AI书法学徒和AI鉴定学徒来帮助艾灵学习。

首先,AI书法学徒通过提取字形结构等基本信息,捕捉并融入书法的风格韵味;而书法鉴定学徒则学习成为一个书法鉴定师,在对字帖真迹和AI模拟生成的字体进行比较分析之后,反馈两者的差别及“AI模拟字”的不完善之处,从而进一步鞭策书法学徒完善模仿能力。

“我是一个喜欢中国文化的国风AI……目前还在努力学习,立志点亮更多技能,成为全能AI,把中华文明的美好传递给更多观众!”正如艾灵的自我介绍,腾讯AI Lab打造“AI艾灵”,正是希望用科技与二次元的结合,做好传统文化的“传承者”,让更多青年人爱上中华文化。

腾讯AI Lab研究员表示,随着不断学习,后续艾灵还将学会很多新技能,比如在唱歌方面,团队正在努力让艾灵掌握不同的腔调,还可以学习传统戏曲、不同方言等更多歌唱方式。

更多精彩推荐  AI时代竟有智能化鸿沟,具备哪些条件才能跨过?遏制企业数据泄露,大咖切磋云安全的攻防之道Mendix 披露低代码方法论,解读真实技术趋势
张一鸣卸任CEO,立下10年之约,期望突破线性延伸
点分享点收藏点点赞点在看

相关文章:

[Java实现] 图片择优(选择最清楚的图片)

FuzzyDetection 图片择优(选择最清楚的图片)【Java实现】效果不错,大家可以根据我的源码改成自己使用的语言并应用到自己项目中。 实现思路 获取图片的灰度图数组使用拉普拉斯算子进行卷积运算 {0, 1, 0, 1, -4, 1, 0, 1, 0}获取结果的方差与…

C#获取硬盘序列号

using System; using System.IO; using System.Runtime.InteropServices; using System.Text; using Microsoft.Win32; namespace Wjb.ReadOrWriteIniAndReg { /// <summary> /// HardDiskVal 的摘要说明。 /// 读取指定盘符的硬盘序列号 /// 功能&#xff1a;读…

Arm 发布移动端 v9 体系新架构,CPU、GPU、IP全囊括了

作者 | 夕颜头图 | 下载于ICphoto出品 | AI 科技大本营&#xff08;ID:rgznai100&#xff09;2021年5月25日晚&#xff0c;Arm发布了针对移动端的Armv9体系新架构&#xff0c;除了公布首款全面计算&#xff08;Total Compute&#xff09;解决方案&#xff0c;Arm还发布了首批基…

16条很有用的Chrome浏览器命令

为什么80%的码农都做不了架构师&#xff1f;>>> Google Chrome浏览器有很多的特性在界面菜单中是没有体现的&#xff0c;你可以通过「chrome://命令」来访问。在Chrome的浏览器地址栏中输入命令&#xff0c;就会返回相应的结果。下面是16个非常有用的chrome://命令…

Spring集成Redis方案(spring-data-redis)(基于Jedis的单机模式)(待实践)

说明&#xff1a;请注意Spring Data Redis的版本以及Spring的版本&#xff01;最新版本的Spring Data Redis已经去除Jedis的依赖包&#xff0c;需要自行引入&#xff0c;这个是个坑点。并且会与一些低版本的Spring有冲突&#xff0c;要看官方文档和不断的测试。 继上一篇文章ht…

leetcode -- 3 sum

3-sum 题目描写叙述&#xff1a; Given an array S of n integers, are there elements a, b, c in S such that a b c 0? Find all unique triplets in the array which gives the sum of zero. 题目要求&#xff1a; Elements in a triplet (a,b,c) must be in non-desc…

C#中如何得到机器的IP地址

如何使用DNS类并得到机器的IP地址的技巧 介绍 这篇文章并不是技术纵览或大型讨论&#xff0c;而更像是关于如何得到IP地址或主机名称的技巧集锦。在 Win32 API编程中你可以使用NetWork API&#xff0c;在.NET平台中也是类似的。唯一的不同之处是你要找到并理解为完成这个任务需…

让浏览器开挂的插件,测评师教你如何选

CSDN下起了红包雨399 元智能音箱199 元天猫精灵300元现金红包/会员100元红包/会员更有千万流量曝光100%有奖......作为日常总发现 " 宝藏 " 的你总体验过一些 " 王炸 " 级别的chrome插件让你想 “ 真诚 ” 安利所以&#xff0c;CSDN开启了彩虹屁chrome插件…

JQuery:JQuery 中的CSS()方法

JQuery:CSS()方法jQuery css()方法&#xff1a;css()方法设置或返回被选元素的一个或多个样式属性。1、返回 CSS 属性如需返回指定的 CSS 属性的值&#xff0c;请使用如下语法&#xff1a;css("propertyname");下面的例子将返回首个匹配元素的 background-color 值&a…

j.u.c.locks.AbstractQueuedSynchronizer.Node

2019独角兽企业重金招聘Python工程师标准>>> AQS是JUC当中最核心的部分&#xff0c;大部分多线程讲解&#xff0c;都不会详细讲AQS&#xff0c;AQS的源代码&#xff0c;要看明白还是有点困难的。但是一旦看明白了&#xff0c;结构还是蛮清晰的。这里我们把AQS拆开&a…

使用C#开发COM+组件

一般来说&#xff0c;在IT技术界以及硬件产业&#xff0c;技术的更新换代速度非常得惊人&#xff0c;而惯例是所有的新技术都会遵循向下兼容的原则&#xff0c;但是.NET技术不仅仅做到了这一点&#xff0c;.NET甚至实现了相互之间的各自调用&#xff0c;这一点是非常难能可贵的…

香奈儿的 AI 实验室里,发生了什么?

作者 | 库珀来源 | 数据实战派头图 | 下载于ICphotoAI 已经能够在给你播报今日天气时提供穿衣建议。相信你大多数情况下都听进去了。如果它给你提供美妆建议呢&#xff1f;包括香奈儿在内&#xff0c;越来越多的美容品牌正在将 AI 技术结合到其产品之中。可是&#xff0c;人工智…

VS code for python开发利器

转发点赞支持引言最近在整理python自动化测试课程的内容&#xff0c;发现了微软出的vs code编辑器太牛逼了&#xff0c;非常好用&#xff0c;而且轻量的不要不要的&#xff0c;特此记录下&#xff0c;有选择纠结症的朋友我强烈推荐使用ta。PS&#xff1a;兼容win10且兼容高分辨…

C#编码标准--命名约定和风格

命名约定和风格 1&#xff0e; 使用Pascal的命名规范命名类型和方法的名字。 public class SomeClass { public SomeMethod(){} } 2&#xff0e; 使用camel命名规范命名局部变量和方法的参数。 int number; void MyMethod(int someNumber) {} 3&#xff0e; 在命名接…

与AMD合并后,赛灵思与英特尔、英伟达在数据中心市场呈“三足鼎立”之势

被以350亿美元的价格收购后&#xff0c;全球独一家FPGA公司赛灵思归于芯片巨头AMD的麾下&#xff0c;正式成为AMD的一份子。如果英伟达收购ARM顺利进行&#xff0c;无疑将让半导体行业格局再次发生巨变。 赛灵思为什么会选择归于AMD旗下&#xff1f;成为AMD的一份子之后&#…

Android -- Fragment注意事项

ViewPagerFragment 让Fragment成为ViewPager的一页时&#xff0c;FragmentManager会一直保存管理创建好了的Fragment&#xff0c;即使当前不是显示的这一页&#xff0c;Fragment对象也不会被销毁&#xff0c;…

C#编码标准--编码习惯

1. 避免将多个类放在一个文件里面。 2. 一个文件应该只有一个命名空间&#xff0c;避免将多个命名空间放在同一个文件里面。 3. 一个文件最好不要超过500行的代码&#xff08;不包括机器产生的代码&#xff09;。 4. 一个方法的代码长度最好不要超过25行。 5. 避免方法中有超过…

官宣!《新程序员·开发者黄金十年》正式发布

“在互联网还不发达的时代&#xff0c;就是《程序员》伴我成长的。”“怀念啊&#xff0c;曾经《程序员》的日子。”“我是看着《程序员》长大的&#xff0c;大二时买了创刊号。”“这可是我们这一代人大学时候满满的回忆&#xff0c;也是当时寝室中传阅最多的书。”“每年的《…

java笔记(一)

2019独角兽企业重金招聘Python工程师标准>>> java数组是静态的&#xff0c;即数组被初始化后&#xff0c;其所占内存空间、数组长度是不可变的。初始化数组有静态初始化和动态初始化两种&#xff1a; public class ArrayTest {//以下是数组的两种静态初始化String[]…

遮罩效果的实现

很多时候我们需要用到遮罩弹出层效果&#xff0c;下面给出一个简单的遮罩demo&#xff1b; 效果演示 demo代码 注意引入jquery <html> <head> <meta charset"utf-8"> <title>遮罩</title><script srcjquery-1.8.3.min.js></s…

C#实现汉字转化为拼音

其实现的原理就是先将汉字转化成为内码&#xff0c;然后通过内码和拼音的对照来查找。 详细的代码如下所示&#xff1a; public class chs2py {private static int[] pyvaluenew int[]{-20319,-20317,-20304,-20295,-20292,-20283,-20265,-20257,-20242,-20230,-20051,-20036,…

c基础知识复习

C的发展历程 C原本是为了开发UNIX操作系统而设计的语言&#xff1b;如此说&#xff0c;应该C比UNIX更早问世&#xff0c;而事实并非如此&#xff0c;最早的UNIX是由汇编写的&#xff1b; C语言本来是美国人开发的&#xff0c;解读C的声明&#xff0c;最好还是用英语来读&#x…

训练 GPT-3,为什么原有的深度学习框架吃不消?

本文梳理了深度学习框架在支持大规模预训练模型时面临的技术挑战&#xff0c;以及当前各类框架的基本解决思路&#xff0c;帮助算法工程师对业界各类框架的分布式训练能力有更清晰的认知。作者 | 一流科技CEO袁进辉头图 | 下载于ICphoto近年来&#xff0c;深度学习被广泛应用到…

ImageMagick简单记录

一、安装 mac下的安装非常简单 brew search ImageMagick brew install xxx 安装后&#xff0c;可验证 magick logo: logo.gif identify logo.gif display logo.gif 更多安装方式参考&#xff1a;http://www.imagemagick.org/script/download.php 二、命令介绍 命令概览convert&…

低代码、RPA 和 AI,有什么区别

来源 | LowCode低码时代头图 | 下载于视觉中国在To B领域&#xff0c;低代码、RPA和AI可谓是“流量担当”&#xff0c;它们自带To B基因&#xff0c;搭载快速发展的企业服务赛道&#xff0c;在企业级IT服务这一细分市场崭露头角。以这三者为代表的前沿理念和科技引领IT产业升级…

C# 获取 IE 临时文件

大家知道&#xff0c;在我们访问一个网站的时候。系统会把这个网站上的图片&#xff0c;动画等内容全部缓存到Internet临时文件夹中。 我们可以通过 <Drives>:/Documents and Settings/<user>/Local Settings/Temporary Internet Files访问。但是可能我们都没有想…

wifidog接口文档(转)

目录(?)[-] 网关心跳协议 请求信息 回复格式 例子用户状态心跳协议 请求格式 注意 回复格式 状态码 例子跳转协议 请求格式 例子注册协议 请求格式 例子wifidog是搭建无线热点认证系统的解决方案之一&#xff0c;他比nocat更适合互联网营销思路。目前支持openwrt系统&#xff…

Oracle XQuery 过滤XML查询SQL

Oralce 支持SQL XQuery查询 一个简单示例&#xff1a; SELECT XMLQuery(for $i in /Videogame return $i/Type passing by value X RETURNING CONTENT) FROM (SELECT XMLTYPE(<Videogame><Type>Racing</Type><Name>NFS Most Wanted</Name><…

C#2.0匿名函数

C# 2.0中提供了通过delegate实现匿名函数功能&#xff0c;能有效地减少用户记代码工作&#xff0c;例如 以下为引用&#xff1a; ... button1.Click new EventHandler(button1_Click); ... void button1_Click(Object sender, EventArgs e) { // Do something, the button…

第三届北京智源大会开幕,全球最大智能模型“悟道2.0”重磅发布

6月1日&#xff0c;由北京智源人工智能研究院&#xff08;以下简称智源研究院&#xff09;主办的2021北京智源大会在北京中关村国家自主创新示范区会议中心成功开幕。 北京智源大会是智源研究院主办的年度国际性人工智能高端学术交流活动&#xff0c;定位于“AI内行顶级盛会”…