第 2 节 创新之路:聪明的 AI 不是一天练成的(第1页)

大家好,我们是放大灯,感谢科大讯飞的邀请。今天想和大家一起聊聊「人工智能技术」。

无人不知人工智能,但搁二十年前,绝对不是这番光景。

如果穿越回去,你问别人什么是「人工智能」,他们可能会给你一个让你出戏的回答——网络是有记忆的,搜索引擎告诉我们,在 21 世纪之初的中文互联网上,《人工智能》还是那部 2001 年上映的,大导演斯皮尔伯格拍摄的科幻电影。如果你想看看与人工智能有关的新闻,你能在 2004 年的新浪网里找到一点仅存的痕迹:数码相机的「人工智能」自动对焦、电子游戏的「人工智能」对手玩家、阿兰·图灵为人工智能设计的「图灵测试」……

我们对人工智能的期待远不止于此。让技术赶上人类的想象力,这是一代代科学家们的时代任务。

一、拆了那个虚拟人

今天很多科技公司尝试推出的「虚拟人」或者「数字人」,可能是我们能想到的人工智能技术的集大成者之一。一个合格的虚拟人,有一个合成的精巧的形象(可能基于某个真人,也可能凭空创造,可以是三维的,也可以是二次元),能听能说,谈吐得体,配套的表情手势口型天衣无缝。TA 可能出现在新闻播报、教育陪伴等领域,去实现更个性化的、跨学科知识与生活常识内容的输出;TA 也可能会出现在直播娱乐、营销代言等领域,我们希望它永远不要翻车、不要出错,粉丝和品牌也不必战战兢兢。

但这很难。虚拟人的每一个动作,都可能是在二十年前计算机科学家们就开始致力于解决的一项项工作。

比如让虚拟人「说话」,就是一项颇有年头的工作。

1999 年,科大讯飞刚刚成立的时候,他们最重要的技术,就是让电脑发出合成的语音。但从「能说」,到「说得更好」,就成了直到今天仍然在优化升级的工作。

今天的虚拟人,它们的合成声音更自然了,我们通常用 0~5 分去标记语音的自然度,满分 5 分是优秀播音员的水平,科大讯飞去年做到了相当于 4.5 分的水平。但数字人需要的对话与表达能力,它甚至不完全是一个自然度的问题,不是纯粹的语音合成系统能解决的,更需要内容理解、情感表达与合成预测,这也是现在行业研究的热点之一。

还有方言合成、小语种外语语音合成,这两项工作都需要语言学家告诉机器这些特定方言与语种的知识。在刚刚过去的科大讯飞 1024 开发者节上
(本章节未完结,点击下一页翻页继续阅读)