随着5G移动通信、人工智能、物联网和车联网的快速发展,语音交互正成为普通人使用这些高科技的普遍场景:可以控制家用智能电器的智能音箱、可以设置导航软件的一种语音……10月24日,第二届世界声音博览会暨2019年科大讯飞全球1024开发者节在合肥开幕。《环球时报》记者在会议现场感受到了一系列令人震惊的黑色技术,这些技术已经从酷的应用程序发展到满足人们的刚性需求。
会上,科大讯飞展示的“变声领夹”让人们想起了日本动画《柯南侦探》中的同一款产品。科大讯飞人工智能研究院常务副院长刘聪通过“变声领夹”成功模仿现场女主持人的声音,甚至用合肥方言的一句当地谚语让观众惊呼,这种实时变声真的很酷。会上,语音合成技术的最新成果——真实语音与合成语音的无缝连接:罗振宇的真实语音和他的合成语音播放完毕后,就再也无法区分原始语音和合成语音了。
声音不够酷。《环球时报》记者看到一段虚拟女主播小青的视频,用中文、日文、英文和韩文播报新闻。据工作人员介绍,首先需要采集人体图像和声音,然后通过建模合成这样一个真实的虚拟锚。目前,许多媒体都采用了虚拟锚技术。据介绍,今后只需在网站上输入稿件和指定主播,一键生成一个虚拟主播,用不同的声音和方言播报新闻,改变姿态和形状,让现场媒体记者喊“失业来了”!
很多人担心,目前社会上已经出现了使用变脸、变声软件进行诈骗的案件。如何防止科大讯飞的这些黑技术被不法分子利用?据工作人员介绍,目前,高度还原的语音和虚拟形象服务只面向机构用户,如央视虚拟主播“纪晓萌”。只有经过授权,才能生成语音和图像。个人用户语音合成业务的语音相似度控制在60%左右,“主要是从安全的角度”。
说到语音识别,最典型的应用场景是在家里和车里。《环球时报》记者在展厅看到,一款产品在长距离、嘈杂的环境中都能准确识别。据工作人员介绍,这采用了声源定位技术,可以消除噪音,准确识别发出命令的用户的位置。在现场演示过程中,尽管会场周围噪音很大,但它能在几米外精确操作冰箱、电视机、空调等电器。据参加会议的科大讯飞专家介绍,超远距离识别已达到20-50米,准确率达90%以上。
除了语音识别之外,脑机接口技术的研究也是人工智能领域的一个重要方向。记者在华南理工大学展台上看到了一个大脑控制的轮椅。基于混合式脑机接口,用户无需使用四肢或发出语音命令,就可以用大脑控制轮椅的前后移动。一位坐在轮椅上的研究人员向《环球时报》记者演示(如图所示),他戴着一个可以收集脑波信号的装置,熟练地操作轮椅,而不需要移动手脚。据他说,手术过程需要高度集中精神。这项技术与国外相关研究有什么区别?他说,这项技术最大的优势在于,它只需要一个帽子之类的头饰装置,而不需要植入大脑中的装置。
来自网络