你或许会因为苹果Siri和微软Cortana这样的语音控制工具并不能总是明白你的意图而感到沮丧,但是你要知道,现在的情况已经被以前好很多了。
今年早些时候,谷歌宣布它已经将语音识别的错误率降低到8%。
但是微软著名工程师、首席语言科学家黄学东说,这是一项巨大的进步。黄学东说:“微软首次将语音识别技术与Windows 95同时推出的时候,那时候的出错率几乎是100%。”
黄学东说,如果这样算的话,也就是说语音识别技术的准确率在过去的20年里平均每年都在以20%的速度提高。
他说:“在未来的4到5年里,计算机在理解语音方面表现得将与真人无异。”
但是对于黄学东、微软和整个技术界来说,语音识别技术的成功只是下一步工作的开始,他们的目标是开发出真正的人工智能。
黄学东说,当计算机和人类在理解力上完全对等的时候,语音科学世界才具备了更坚实的基础,人类才能让计算机具备真正的人工智能。
黄学东说:“理解一个单词比理解一段话要容易得多。”
但是通过象Cortana、Google Now、Siri和亚马逊Alexa这样的工具,我们已经能够让很多消费者应用开始更好地理解用户所说的话以及用户想要表达的真实意图。这意味着你可以跟计算机进行更加复杂的对话了。
这意味着我们已经处在一个无形革命的临界点上,语音将成为一个能够被计算机接受并且很有用的界面,人工智能将成为现实。
微软一直在朝着这个方向努力。早在2001年的时候,比尔盖茨就曾在消费电子产品展会上展示了一款名为MiPad的设备,这款设备配置了由黄学东率领的团队开发的一种语言识别软件。
虽然微软后来并未发布MiPad,但是语言技术事业一直在向前进。
黄学东参与了微软的牛津项目,这个项目涉及到很多用于影像识别和语音识别的机器习得工具。如果你登录过微软旗下的一些有趣网站比如How-Old.net或MyMoustache,你应该会有一些切身的体会。
牛津项目面向所有的开发商开放,开发商们可以将这项技术添加到他们自己的应用中。
就像微软Cortana能够听懂你提出的问题并且给出答案一样,牛津项目可以让消费者应用、商用软件和其他软件开发商将语音技术植入他们的产品之中。
这意味着语音将作为一种界面出现在世人面前,它可以控制家中任何地方的任何设备。黄学东说,凭借着微软牛津项目和作为其基础的Azure云,微软将成为这场革命的中坚力量。
黄学东说:“我们花了20年的时间才实现这个目标。”黄学东说,微软在开发人工智能技术的同时,也已经开始探索下一步的前进方向。
实际上,他说微软的Xbox Kinect感应器就是源自微软研究部门想要开发出一种能够理解语音和手势的系统的想法。
黄学东相信,这最终会成为一种新的标准和常态。孩子们将在这些人工智能系统的伴随下成长,它们将成为人与技术互动的一种标准方法。黄学东说:“我们正在创造新一代。”