按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
主讲人简介
李开复,美国微软公司副总裁,是语音识别技术方面的专家。1961年出生于中国台湾,1972年随母亲迁往美国。毕业于哥伦比亚大学,后毕业于全球最有名的计算机研究大学——卡内基梅隆大学,获得博士学位。80年代末加盟苹果公司,曾连续三年得到权威刊物的最佳科技奖。1997年担任微软亚洲研究院院长。2000年调入微软总部担任副总裁。
内容简介
从1985年,PC的应用是从DOS到Windows。在以后的十年之内,有了Windows,有了Internet的发展,带来了多视窗的、链接的图形功能,这些就是在用户界面上的一大革命。
现在我们用的图形用户界面就是所见即所得,看到它就能用它,是靠鼠标等基础之上做的用户界面。
可是当我们进入了网络时代,应用软件就会有越来越丰富的内容。随着我们工作的增多,放在屏幕上,让我们看到所有可以做的功能,已经不适应如今高节奏的工作状况,这个时候所见即所得的图形用户界面就会碰到一个瓶颈,而依靠语音技术的发展产生的自然用户界面将帮助我们解决这一难题。
将来,我们的电脑不仅仅是一个工具,而是一个得力的助手,你可以和你的手中的电脑讲话,而电脑也会理解你的意图帮你完成各项工作。语音可以说是惟一共通的表达的方法,无论你有没有鼠标,有没有键盘,只要有语音就可以。未来的用户界面究竟将会怎样?敬请关注由语音技术为您全新打造的《数字时代的用户界面》。
全文
谢谢各位同学大家好!回到北京真振奋,尤其看到这么多中国的年轻朋友。今天我很高兴有机会来介绍一下在 Digital Decade(数字十年) ,在用户界面上会有一些什么样的机会?我们都知道,从1985年PC的开始,它的用户界面是一个很简单的 Dos mand Interface(Dos 命令用户界面),我们要靠人去强迫地记得怎么和计算机来做一个沟通。那么在后来的十年之内有了Windows、有了Internet的发展,带来了Menus(菜单) ,多视窗的Internet带来了 Hyperlink(超链接) 链接的图形的功能,这些就是所谓的图形用户界面。这是在用户界面方面的一大革命,图形用户界面就是所见及所得,What you see is what you get,它是靠了BitmapDisplay(位图显示),靠了鼠标,靠了Internet的一些标准,在这基础之上做的用户界面。它的原理就是,我们能用眼睛看到的一些用户界面的 Element(内容),我们看到了它,我们就能够去用它,我用了它就会执行工作,这样一个理念之下,它是非常好用的。因为对于人们来说我能看见我就能用它是非常直观的,尤其是一些很常用到的功能。比如说Windows 的Tool Bar(Windows工具栏),我常常用它,它就老在我的机器上出现,我就可以直接地去使用它,所以这是它的好处。所以Frequent action 常用的动作在图形用户界面特别好用,因为它就在你面前,你一按事情就发生了。
但是当我们进入网络时代,进入Web Service(Web服务)时代,未来的应用软件会有更丰富的内容,这个时候所见即所得就不够好了。因为我们能做的功能太多了,不是一个可以放在屏幕上,让我们可以看到所有可以做的功能,所以这个时候图形用户界面就会碰到一个瓶颈。我们继续往后发展,未来的Digital Decade(数字十年),有三个很大的趋势:第一个是XML带来的一种格式,第二个是Web Service(Web服务),让我们能够把整个Internet当做一个操作计算的环境,让我们编程能够从手表一直到服务器上都可以使用,第三是Smart devices(智能设备),很聪明的设备,从手表、电视、电话一直到每一样能接电的东西,它都是一个计算的工具,都是一个可以使用软件平台的工具,都是一个可以上网的工具。这就是为什么我们在Digital Decade(数字十年)这么振奋的理由。但是进入了Digital Decade(数字十年),在网上有无限的有格式的有架构的这个XML的数据,在网上有无数的网络服务,你可以在网上订花、买书,可以在网上两个公司做彼此的交流,订货你可以在网上做无比的事情,任何你想做的事情都可以把它当做一个Web Service(Web服务),Web Service(Web服务) 可以彼此来沟通,那么Web Service(Web服务)也需要和人来沟通。所以在这么丰富的Web Service(Web服务),这么丰富的 XML的环境之下,我们需要一个新的用户界面,因为我们不可能把所有可能的想要做的工作,所有有可能的Web Service(Web服务) ,所有的XML的格式,都用图形用户界面显示在你面前。因为电脑和网的功能变成无限的,所以你不可能在有限的屏幕上,显示所有可以做的工作。所以图形用户界面将达到一个瓶颈。
另外Smart Devices,智能化的设备,不是每一个设备都有屏幕的,电话没有屏幕。我们怎么用图形用户界面,电话没有键盘没有鼠标,我们如何去用图形用户界面?所以又是一个理由。图形用户界面将达到一个瓶颈,我们认为未来用户界面的发展,应该是从自然语言语音。比如说墨水或者让电脑更像一个Tablet,一张纸,甚至有一天更像一个Personal assistant 得力的助手。我们常说的就是在Digital Decade(数字十年),我们希望将来的电脑能够并不只是一个工具,而是一个得力的助手。这就是所谓的Natural user interface(自然用户界面), Natural user interface(自然用户界面),如果说 Graphical user interface(图形用户界面)是What you see is what you get, Natural user interface(自然用户界面) 就是Do what I mean ,我想要做什么,我就告诉你,你就帮我做了,那么它是基于technology(技术) ,我们刚刚提到的有很多Device(设备),Natural user interface(自然用户界面)要能在各种设备上运行,有 XML,所以Natural user interface(自然用户界面)要能够利用有格式化的东西,有架构的东西,有序的东西, Web Service(Web服务)所以它要能够在Web Service(Web服务)或者是类似的。NET这样的环境,在多平台的从电话从手表一直到服务器上面能够执行。好我们需要这样的一个用户界面,我们希望它能够是Do What I Mean(按照我的意愿去执行 ) ,那Do What I Mean是怎么代表的呢?当我们想做一件事情的时候,无论是我要送一束花给我太太或者是我想知道怎么把一些地址打印成为一些Address Label(地址栏),才可以寄信。或者是我想知道在Word里面,有一个表格,我想把它一分为二,这些事情怎么去做呢?这些事情它们在我们人的脑海里是怎么出现的,它是靠自然语言出现的。
我们人来描述每一件我们想做的事情,我们的意愿都是用人的语言,是用一串字来代表的。所以这一串字,如果我们能够把冒到我们脑海的这串字直接告诉电脑让它去执行,这个应该是最直观的,最自然的最容易使用的一个用户界面。这样的一个用户界面是自然的,因为人的语言是多年来人类发展的,可以说是人类的工程,是我们人类多面演变之后达到的一个人类沟通的一个特别好的工具,这就是语言。这个语言是很自然的,因为我们都会语言,所以我们不需要学习,所以我们可以在更多的设备上,让更多没有接触过电脑的用户在这个Smart Device(智能设备)上使用这个自然用户界面。
第二,Scalable(可扩展性),语音可以说是惟一一个用户界面的方法,它可以在各种不同的 Smart Device(智能设备)上使用,因为无论你有多大Screen(屏幕),无论你有没有键盘,有没有鼠标,语音都可以使用。它不局限于需要一个荧幕或者是一个键盘,或者是一个鼠标。那最后呢,它的表达力Expressiveness非常的丰富,我们可以用语音讲一句话或者用语言代表一句话,我们可以说现在我不接电话,直到我演讲为止,或者我说现在我不接电话,直到我演讲为止,除非是比尔。盖茨打来,这样的一句话。用图形用户界面绝对不可能表达,所以我们需要语言的丰富的语言才能够表达这样的意愿。自然用户界面有这么一句话,Gordon E。 Moore(戈登…摩尔)曾经说,他是一个有革命性的一个能力,他让你能够自然地和电脑讲话。那么电脑呢,会理解你说的是什么意思,在你的一个Context (内容)之中知道你说什么意思,Gordon E。 Moore(戈登…摩尔)大家都知道,是英特尔(Intel)的创始人之一。也是有名的摩尔定律的创始人,伟大的计算机方面的很有贡献的创始人——Gordon E。 Moore(戈登…摩尔)。
他说过这样的一句话,是在2002年接受美国总统奖章的时候说的,那我举一句话是什么意思呢?因为可能有人会怀疑,是不是语音的技术,是不是语言的技术能够足够地成熟,能够足够地达到真的是Do What I Mean(按照我的意愿去执行 ) 这种地步,能不能达到?我们都知道Moore‘s Law(摩尔定律)告诉我们每18个月,计算机的速度会变快,会翻一番,会变快一倍。那语音方面呢?语言的理解呢?
这个就是在 GordonE。Moore(戈登…摩尔) 参加美国总统奖章授予的时候,他说的一个新的定律,叫做超级摩尔定律。超级摩尔定律就是告诉我们的是不但计算越来越快,越来越便宜,而且技术越来越好,语音的技术我们可以去衡量。它的犯错率,今天语音识别的技术的犯错率,和人的犯错率大家可以看到,大约还有一个数量级的差别。但是如果我们把历史拨回去十年或二十年,我们发现每一年我们都可以完全地期望语音识别比前一年更好10%,也就是说去年它如果犯100个错,今年就只犯90个错,明年就会只犯81个错。照这样数量的下降呢,肯定有一天,自然语言的识别自然语音的理解,会达到人的能力,人的语音识别的精准度。语音识别当然比较复杂一点,不是说计算机快了,就自然而然的就好了,而这是一个组合,更快的计算机,更好的算法,加上更多的数据,促成了语音这个行业每年都有可以预期的10%的进步。所以我们可以确定地说在十年到二十年之内,计算机的语音识别会达到人的能力,这是非常振奋的一件事情,也就是说,我们只要继续努力的工作,自然用户界面一定有来到的一天,这只是语音,当然还有很多技术,也是基本上在这个原理上每年比前一年做得更好。
现在我想讲的是在自然语言方面的处理,将有什么样的一个计划。我们的想法是这样的,我们当然有一天希望我们当然希望明天就能够到电脑上和它自然语言沟通,但是有很多很多的问题,一方面是技术,还要靠每年的进步,不是今天的技术,就能达到这种科幻小说上面的能力,这要经过十年或二十年的努力才能达到。第二个问题是人们并不习惯和它的电脑讲话,所以我们就算把这个能力做进去了,也不见得是能够被这个社会马上所接受的。第三,我们微软公司做平台的工作,我们深深地理解,平台不能够促使用户们的接受一个技术,需要应用软件才能够促使它的接受。所以,今天我们必须要让未来的语言语音进入了未来的应用软件,然后在平台上给它最好的支持,这样才有一天有希望能够做到。所以这就是为什么我们说Practical计划(实际的计划),我们不是梦想明天就可以跟电脑讲话,而且跟人沟通一样的自然,我们是一步一步地来,那这一步一步怎么来呢?
我们第一挑选最自然,最合理的一个启发点。语音我们就用电话来做,不要用PC来做,因为大家不愿意和电脑讲话,但是每个人都会对电话讲话。如果说我能够用语音的方法接电话,我就能够帮一个航线,帮中国航空公司,帮中国民航,它能够接电话告诉你你的航班几点抵达,甚至帮你订票。我可以帮一个股票经济商,帮你购买你需要买的股票,或者甚至问你要不要买某一个股票,也就是说,语音在电话上就像一个人和你对话一样,但是是机器在做的事情,但是因为电话是一个我们很自然愿意讲话的工具,人们就会更容易地接受它。
第二,我们不只是用讲话的,我们可以用打字的。我们有键盘,那在什么情况之下人们会用打字的方法输入自然语言在一个电脑里面呢?这有两个地方一个是Search(搜索),不管是网上的搜索引擎还是在电脑上面搜索您想要的档案,这都是搜索。或者是Help,帮助,这也挺有意思的。因为我们想要做一点事情,我在Word里我想知道怎么把一个表格一分为二?这句话现在是要人经过把这句话转换成图形用户界面来做它,但是人可能不知道怎么转换,但是当你不知道的时候,你就会打开Help(帮助),然后就问它,把这几个字打进去问它。所以这两个是非常合理地把自然语言处理的方法放进Windows平台里面,能够更好地支持搜索,能够更好地支持对用户的帮助。
我们非常实际地务实地一步一步来,在这两个 Speech for Telephone and Typing with Searching Help的方向呢,我们一步一步地来,把用户界面一步做得比另一步更好。但是我们的第一步,如果用户用完以后,并不觉得有自然用户界面,或自然语言处理的功能,我们并不沮丧,只要他认为说这个Search(搜索)越做越好,我们就挺开心的。我们再一步一步地往下做下去,另外我们并不是一个认为自然用户界面将取代图形用户界面。虽然在电话上你没有图形,那当然是可以取代的,但是在PC上面其实更合理的是应该用自然语言的方法,自然用户界面的方法,来辅助已存的图形用户界面,因为人们还是更习惯地用图形用户界面,他们不希望看到一个革命性的彻底的一个新的功能,或者一个新的用户界面。
第三,这个基础我们是用。NET来做的,所以这一整套系统我们是重新开发的。我回到美国总部之后呢,我们就在。NET的基础上用Visual Studio(可视化控件)来帮助我们的Developer (开发人员),能够把已存的应用软件加入语音的功能,加入自然用户界面的功能。我们在。NET Framework(。NET架构)上开发这一整套系统,我们利用XML Web Service(XML Web服务)能够让不同的系统能够彼此沟通。所以。NET对我们的用户界面是非常需要的一个低层的支持和技术,因为。Net可以在多种的设备上使用,所以我们也认为经过。NET我们可以在电话、电视机、汽车、 电器上都可以使用我们的自然的用户界面。所以我们怎么走这条路呢。
第一在Telephony上,就像我们刚才所说的,Text Speech(语音合成)、Speech Recognition(语音识别)、Dialogue(对话)也就是说人机对话的沟通,在PC上我们要做搜索,要做帮助。再下一步 Q Delegation就是委托式的用户界面,也就是说我们用户我希望告诉我的PC,不是一步一步怎么做一件事情,而是最后我要得到什么样的结果,而我聪明的PC会帮我计划一步一步地完成它。还有Federation(联盟),就是说,我要求我的PC做一件事情,它不会做,但是它知道别的PC,或者别的Web Service(Web服务)可以做,它可以经过我委托它,它再委托别人去帮我做这件事情。再下一步Collective Agent(集中式代理),这个 Agent(代理)用户界面就是说不是我做用户来启动每一件事情,而是计算机可以主动地说,发生了什么什么事,你要不要怎么怎么做。比如说微软的股票超过四十块了,要不要卖,这个不见得是我人去主动地要求的,而是我很早地要求我得力的计算机助手帮我留意着微软的股票超到某一个程度,就要买或者要卖。当然把这个做好还需要Planning,也就是计划方面的工作。
我们举一些例子,用语音怎么做呢?打电话买一百股微软,好买了,这就是语音的一个对话。Dialogue(对话)我可以说买微软的股票,它会说要买多少股,我说一百股,这就是一个对话,我讲一句它讲一句,我讲一句,轮流的。从语音的角度来看呢,我们认为Smart Device(智能设备)跟语音是有非常大的关系的,因为今天我们可以把所有的设备分成这两个轴,从y的轴我们看到的是基本上是说它的Screen,它的显示器有多好。从x轴来说呢,我们说它的输入,比如说键盘或者鼠标有多好。当然PC是在右上方的,因为它有很大的Screen(屏幕),又有Keyboard(键盘), 又有Mouse