按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
壤纯茨兀颐侨衔猄mart Device(智能设备)跟语音是有非常大的关系的,因为今天我们可以把所有的设备分成这两个轴,从y的轴我们看到的是基本上是说它的Screen,它的显示器有多好。从x轴来说呢,我们说它的输入,比如说键盘或者鼠标有多好。当然PC是在右上方的,因为它有很大的Screen(屏幕),又有Keyboard(键盘); 又有Mouse(鼠标),电话是最差的,因为它又没有Screen(屏幕)又没有Keyboard(键盘)。其实呢,还有很多其他的设备,这些设备包括Tablet PC,PDA(个人数字助理);Screen Phone(可视电话),汽车或者TV,这些市场今天都比较小,但是很重要的是在下八年,到2010年的时候我们会看到的是 Screen Phone(可视电话) 和PDA(个人数字助理) 会越来越大。更多的汽车也会变成有计算的功能,也可以上网。更多的电视也会有计算的功能,也可以上网,而Tablet PC会成为更主流的技术。也就是说,有更多的平台,有更多设备的平台,上面是急需语音的一个输入的一个方法。我们在左下方,也就是说Screen(屏幕)非常糟的情况之下,那么语音呢,就可以不要理会它的 Screen(屏幕),我们直接语音对语音地(来)做一个对话。当你有一个小小的 Screen(屏幕)的时候,我们也许可以用(语音)的输入,而用图形的输出。所谓的 Multi Model(多模式),或者mmnd and Control( 命令和控制),当我们Screen(屏幕)够大的时候,这个时候我就可以做听写了,因为听写需要做修改,修改的工作需要一个比较大的一个显示。所以上面的这些机器呢,比如说Tablet PC和语音的听写,是一个很好的结合,所以这几个是语音的很好的机会,那么下面我将做几个语音方面的演示。
第一个演示,我现在要打电话到美国,这是我们微软公司用SALT技术在用技术和SALT技术做出来的一套系统,这套系统呢,我们将在中国的Visual Studio(可视化控件) 的比赛让中国的学生甚至比美国的学生更先能够有机会用到这方面的技术。在这个演示里面,你们会听到的是有一个很聪明的电脑代理,他会跟我有一段对话,那么我要他做一件事,它会做一件事,这套系统呢,是用Visual Studio(可视化控件)开发出来的,然后微软提供了很DialogueModule(对话模块),也就是说,开发者他编一个语音的系统。
410155543
您好;需要帮助吗?
请帮我处理一下学院基金。
给我申请表。
您需要我把信以邮寄的方式还是Email的方式给您?
Email。
我已经把信发到您的Email里了。您需要我们找个业务代表帮助您填申请表吗?
是的;谢谢。
谢谢;我们马上就会与您联系。您有一封来自银行方面的告警信;您需要我们把它传给您吗?
好的。
请稍等。
艾伦;您好!您有三笔帐单未付。首先是电费 43。5;长途话费 62。25;
DSL 31。52;您愿意付帐单吗?
付电费和长途话费。
电费和长途话费将在两天内交清;您还需要别的服务吗?
不用;谢谢。
请说“是”或“不是”或提出要求。您还需要别的服务吗?
不是。
这就是我们的演示。在这个演示里你听到的是,我打电话到我的股票经纪商,那么我要求他,我希望理解怎么样去存钱,为了我的小孩的未来的教育,然后他就问了我很多话,最后决定把一些信息寄到我的Email Address里边。这个时候正好我的银行的有很多新的帐单要付,他就把我转换到另外一个部门。这个时候就有一位女士的声音出来,和我做了一个交谈,我决定把一些帐单付清了,另外一些帐单呢,还没有付清,这是这样的一个未来可以做到的一个交流的过程。我们预期这个产品应该在今年可以做完,所以在明年我们就可以看到很多的应用,让人们能更快地把一个已有的 Application(应用),加上语音。这个应用本来是在PC上在Web上应用的,它突然就可以帮你接电话了。
好,下面我要做的是一个另外的语音方面的演示。我们刚刚所说的语音呢,它有语音合成,还有语音识别。现在我要演示的是微软亚洲研究院的一个工作,大家都知道在亚洲研究院,语音是一个重点研究的项目。现在我要演示的呢,是一个语音合成。这套语音合成系统它最特殊的地方是,第一它非常的自然,第二它能够中文和英文混着说,而且是用同一个语音来说。让我们听听这个声音离人的声音还有多大的距离。
2003年2月27日,新一代软件技术展望大会在京召开,微软CEO兼CSA比尔盖茨先生将亲临现场与中国大学生面对面,盖茨先生将为微软亚洲研究院主办的微软杯XML Web Service(XML Web服务)学生软件开发大赛获奖团队颁奖,并做题目为Digital Decade(数字十年)的主题演讲。
好,谢谢。这个技术我们非常的自豪,我估计它的中文已经超过了我的中文的能力了,不过我的英文还比它好一点。
再下面我们所要看到的是我们在总部最近拍的一个 Video(录像)。也就是说,我们把一些技术,我们已做好的技术,在一些日常的环境上让大家更能理解语音它不是一个很玄的技术,是真的每天任何的一个人都有可能用到的。
欢迎致电(自动化处方服务)。 请说您的名字。
简·赛门。
请输入或说出您的个人标识号或者密码。
Connecticut
欢迎,赛门夫人。 您需要重新填写还是修改您的处方?
修改。
您共有两个处方,您希望修改哪一个?
Claro
您的Claro处方将在一个小时内准备好。
太好了。
您今天还需要别的什么服务吗?
是的。给我丈夫的手机打电话让他过来取处方。
正在通知他。
3月15日(周五)下午16: 15,811直达航班离开,3月19日(周二)下午13:30 831直达航班返回。您需要我现在就预定航班吗?
对,预定航班。
谢谢,我们将把您的电话转到旅游高级会员业务部门以便让您确认。
您好。我的名字是迈克。您前往拉斯维加斯的航班已经按照您的意思预定好了。因为您是我们的高级会员,我们将给您一个特殊的折扣价,及包括晚餐和演出在内的娱乐服务,需要我更详尽地为您解释吗?
呼叫我的秘书。
欢迎到来,您说您的密码。 123。
欢迎您,泰乐萨。需要帮助吗?
为我的部门安排一次会议。
请告诉参加会议的名单。
有Rack Sherman(人名); Christine Constant (人名)和Mary Louise(人名)。
请告诉会议的主题。
我们与约翰逊公司的合同。
请告诉会议的地点
在我办公室里
请告诉会议的时间
本周四下午2:00,会议将持续一个小时。
Christine(人名)在会议日程上有冲突。
无论如何请给他一个邀请,并告诉他这是紧急会议。回头再与我确认是否所有的参加者都能参加会议。
还有什么别的我可以为您效劳吗?
请查一下我的收件箱。
您有四封信,其中有一封是急件。
念给我听。
泰乐萨先生。
您好,这里是您的自动秘书,所有要求参加会议的人员都接受了邀请。
太好了
让我们求助于网络。
Bridge 大街16号发生火灾。
告诉我们具体情形。
-最新的报告是,最严重的火灾破坏是再房间的西北角,在烟囱周围。这与火灾假设的起因相吻合。我的建议是接受这个声明。
把别的照片发给火警报告中心,让火警报告中心的财产损失小组估算火灾损失,并通过Email给房主一个拷贝。
我可以为你效劳吗?
您好,这里是金融自动提醒服务,您是Mary Anderson(人名)吗?
是的
请说出或输入四位个人标识代码。
5489
谢谢。您付给了Atlantic(公司名)的代码为6233的帐单后将使您的帐户余额为负,需要我们激活您的帐户透支业务吗?
不用,查一下我市场帐户的余额。
您的市场帐户的余额为14862。70美元。
从市场帐户转帐1000美元到我的主帐户上。
转帐成功,您还有什么需要效劳的吗?
谢谢,暂时没有。
环宇航空公司。
欢迎致电环宇航空公司自动服务中心,请说您的名字和个人标识代码。
Eric Williams(人名)。 2323。
您好,我可以为你效劳吗?
我想要复查一下。
告诉我您的航班号。
5516。
您对座位安排有什么特殊要求吗?
我喜欢在前面的靠窗或走廊的座位。
您现在看到的是符合您要求的剩余座位情况。
9A可以吗?
座位 9A 预定给了。
您今天需要登记行李吗?
是的。
请前往B6窗口。
这个演示到此为止,就是我们认为在未来的电话上很多的机会,那么我们看到的每一个演示呢,它除了用电话交流之外,我们也看到的有些用手机它有荧幕,能够用的时候,它就利用到了它。我们也看到了有一个网页,网页上有一些字出现,当它讲话的时候,这什么意思,这就是在服务端,这个系统其实我们是用Web Service(Web 服务)做的。那么我们只是让人用电话能跟Web Service(Web 服务) 讲话,这个Web Service(Web 服务)上面的Form(组成),其实是看不到的,但是为了让大家理解,我们把Web(网络)跟 Telephone(电话)做在一起了,我们才做了这样特别的一个演示。
我们刚才曾经提到的,我们可以用Tablet PC,Tablet PC上面呢,做语音识别是很好的一个平台。原因是Tablet PC虽然手写满方便的,而且开会的时候也只能用手写,但是如果我们在自己的房间里,在有隐私的情况之下,手写的速度还是挺慢的。语音的输入可以说远远地超过了手写的速度,所以我们可以用语音输入,如果犯了错,我们可以用笔来做修正。现在我们做一个听写的这个演示。
开始工作。
亲爱的盖茨先生:
重新开始一段非常感谢您光临北京。北京是奥运会举办城市。今天我们很高兴有8000名来自北京各大高校的学生来欢迎您到来。
…重新开始一段
——您的……(信件格式)
我们认为语音有非常多的地方可以有发挥的地方,在电话上是最主要的一个,但是在Tablet PC上; 在multi…model devices(多模式设备);在 Smart phone(智能电话)上都是很多的机会。
我们现在回到文本的输入,Text(文本)的输入,Search( 搜索)。我们今天当然知道Internet上,我们到Google(搜索引擎名);到MSN Search(搜索引擎名);到Yahoo(搜索引擎名) ,可以做简单的一些名词的搜索。但是未来我们搜索应该怎么做呢?未来很大的一个革命,是有结构化的内容, Unified Storge(统一存储),也就是说,XML不但很重要,我们将有承诺,在未来的Windows,下一个版本的Windows里面呢,用 XML,用有序的 Database(数据库)技术。数据库的技术来作为我们的 File system(文档系统),也就是说,我们每一个档案在我们的机器上,它都会是有序的,有结构的,也就是说,每一篇E—mail,我都知道是谁发来的,什么时候发来的,内容是什么,一些关键词是什么。也就是说,每一个Calendar(日程),每一个Appointment(约会) ,我和任何人开会,它都知道我在跟谁开会,在什么地方开会,几点开会,几点结束,然后内容是什么,要带什么东西,它都可以一个一个靠Database File(数据库文件)储存。当你一个整个 File System(文件系统) 的每一个档案,都有序的储存之后,我们就可以用自然语言,来做一个数据库的搜索。比如说我可以说我要找John(人名)寄给我的电子邮件,电子邮件的Subject(主题)是budget (预算),Find email form John about the budget(找John给我的有关预算的电子邮件) 他就应该可以直接把答案找给我。今天我们搜索E—mail非常困难,Help(帮助)得到帮助,我可以说My printer stuck( 我的打印机卡了),或者我想打彩色的打出来的是黑白的,这个时候它告诉我为什么,甚至如果是软件的问题,不是硬件的问题,它可以帮我修好。Task(任务),Ten thousand copies in Kinko’s Beijing(在北京的Kinko打印10000份),这个是一个很实际的例子,因为 Kinko(公司名)是我们的一个合作伙伴,Kinko(公司名)它有一个Web service(Web服务),Kinko(公司名)是美国打印的公司,它在北京也有一个分店,过去你都是要把你的文件带到店里面去,一份一份地影印,但是它现在做了一个 Web service(Web服务),你可以远程地去把一个文件寄给它。
Web service(Web服务)它有几个参数,我可以说我要把这份文件打一万份,我叫李开复,我的帐号是什么什么,或者我的信用卡号码是什么什么的,这都是一些有结构的东西,我可以靠Web service(Web服务)去传给 Kinko(公司名)。比如说盖茨先生来中国非常赶,然后他要印一万份东西,让每人有一份,那他在美国印了,捧这么重的东西过来的话;他的专机可能载不下。那他怎么办呢?他就可以说要打印一万份,而且在北京打印,在北京取货,下了飞机去取货,这样可以节省很多的时间,所以这就是所谓的一种 Task(任务)。当然 Task(任务)和Search 也很像,Search是要找一个东西要找一个结构的,Task(任务)是有一个结构的东西,但是我不是要找它,而是要把它抓起来当做参数去执行,所以这样的一个Web service(Web服务)应该很有用。
当然今天Kinko(公司名)还没有一个自然用户界面,所以你用表格的方法,Graphical user interface(图形用户界面)很繁杂的方法去做你的输入。将来我们可以用自然的用户的界面,写完一篇文章,我就告诉它在哪里打印,打印多少份,指令了之后,它就会做到。 Q & A(问与答)我可以问一个问题, What time will Bill Gates’ talk end?(盖茨的演讲何时结束),你可以告诉我3:55分,如果你有一个Calendar(日程),Calendar(日程)里有一个item(项目)叫Bill。Gates’ talk(比尔·盖茨的演讲),这个Calendar(日程)它是在3:55分结束,所以我问这个问题,它也可以有结构地去做一个 Database Request(数据库需求),就跟一个SQL Request(SQL语言需求)一样的,然后把答案显示给我看。Delegation and Federation(代理和联盟),这个是比较未来,可能是五年以后的一些scenario(景象),Send flowers to my wife on her birthday。太太过生日的时候送花,如果我能说每年送的话,以后就不会挨骂了。Pro…Active agent(主动代理)我可以告诉它,我有很重要的演讲,我不接任何电话,或者说除非是紧急的,除非是比尔·盖茨打来的,或者除非讲完了,这个时候如果你有一个很聪明的web service(web服务),它可以知道你这一秒钟在不在演讲,演讲紧不紧急,你接不接电话,什么电话是紧急的,谁是你的上司,它可以把这些信息都融合进去,能够主动地去帮你做一件事情。所谓的 Pro…Active(主动的),我吩咐它做一件事情,但是它不是马上做,而是一直延续地做下去,它帮我接所有的电话,一直到有一天我叫它不要接为止。Planning(计划)可能是说你要给它一个信息,而它要跟你做一个会话,对话之后它才决定最终你要做什么事情。比如说我要做 Planning(计划),第一步我想去欧洲度假,这时候它可能就问我要花多少钱,去什么国家等等的,怎么样做这样的一个Dialogue(对话),还是比较复杂的问题,比较未来的问题。但是我们很有信心,从上面用Speech(演讲)走,从下面由自然语言走,确实可以达到的。我们刚刚所说的Structural storage,这个XML ,甚至将下一代的XML由Windows来Native(本地化)直接支持用 SQL Database(SQL数据库)的功能。在Windows里支持每一个档案的XML这件事发生之后呢,所谓的很多例子都可以解决,让我们能够把左边的这些例子这些句子,这些自然语言转换成右边的SQL Query(SQL查询),这个其他