苹果智能语音助手Siri初探—

苹果智能语音助手Siri初探

发布时间:2016年09月18日来源：超天才网作者：张耀寰浏览量：2,915

Siri的由来

要真正认识Siri，我们还须先知道它是怎么来的。当我们追溯Siri的由来时，我们发现，Siri实际上源于美国国防部的一个人工智能项目，当年五角大楼的一个叫做CALO的项目，其英文全称是Cognitive Assistant that Learns and Organizes，如果按照其内涵译成中文就是：“善于学习并且能够组织的认知助理”。该项目由美国国防部投资，旨在为军方提供智能化服务。美国国防部为这个项目安排了高达1.5亿美元的预算，汇聚了本专业一大批顶尖的人工智能专家，期待他们能够开发出在野外通过学习，最终具备智能认知的机器。要做到这一点，机器使用的算法需要被设定大量的数据，然后软件会根据这些数据来解决问题。CALO项目团队经过反复研究论证最后决定，必须让虚拟助手具备自主收集信息的能力，并根据每一次的处理结果进行自我训练和自我修正，以接近人类的思维判断。

2009年，美国电信运营公司VerizonSiri相中了Siri这个技术，认为该技术具备无限的市场潜力，Verizon便与Siri公司签订了协议，计划将Siri作为2010年该公司即将发布的所有Android手机的默认应用。当苹果知道Siri的未来前景后，当机立断，迫不及待地希望把Siri纳入iPhone的门下，不给Android系终端任何机会。最终，苹果如愿以偿，抢先完成了对Siri的收购。此时Siri公司的创业团队只有区区24人。

当Siri最初被纳入苹果的麾下后，其原有的一些传统功能被废，如Siri数字大脑赖以生存的外部网络、餐馆预订功能。苹果之所以这么干，目的在于保证Siri能被更多消费者认可，而不仅仅只满足专业人员的需求。然而，让计算机软件理解人类语言是一个无比巨大的挑战，须知人类经过几十万年甚至更长的时间才进化出这个能力。此时的语音识别软件并不完美，Siri识别人话时常常闹出低级笑话，特别是解码低质量音频时出错率更高。不过随着数据库的更新和更精密模型的突破，这个问题迟早可以解决。

Siri技术实现原理探析

为了解析苹果智能语音助手Siri的技术原理，我们调阅了苹果手机Siri系统的相关技术专利资料，追踪到了如下主要技术构成。苹果智能语音助手Siri大致由四大系统构成，分别是：智能语音Siri的输入系统、动态本体系统、语音处理执行系统和输出系统。

1、智能语音Siri的输入系统。Siri的输入系统允许多模态输入，包括语音输入、文本输入、GUI界面和事件触发等。除此之外，Siri的输入的一个特别之处在于其设置了输入导引模式，以尽力规避机器对人语理解的规范性，减少误解，这是语音识别发展初级阶段不得已的设计安排。

2、动态本体系统。siri最关键的组成部分叫动态本体（英文 Active Ontologies）。所谓动态本体是由多元素合成的生态体系组合。特定词汇、数据库、页面服务、互动规则，机器可识别描述等，即所有这些要素的有机结合。语言模式识别是对输入的总体类型、语法、词汇、惯用语等进行模式匹配的模块，匹配模式的代码在Siri内部采用正则表达式或者状态机等方式。

Siri的学习功能主要体现在记忆上，这个记忆可区分为长期记忆和短期记忆。如果当你心烦了，机器说出你该从事什么娱乐，这有可能是你之前把你的兴趣爱好告诉了它，它对你的爱好分类记忆，后续在知识库里找到了相关信息并保存下来。Siri有两个记忆系统：长期记忆系统和短期记忆系统来实现个性化交流的。长期记忆系统存储了用户的名称、居住地址以及历史偏好信息，短期记忆系统则将最近一段时期内Siri和用户的对话记录及GUI点选记录等登记下来。对照这两个记忆系统，Siri可以在你需要时提醒你，然后调用知识体系帮助你解决疑难问题。

智能语音助理的原理框架图

Siri与人工智能的最大区别在于其功能不够强大，计算机认知与人类认知目前还有天壤之别。 Siri对具体事物的理解力非常狭窄，例如就餐、体育运动、休闲娱乐、旅行天气等。因为各个领域都有其特定语汇，且数据库、页面都需要关联描述，这些集合构成了我们所说的“动态本体”。

例如，就餐的动态本体包涵参观数据库，目前美国餐饮评论站点诸如Yelp 和 Zagat，其调用方式通过API实现，这就牵涉相关语汇和行为模型。当我们决定下一餐时，我们会说我们订什么样的席位、如何预订、如何点菜，这些需要事先录入用户此前的订餐日历，调用此前的餐饮会话、点餐说词及预订流程等，这些事情都在动态本体内有积累和储存。当我们要再次点餐，Siri会识别用户意愿，追踪“业务编排单元”（SOC ），这个“单元”会识别外部业务以满足用户请求，包括业务理解、命令编译、信息收集并分类，最终向用户提供行动导引。

例如，用户说了：“我要去意大利餐馆享用美食”，“业务编排单元”会在Yelp 和 Zagat网站上进行检索，然后告诉你两英里内的意大利饭馆名录、具体地点、价位，供你选择。当你作出就餐决策后，业务API 接口程序会为你预订餐位、点餐和叫出租车。所有这些都通过你过往的就餐习惯，由业务API 接口程序执行。

动态本体原理框架图（以就餐为例）

SIRI系统中的“业务编排单元”拥有一个工具，此工具可定位各类外部业务 APIs来完成相应行为。动态本体自身也有一套系统，这套系统记录了多个领域里人类的活动，以备调用。这两套系统允许接入外部相关模块、业务和数据库，这样一来，人们往往会感觉Siri无所不能。

3、语音处理执行系统。Siri的核心执行组件包涵：语言阐释器、会话流控制器、任务流控制器和服务系统等。所谓语言阐释器，简言之，就是把人语输入，转化为机器可理解的规范意思，因为人语输入与机器语言存在一个巨大的天然鸿沟，要让机器知道人语的微妙内涵，需要有一套系统不厌其烦的向机器阐释，否则机器不会做出理智的回应。会话流控制器是将语言阐释并解析之后的结果传递至控制系统，根据相关参数判定涉及领域，或向用户索取具体参数。而会话流控制器之后还会对任务控制器进行调用，以确定回应内容。会话流控制扮演着一个协调沟通者的角色。任务流控制器是确定所要执行任务的边界参数和完成任务各个步骤的逻辑关系。任务流控制器常常会构建出一些任务模型，将抽象概念定义具体化。服务系统，Siri展现给用户的是其所能提供的具体服务。Siri中有三个子服务模块：服务模块，服务能力模型和多服务集成模块。服务模块包含了可供Siri使用的各种信息，服务能力模块储备了具体服务内容可调用服务类型的映射关系。服务集成模块的功能在于可调用另外两个模块提供给用户的具体服务内容。有时，一项服务会涉及多个子服务，分别调用时无论在先后顺序还是内容上都存在逻辑依存关系，这类似于智能调度。

4、输出系统。与计算机系统相类似，SIRI系统所将接纳的语音或其它输入进行处理，最终将以为用户习惯的方式输送给用户。SIRI系统的输出包括语音、文本、甚至电邮等多模态展现输出，以完成最后一站工作。

苹果在其产品iPhone4S首先展现出的智能语音控制功能，使其产品变身为一个智能机器人。之后，苹果陆续发布了siri新功能。智能语音是否会成为未来智能手机发展的主流方向还有待继续跟踪观察。

免责声明：本文来自超天才网客户端，不代表超天才网的观点和立场。文章及图片来源网络，版权归作者所有，如有投诉请联系删除。