当前位置: 首页 > 编程日记 > 正文

“Hey Siri” 背后的黑科技大揭秘!

作者 | Vishant Batta

译者 | 苏本如,责编 | 伍杏玲

出品 | CSDN(ID:CSDNnews)

以下是译文: 

如今苹果手机可随时检测并回答“Hey Siri”命令,有人可能会想,它是不是在随时记录我们的日常生活对话呢?

答案是否定的!

“Hey Siri”能做的并没有我们想象的那么多!

让我们先看看“Hey Siri!”的发展历史吧。

“Hey Siri!”作为预装语音助手Siri的附加功能,于2014年9月在iOS 8中发布。然而,在iOS 9(2015年9月)它升级了,只允许被用来识别用户的个性化语音。

而谷歌助手在2013年之前就已经有了这个功能,但是,在你的屏幕关闭时,它不能支持这个功能。即使是现在,很多安卓手机都不支持这个功能。

让我们来比较一下用户体验,如下图所示:

常规方式 vs.“Hey Siri!”

常规方式是这样的:用户拿起手机 -> 长按home按钮 -> Siri启动。

而在“Hey Siri!”方式下,用户只需说“Hey Siri!”,无需按键,就可以让Siri启动。

这样有一个好处是,因为当用户不方便使用手操作(如开车时),用户也可以使用手机的一些功能。

Siri的前身:M9运动协处理器

“协处理器”可以理解为具有有限功能和电池消耗的辅助处理器,用来支持即使在手机空闲(屏幕关闭)时也可以访问“始终开启”的功能。

M9运动协处理器是苹果协处理器家族的第三代产品,于2015年9月与iPhone 6s一起推出。得益于它基于ARM、64位的A9片上系统所具有的强大的处理能力和微量的电池消耗,这个苹果手机著名的“唤醒”功能才得以实现。M9有时也被人们描述为“嵌入到运动协处理器上的始终在线处理器(AOP - Always on Processor)”

“Hey Siri!”是如何工作的?

当你第一次启用这个功能时,它会提示你说一定次数的“Hey Siri!”。然后你的iPhone将这些声音保存起来,用做将来识别你的个性化声音的“触发键”。

这个个性化的“触发键”保存在协处理器中,即使你的手机处于空闲状态,协处理器也会侦听(而不是听到)落到麦克风上的所有声音。

因此,当声音落在麦克风上,并与“触发键”匹配成功后,协处理器就会激活主处理器开始录音(就像我们长按主屏幕按钮打开Siri一样)。然后,该录音被发送到服务器,并以类似于每个语音助手的过程进行解释。

想象一下这个过程,就好像你拥有数千把钥匙,你正试图找到哪把钥匙正好匹配你要打开的锁。

这里要注意的重要一点是,AOP处理器(A9)总是在“侦听”而不是“听”用户的声音。它就像一个婴儿,他一直在听人说话,但无法完全处理听到的话,只有在呼唤他的名字时,它才会被触发而开始工作。

M9运动协处理器于2015年9月与iPhone 6s一起发布。但正如本文一开始所说,“Hey Siri!”功能早于2014年9月就已经推出。那么,早期版本的iPhone 是如何能够“被动地”侦听呢?

好吧,如果你碰巧认识一个拥有iPhone 6的人,你可以检查一下“Hey Siri!”。即使你的手机处于空闲状态(屏幕关闭),该功能也只能在充电模式下工作。正如我们可以简单地推断的那样,它仅仅能在充电时获取少量的额外电量。看看下面iPhone 6 Siri的设置截图:

“Hey Siri!”背后的算法

用户的声音会以0.01秒为一帧的单位被采样下来,然后每次将20个这样的帧(0.2秒),连续输入到深度神经网络(DNN),神经网络将这些声音转换为概率密度函数,当该函数值超过最低阈值时,从而激活主处理器。

DNN训练

这里的阈值不是固定不变的,而是根据背景噪声而变化。因此,为了清楚地理解,你可以说DNN每时每刻都在计算阈值。

此外,当第一次记录你的语音样本并生成“触发键”时,实际上是在训练该DNN并定义权重以计算概率。

对于不同的口音,DNN的训练是不同的。例如,“Hey Siri”的发音有点像美国英语中的“Serious”,只是它没有标点符号。而“Hey Siri!”中的“ i”发音长度不同,而且带有一个惊叹号。

“Hey Siri”背后的数学计算

下面的内容是为所有机器学习爱好者准备的:)。

这是深度神经网络(DNN)模型:

DNN模型

总的概率函数如下:

其中:

  • F(i,t)是模型中状态i的累计分数

  • q(i,t)是声学模型的输出。这个输出是语音类别的对数分数,它与时间t附近给定语音模式的第i个状态有关

  • s(i)是和留在状态i相关的开销

  • m(i)是从状态i继续向后移动的开销

这里的s(i)和m(i)与定义“触发键”时训练的权重相关,可以这样假设:

s(i)- 由“触发键”的单个帧决定,取决于音调、音量等参数。

m(i)- 取决于“触发键”的频率,或简而言之速度,以及s(i)参数改变的大小和快慢。

例如:m(i)和 s(i)对埃米纳姆(Eminem)和阿黛尔(Adele)来说是非常不同的,因为埃米纳姆唱得更快(实际上要快得多),同时变化较小。而阿黛尔唱得更慢些,而且变化更大。

考虑到处理功率和电池消耗,对于协处理器(32层)和主处理器(192层),DNN中的层级大小是不同的。

“Hey Siri!”这项功能虽然没有被广泛宣传,但它却是朝着自动化和提高移动电话易用性迈出的革命性一步。它也可以被视为一个很好的例子,说明一个小小的改变如何对用户体验产生巨大的影响,以及这些小小的革命性改变有时需要进行广泛的研究。

原文链接:https://hackernoon.com/how-does-hey-siri-work-without-your-iphone-listening-to-you-at-all-times-827932do

本文为 CSDN 翻译,转载请注明来源出处。

欢迎所有开发者扫描下方二维码填写《开发者与AI大调研》,只需2分钟,便可收获价值299元的「AI开发者万人大会」在线直播门票!

推荐阅读半小时训练亿级规模知识图谱,亚马逊AI开源知识图谱嵌入表示框架DGL-KE
中国顶尖的技术社区们在一个群里,会聊什么…京东智能内容创作算法的演进与实践:基于关键词自动生成摘要马化腾、马云并列成为中国首富;百度回应“将上线电商直播”;.NET 5 Preview 2 发布 | 极客头条程序员职场背锅甩锅指南警惕!新骗术出现:这些虚假二维码生成器已成功盗取 4.6 万美元!“出道” 5 年采用率达 78%,Kubernetes 的成功秘诀是什么?
  • 你点的每个“在看”,我都认真当成了AI

相关文章:

[ASP.NET4之旅]Circular file references are not allowed

将ASP.NET 2.0的项目升级到ASP.NET 4后&#xff0c;用VS2010编译站点&#xff0c;某些控件出现编译错误“Circular file references are not allowed”&#xff0c;比如&#xff1a; <% Control Language"C#"ClassName"NewsRight"%>解决方法&#xf…

IOS-XMPP

一、即时通讯技术简介 即时通讯技术&#xff08;IM -- Instant Messaging&#xff09;支持用户在线实时交谈。如果要发送一条信息&#xff0c;用户需要打开一个小窗口&#xff0c;以便让用户及其朋友在其中输入信息并让交谈双方都看到交谈的内容有许多的IM系统&#xff0c;如AO…

libcurl使用

官网&#xff1a;http://curl.haxx.se/libcurl/c/libcurl-tutorial.html #curl-config --libs 得到 -lcurl #cc libcurl_test.c -o libcurl_test -lcurl 所有的例子&#xff1a;http://curl.haxx.se/libcurl/c/example.html 例子&#xff1a; /***********************…

RH5.4下samba共享配置实例(3)

一、基于用户名的访问控制实例&#xff1a; 王乾大哥写的比较详细了&#xff0c;我是跟着他的教程学习的&#xff0c;按照他的教程走一边&#xff1b; 要求如下&#xff1a; 1、创建一个公共的交换文件夹&#xff0c;所有人都可以写入删除&#xff0c;但不能删除修改其他人的文…

《评人工智能如何走向新阶段》后记(再续21)

346.中国抗疫十大黑科技&#xff08;以人工智能为主力的黑科技&#xff09; 摘自数邦客&#xff08;2020.3.30发布&#xff09; 负压救护车 人工智能机器人&#xff1a;如送餐机器人、消毒机器人、服务型机器人&#xff0c;及机器人呼叫等呼吸道病毒核配检测试剂盒&#xf…

ssh-keygen

nagios npc安装后状态为off的解决方法

1、检查ndo2db的进程是不是二个 nagios 16825 0.0 0.1 6784 396 ? Ss 19:05 0:00 /usr/local/nagios/bin/ndo2db -c /usr/l nagios 17032 0.0 0.3 6784 1268 ? S 19:09 0:00 /usr/local/nagios/bin/ndo2db -c 2、检查nagios.log日志看…

C语言extern关键字定义外部变量--Redis源码extern使用

在Redis2.8中有networking.c&#xff0c;这个文件没有networking.h networking.c首先引入redis.h这个头文件 #include "redis.h" 在redis.c一开始就声明了全局变量 /* Global vars */ struct redisServer server; networking.c的createClient函数 redisClient *cr…

深度学习面试必备的25个问题

作者 | Tomer Amit译者 | 弯月&#xff0c;编辑 | 屠敏出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;在本文中&#xff0c;我将分享有关深度学习的25个问题&#xff0c;希望能够帮助你为面试做好准备。1.为什么必须在神经网络中引入非线性&#xff1f;答&#xf…

一分钟了解阿里云产品:先知计划

一、 概述 阿里云发布了各种各样的产品&#xff0c;今天让我们一起来了解下阿里云先知计划吧。 什么是先知计划呢&#xff1f; 先知计划是一个帮助企业建立私有应急响应中心的平台&#xff08;帮助企业收集漏洞信息&#xff09;。企业加入先知计划后&#xff0c;可…

C语言的HashTable简单实现

原文地址&#xff1a;http://blog.csdn.net/zmxiangde_88/article/details/8025541 HashTable是在实际应用中很重要的一个结构&#xff0c;下面讨论一个简单的实现&#xff0c;虽然简单&#xff0c;但是该有的部分都还是有的。 一&#xff0c;访问接口 创建一个hashtable. h…

GitHub标星2000+,如何用30天啃完TensorFlow2.0?

作者 | 梁云1991来源 | Python与算法之美&#xff08;ID:Python_Ai_Road&#xff09;天下苦tensorflow久矣&#xff01;尽管tensorflow2.0宣称已经为改善用户体验做出了巨大的改进&#xff0c;really easy to use&#xff0c;但大家学得并不轻松。tensorflow2.0官方文档和tenso…

【Struts2学习笔记(1)】Struts2中Action名称的搜索顺序和多个Action共享一个视图--全局result配置...

一、Action名称的搜索顺序 1&#xff0e;获得请求路径的URI&#xff0c;比如url是&#xff1a;http://server/struts2/path1/path2/path3/test.action 2&#xff0e;首先寻找namespace为/path1/path2/path3的package&#xff0c;假设不存在这个package则运行步骤3&#xff1b;假…

大话卷积神经网络CNN,小白也能看懂的深度学习算法教程,全程干货建议收藏!...

来源 | 程序员管小亮本文创作的主要目的&#xff0c;是对时下最火最流行的深度学习算法的基础知识做一个简介&#xff0c;作者看过许多教程&#xff0c;感觉对小白不是特别友好&#xff0c;尤其是在踩过好多坑之后&#xff0c;于是便有了写这篇文章的想法。由于文章较长&#x…

频繁分配释放内存导致的性能问题的分析--brk和mmap的实现

&#xfeff;现象1 压力测试过程中&#xff0c;发现被测对象性能不够理想&#xff0c;具体表现为&#xff1a; 进程的系统态CPU消耗20&#xff0c;用户态CPU消耗10&#xff0c;系统idle大约70 2 用ps -o majflt,minflt -C program命令查看&#xff0c;发现majflt每秒增量为0&…

Linux 服务器日志文件查找技巧精粹

用来在日志文件里搜索特定活动事件的工具不下几十种&#xff0c;本文将介绍搜索日志文件时应该采取的策略。然后&#xff0c;通过几个具体示例介绍一些使用grep命令手动搜索日志文件的办法。接下来&#xff0c;我们将看到 logwatch工具和logsurfer工具的用法。最后&#xff0c;…

程序猿面试什么最重要?

程序猿面试一直是社区乐于讨论的热门话题。我自己从06年实习以来。先后经历了4家软件公司。所有是外企。当中有世界500强的通信企业&#xff0c;有从事期权期货交易的欧洲中等规模的金融公司&#xff0c;也有为大型汽车制造商开发Android智能汽车的新兴公司。跨入IT行业以来。我…

open的O_DIRECT选项

http://blog.chinaunix.net/uid-223060-id-2127385.html http://blog.csdn.net/hhtang/article/details/6605951 查看磁盘分区&#xff1a; #df -h #tune2fs -l /dev/mapper/VolGroup-lv_root 或者 #dumpe2fs /dev/mapper/VolGroup-lv_root|grep -i "block size"…

2020 年,AI 芯片内存哪家强?

目前多家公司都在开发网络边缘系统的AI芯片&#xff0c;本文作者详细分析AI边缘芯片遇到的问题和挑战&#xff0c;并给出一些新的内存技术解决方案。作者 | Mark LaPedus译者 | 弯月&#xff0c;责编 | 伍杏玲封图 | CSDN下载自视觉中国出品 | CSDN&#xff08;ID:CSDNnews&…

Excel数字、文本混合列导入SQL Server出现的问题&解决办法

版权声明&#xff1a;转载时请以超链接形式标明文章原始出处和作者信息及本声明http://annie-out.blogbus.com/logs/60276495.htmlExcel文件&#xff1a;序号 姓名 内部电话 住址 1 小李 1234 …… 2 小王5678……3小张2345(国内长途&#xff09;…………………………如上结构的…

ARM 位置无关代码(PIC)的分析理解

2019独角兽企业重金招聘Python工程师标准>>> PIC的特点是&#xff1a; 它被加载到任意地址空间都可以正确的执行。其原理是PIC对常量和函数入口地址的操作都是基于PC偏移量的寻址方式。即使程序被移动&#xff0c;但是PC也变化了&#xff0c;而偏移量是不变的&#…

Linux压缩/解压缩

整合资源&#xff0c;仅供自己参考&#xff1a;&#xff09; TAR 命令名 tar - tar 档案文件管理程序的 GNU 版本。下面将逐个介绍其含义 总览 tar [ - ] A --catenate --concatenate | c --create | d --diff --compare | r --append | t --list | u --update | x -extract -…

为什么校招面试中总被问“线程与进程的区别”?我该如何回答?

作者 | 宇宙之一粟责编 | 徐威龙出品 | AI 科技大本营&#xff08;rgznai100&#xff09;进程与线程&#xff1f;&#xff08;Process vs. Thread&#xff1f;&#xff09;面试官&#xff08;正襟危坐中&#xff09;&#xff1a;给我说说“线程”与“进程”吧。我&#xff08;总…

Linux线程编程

1.编译 undefined reference to pthread_create问题解决 出现如下错误&#xff1a; undefined reference to pthread_create undefined reference to pthread_join 问题原因&#xff1a; pthread 库不是 Linux 系统默认的库&#xff0c;连接时需要使用静态库 libpthread…

PHP引擎php.ini 和fastcti优化

1.1 php引擎缓存优化加速1&#xff09;eaccelerator2&#xff09;Zend3&#xff09;xcache1.2 使用tmpfs作为缓存加速的的文件目录[rootLNMP ~]# mount -t tmpfs /dev/shm -o size256m[rootLNMP ~]# mount -t tmpfs /dev/shm/ /tmp/eaccelerator/提示&#xff1a;1、上传图片缩…

从*p++说指针,数组,结构和函数

说明文中*p和*s都是一个东西&#xff0c;不做字面上的统一了。 因为右结合性&#xff0c;*p 其实就是 *(p) 1.strlen的实现 #include <stdio.h> main(){char str[] "Abcde";printf("\n string %s length %d \n",str,str_length(str)); }int str…

8比特数值也能训练模型?商汤提训练加速新算法丨CVPR 2020

出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;在CVPR 2020上&#xff0c;商汤研究院链接与编译团队、高性能计算团队和北航刘祥龙老师团队合作提出了用于加速卷积神经网络训练过程的INT8训练技术。该工作通过将网络的输入、权重和梯度量化到8比特来加速网络的前向传…

×××作,不知写些什么

博客&#xff0c;老是有写的冲动&#xff0c;不过&#xff0c;没什么韧劲坚持&#xff0c;自己感觉文采一般般啦&#xff0c;有时兴起&#xff0c;挥毫泼墨&#xff0c;蜡笔重唱一番&#xff0c;呵呵&#xff0c;自个爽朗了&#xff0c;呵呵 所以&#xff0c;自己坚持&#xff…

centos7 install 安装mysql

CentOS 7的yum源中貌似没有正常安装mysql时的mysql-sever文件&#xff0c;需要去官网上下载 # wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm # rpm -ivh mysql-community-release-el7-5.noarch.rpm # yum install mysql-community-server成功安装之…

AI四巨头Google、DeepMind、Microsoft、Uber深度学习框架大比拼

编者按&#xff1a;Google、Uber、DeepMind和Microsoft这四大科技公司是当前将深度学习研究广泛应用于自身业务的典型代表&#xff0c;跻身全球深度学习研究水平最高的科技公司之列。GPipe、Horovod、TF Replicator和DeepSpeed分别是这四家公司开发应用的深度学习框架&#xff…