一个App卖了4亿美元,这家听声识曲公司为何得到Apple的青睐?
作者 | 琥珀
出品 | AI科技大本营(ID:rgznai100)
是否可以将 Shazam 称为有听歌识曲功能应用的鼻祖?
2018 年 9 月,苹果最终以 4 亿美金完成对 Shazam 公司的收购,让不少人为之振奋,在当时对外公布的一份声明中可以看到,自Shazam应用登陆App Store以来,是其最受欢迎的iOS应用之一。
其实早在苹果 iPhone “出道”之前,Shazam 提供的音乐识别服务和技术就已戳中了不少用户的痛点。例如,当外界播放一首你喜爱的歌曲时,手机应用能识别出该歌曲并调出手机内同样的歌曲/原唱,完成后在手机上播放出来。
像最早流行的 Gracenote、SoundHound、Track ID、Tunatic,以及如今的第三方音乐 App 如 QQ音乐、网易云音乐,甚至微信“摇一摇”等也都具备音乐识别的功能。
只不过,据资料显示,在Shazam 公司 1999 年成立之初,以非常“原始”的方式提供服务的:“用户听到歌曲,打一个服务短号码,让电话那头听到,然后自动挂断,歌曲信息以短信的形式发到用户手机上。”
如今,无论被收购之后的 Shazam 是因何种战略地位为苹果生态提供服务,与其他类似的音乐识别软件在操作界面、细节功能有哪些不同,Shazam 仍受到大众的认可。抛开此前与苹果的关系、服务能力不提,Shazam 在音频识别上的技术能力得到公认的。
实际上,早在 2003 年 Shazam 联合创始人之一的 Avery Li-Chun Wang 就发表了一篇论文“An Industrial-Strength Audio Search Algorithm”(《一种工业级音频搜索算法》),提出了基于指纹(fringerprint)的音乐搜索算法,因其检索准确率较高,得到了不少算法工程师的关注。
编者注:来自维基百科:声学指纹(Acoustic fingerprint)是通过特定算法从音频信号中提取的一段数字摘要,用于识别声音样本或者快速定位音频数据库中的相似音频。
根据论文资料,Shazam 设计了一套非常灵活的音频搜索引擎。其算法抗噪声和扰动能力强,计算复杂度低,同时具有很高的可扩展性。即使外界噪音很强,它也可以迅速通过手机录制的一小段压缩音频从百万级的曲库中辨识出正确的歌曲。该算法运用分析音频频谱上的星状图来组合时间-频率信息构造哈希,从而可以将混合在一起的几首歌都辨识出来。此外,针对不同的应用,即使曲库非常大,检索速度也能达到毫秒级。
其核心简言之是,用户将某段音频中的一个片段上传至 Shazam,Shazam 会首先提取指纹,然后查询数据库,最后利用其精准的识别算法返回歌名。指纹可以看做该音频的哈希值(Hash),一个带有时间属性的数字集合。
2015 年,一位名叫 Christophe 的工程师写了篇万字长文,完整分析了Shazam的原理是什么,并表示,在过去的三年时间里,他用了大概 200 个小时来理解信号处理的概念,其背后的数学原理,并制作了自己的Shazam原型。他甚至直言:“写这篇文章是因为此前从没有找到一篇真正理解 Shazam 的文章”。
那么,如何更快更好理解 Shazam 背后的算法奥秘呢?前不久,YouTube上一个专门普及工程知识的频道 Real Engineering 上传了一段 10 分钟视频,可帮助人们快速 Get 到相关知识点。
传送门:https://www.youtube.com/watch?v=kMNSAhsyiDg
相比起人类,计算机对音乐没有直观的理解,它只能将歌曲与其数据库中的其他歌曲进行对比匹配。为此,视频中 Real Engineering 重点提及了两个概念:“星状图”和“哈希函数”,并对基于“指纹”的搜索算法进行了通俗化解释。
例如,人类大脑可很容易区分钢琴和吉他的音色,但对计算机来讲,就需要一种能够量化这些特征以便进行识别的方法,即频谱图,一种声音的视觉显示。
在视频中,研究者尝试用一张三维图来表示:x 轴代表时间,y 轴代表频率,z 轴代表振幅/响度(通常用某种颜色表示)。
如此,计算机就可以通过这个三维图来识别声音并存储数据。不过,会有个问题:频谱图中有大量这样的数据,而且数据越多,需要通过计算匹配的时间就越长。
所以,减少计算时间的第一步就是减少分类歌曲的数据。
Shazam 采用的称之为“指纹”的技术,可将这些频谱图转换成看起来像的“星状图”。
每颗星星代表特定时间最强的频率。如此,不仅降低了频谱图的维度,还减少了图表上数据点的数量。
然后,Shazam 数据库中的每首单曲都以“指纹”的形式存储起来。
当用户打开 Shazam 应用时,后台将访问手机的麦克风,并创建一组接收到的声波“指纹”。不过,这种方式也有助于应用过滤噪声,因为它只会创建突出频率的数据点。
音频创建完成,并将其发送到服务器。此时,Shazam的识别过程正式开始,即“快速组合哈希”(Fast Combinatorial Hashing)。
论文链接:https://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf
Shazam 会将“指纹”进行分类,并搜索在该音频中的某个特定时间点里分别存在哪几个音符,这也是哈希表的可搜索地址。
注:在计算机领域,哈希和哈希函数应用十分广泛。例如,在谷歌的搜索引擎算法中就应用了哈希函数,以确保文件可被下载。一句话解释就是,任意长度的输入通过哈希函数变换成固定长度的输出,该输出就是哈希值。
实践中,输入可以是一小段文字如密码,也可以是像整部电影一样的长数据流。
为免枯燥乏味,视频里还举了个生动的例子:在图书馆如何通过搜索书的标题确定书的位置?
可以通过哈希函数来决定,书的标题为输入,书架的位置为输出。在这个过程中,我们会遇到书籍不均匀分布、书目冲撞、以及如何快速找到所需书目的问题。
例如,如果图书馆只有两个架子,那么书目冲撞(一个书架上有相同标题的书)的问题将十分突出;但如果图书馆有十亿书架,那哈希函数得出的书目冲撞结果应该会很小。
回到以上提到的案例,如果通过哈希函数,选择两组频率数据,分别除以时间并作为输入,输出的数字介于 1 至 10 亿之间。
首先,计算机将浏览歌曲数据库并计算每个锚点(anchor point)的哈希;一首歌曲将包含多个锚点,将有助于计算机对音频片段按锚点、后面的以及之间的频率进行分类。
然后,对每个锚点按哈希进行排列。
这些地址同样以歌曲 ID 和时间戳进行分类。
如此,便可以更快定位,并找到本来需要多个锚点才能找到的音乐。
以上只是大致介绍,想要了解 Shazam 听歌识曲背后的详细原理,可以查看Christophe 写的万字长文。
传送门:http://coding-geek.com/how-shazam-works/
(本文为AI科技大本营原创文章,转载请微信联系 1092722531)
精彩推荐
推荐阅读:
对标Bert?刷屏的GPT 2.0意味着什么
一次性掌握机器学习基础知识脉络 | 公开课笔记
Python助你抢红包
3分钟实现9种经典排序算法的可视化|Python
骗局翻新, 暗网活跃度倍增, 2018加密货币犯罪报告敢看吗?
云漫圈 | 学Python还是Java, 8张漫画带你全面分析
35 岁程序员,年后第一天被辞退
手机辐射排行榜:小米、一加远超 iPhone;阿里开工彩票最高奖金 1000 万;苹果再遭集体诉讼
2月报告:Python逆袭成功?踢馆Java,碾压C++!
相关文章:

Product Orders(生产订单)状态相关函数BAPI
[相关表] JEST-对象的系统状态(I****)和用户状态(E****) JSTO-状态对象信息 TJ02T-系统状态文本 -用户状态文本 【锁对象】:生产订单锁对象 ESORDER 函数: ENQUEUE_ESORDER, DEQUEUE_ESORDER [函数1]:检…

5行代码就能入门爬虫?
作者 | 苏克1900来源 | 第2大脑(ID:Mocun6)责编 | swallow不少读者是刚刚入门Python或者想学习Python的,今天就来谈谈如何用快速入门爬虫。先说结论:入门爬虫很容易,几行代码就可以,可以说是学习…

【云周刊】第146期:史上最大规模人机协同的双11,12位技术大V揭秘背后黑科技...
摘要:史上最大规模人机协同的双11,12位技术大V揭秘背后黑科技,INTERSPEECH 2017系列 | 语音识别之语言模型技术,机器学习初学者必须知道的十大算法,云数据库SQL Server 2016和新技术应用...更多精彩内容,尽…

【驱动】GNSS驱动基础
GNSS:Global Navigation Satellite System(全球卫星导航系统) GPS:Global Positioning System(全球定位系统) GPS是美国的卫星导航系统。 还有,俄罗斯的GLONASS;欧盟的Galileo;中国的北斗。 这几大导航系统统称为GNSS GLONASS、Galileo、…

ibaits插入即获取主键(mssql,mysql,oracle)
oracle主键需预先生成,通过sequence;mysql和mssql是插入后生成。 mysql: <insert id"insertStu_mysql" parameterClass"stu"> insert into stu(name) values (#name#) <selectKey resultClass"int" keyProper…

【驱动】GNSS驱动:gpsOneXTRA 援助技术
什么是 “gpsOneXTRA 援助技术”? 高通 gpsOneXTRA 的援助技术在公司的改进中扩展了 gps 芯片组, 允许通过互联网连接下载辅助 gps。芯片组为更精确的位置发现提供了更高的灵敏度, 尤其是在通常难以找到 GPS 信号的位置。 gpsOneXTRA:帮助提高了独立的性能&#x…

2017年书单整理
android书籍: Android进阶之光 刘望舒 点评一下,这本书呢,涉猎很广,涉及的技术,开源库挺多的,适合广度面上的知识增长,对于深度上的提高价值不大,我觉得对我没啥太大价值额 Android安全技术揭秘…

华南理工大学院长涉嫌篡改8名研究生成绩,4人已停职
整理 | 一一出品 | AI科技大本营(ID:rgznai100)2 月 11 日,网友平凡的世界overlooker 在新浪微博上报料,称华南理工大学计算机科学与工程学院的院领导于 2018 年研究生复试结束后,篡改 8 位考生的考试成绩,…

我心中的最佳阵容
世界杯的激情还在心中涤荡,但新赛季的各大联赛却已悄然开打,这里给出我心中的几项最佳,期待他们本赛季的完美表现。 最佳球队:切尔西(上赛季切尔西在安帅执掌球队的首个赛季便夺得英超冠军,欧冠虽惜败于曾经…

如何让AI教机器自己玩俄罗斯方块?
作者 | Ahab转载自公众号Ahab杂货铺(ID:PythonLearningCamp)人工智能大火的今天,如果还是自己玩俄罗斯方块未免显得太 LOW,为什么不对游戏升级,让机器自己去玩俄罗斯方块呢?有了这个想法之后,我…

【驱动】内核打印级别设置
在uboot中设置 setenv loglevel loglevel8 setenv loglevel debug setenv loglevel quiet setenv loglevel setenv mmcargs run set_disp; setenv bootargs console${console},${baudrate} ${loglevel} ${smp} root${mmcroot} ${disp_args}内核对应代码 main.c (init) 467 s…

vue基本标签
2019独角兽企业重金招聘Python工程师标准>>> vue基本是数据驱动,数据双向绑定,组件化,常用标签v-modal,v-html,v-if,v-else,v-show,v-for,v-on(简写),v-bind(简写 :) vue.js 兼具 angular.js 和 react.js 的优点&#…

C#操作域用户
using System;using System.DirectoryServices;namespace SystemFrameworks.Helper{ /// ///活动目录辅助类。封装一系列活动目录操作相关的方法。 /// public sealed class ADHelper { /// ///域名 /// private static s…

Redis进阶实践之三如何在Windows系统上安装安装Redis
一、Redis的简介 Redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/po…

31页PPT概述:图神经网络表达能力有多强?
整理 | 一一出品 | AI科技大本营近年来,图神经网络的研究成为深度学习领域的热点。图是一种数据结构,它对一组对象(节点)及其关系(边)进行建模,由于图结构的强大表现力,用机器学习方…

【linux】Linux kernel uapi header file(用户态头文件)
uapi目录的创建原因 Linux在3.7以后把很多header file移到 include/uapi或是arch/xxxx/include/uapi下,为了解决include recursive(循环包含头文件)的问题。 英文参考文档:https://lwn.net/Articles/507794/ 解决include recur…

诊断IIS中的ASP0115错误
诊断IIS中的ASP0115错误 作者:未知 重要说明:本文包含有关修改注册表的信息。修改注册表之前,一定要备份注册表,并且一定要知道在发生问题时如何还原注册表。有关如何备份、还原和编辑注册表的信息,请单击下面的文章…

【imx6】libipu.so.0说明
###代码位置 在目录fsl-release-bsp/build-fb/tmp/work/imx6qsabresd-poky-linux-gnueabi/imx-lib/1_3.14.28-1.0.0-r0/imx-lib-3.14.28-1.0.0/ipu中 编译完成后有如下文件列表 ipu$ ls Android.mk libipu.so Makefile mxc_ipu_hl_lib_dummy.c mxc_ipu_hl_lib.…

“安利”一款debug神器:在AI面前,bug都不是事儿
作者 | 琥珀出品 | AI科技大本营(公众号ID:rgznai100)为了帮程序员解决 bug 问题,Facebook 可算是操碎了心!你可以这么想,如果在开发和测试阶段没有发现 bug 问题,那么 bug 将会随着产品发布&am…

Spring中@Value用法收集
一、配置方式 Value需要参数,这里参数可以是两种形式: Value("#{configProperties[t1.msgname]}") 或者 Value("${t1.msgname}"); 这两形式,在配置上有什么区别: 1、Value("#{configPropert…

vue从入门到进阶:指令与事件(二)
一.插值 v-once 通过使用 v-once 指令,你也能执行一次性地插值,当数据改变时,插值处的内容不会更新。但请留心这会影响到该节点上所有的数据绑定: span v-once>这个将不会改变: {{ msg }}</span> v-html 双大括号会将数据…

【ubuntu工具】bless:二进制查看工具,类似win下的UltraEdit
###安装 sudo apt-get install bless 使用 bless filename 或者执行bless,在图形界面中打开准备操作的文件 工具主界面

马斯克连发三推,发布退出OpenAI内情
整理 | 一一出品 | AI科技大本营(ID:rgznai100)美国时间 2 月 17 日,特斯拉 CEO 马斯克在 Twitter 连发三帖,道出自己退出人工智能研究组织 OpenAI的缘由。他在推文中表示,他已经有一年多时间没有深度参与 OpenAI 事务…

开发代码命名规范!
今天查看以前的资料看见代码命名规范。呵呵 就拿出来给大家分享以下,还是比较老的。估计现在也是这种开发的命名规范。仅供参考!谢谢。 1.用Pascal规则来命名方法和类型。 public class DataGrid { public void DataBind() {…

【linux命令】readelf工具中英文说明
简介 readelf命令用来显示一个或者多个elf格式的目标文件的信息,可以通过它的选项来控制显示哪些信息。 ELF文件由4部分组成,分别是ELF头(ELF header)、程序头表(Program header table)、节(Se…

再见Python!Yann LeCun警告:深度学习需要新编程语言
整理 | 一一出品 | AI科技大本营尽管工程师们普遍定位 Python 是简单、优雅的编程语言,但它并非毫无缺点,比如人们一直吐槽它的执行速度不够快,线程不能利用多 CPU 等缺点,如今 AI 界泰斗也放话说要用新编程语言替代 Python。Face…

Linux系统与我之间的故事
2019独角兽企业重金招聘Python工程师标准>>> 说起Linux想必大家都不是很陌生的,关注这方面的不是大神就是对Linux特别热爱的人,那么接下来我给大家介绍下我和Linux之间的一些事,还有如何去快速的学习Linux。 我接触Linux大概就是大…
Google Instant 瞬时搜索上手指南
Google Instant是Google刚刚发布的一种新的搜索方式,随着你在搜索框里输入文字,Google将同时给出搜索结果,同时在搜索框里还会根据你输入的关键字给出搜索建议,通过上下键即可切换。按TAB键可自动补全第一位的搜索建议。随着你不断…

【视频】显示器固定参数struct fb_fix_screeninfo中char id[16]说明
imx6q关于fb和video的设备信息 设备节点 root@myzr:/unit_tests# ls /dev/fb* -l lrwxrwxrwx 1 root root 3 Jan 1 1970 /dev/fb -> fb0 crw-rw---- 1 root video 29, 0 Jan 1 1970 /dev/fb0 crw-rw---- 1 root video 29, 1 Jan 1 1970 /dev/fb1 crw-rw---- 1 …

“编程不规范,同事两行泪!”
【编者按】编程江湖中一直盛传着一个段子,那就是要问程序员最讨厌哪 4 件事?那必须是:写注释、写文档、别人不写注释、别人不写文档。更甚者,在《流浪地球》形成刷屏之势之后,仿其而出的“代码千万行,注释第…