帝都娱乐首页-帝都娱乐手机客户端|官网APP下载

0357-417277393

在线客服| 微信关注
当前位置: 首页 > 企业新闻

亚马逊Echo新品技术解读,如何选择合适的麦克风阵列?|帝都娱乐手机客户端|官网APP下载


帝都娱乐首页|(微信官方账号:)出版社:本文作者是中国科学院声学研究所博士、声波技术创始人兼首席执行官陈。美国时间9月27日,亚马逊再次引领远场语音交互潮流,一口气发布5款Echo新品,包括第二代Echo和Echo Plus、2.5寸屏幕的Echo Spot、Echo Connect、Echo按钮。其中,Echo Spot是一款叫做Echo Show闹钟版的新产品,它有一个2.5英寸的圆形屏幕,用户可以用它来显示图像、歌词、视频聊天等。

价格只有129.99美元。与新版本的Echo和Echo plus不同,Echo Spot不使用环形6-1麦克风阵列,而是切割麦克风阵列,匹配环形4-麦克风阵列技术。

帝都娱乐首页

为什么Echo Spot不自由选择更换不同的麦克风阵列技术?近期亚马逊客厅产品系列:Echo和FireTV系列全球量产麦克风阵列1的形成技术库存。无论是亚马逊Echo的第一代还是第二代,Echo都采用了典型的6-1麦克风阵列结构,即环中6个麦克风搭配中间1个麦克风,如下图左右。此外,亚马逊仍然讨厌使用ti的AD芯片TLV320ADC。

目前这种形态在国外主要被亚马逊Echo使用,在国内只是被科大讯飞多次误解和模仿。其中,第一代被误解的智能音箱采用了中间6个麦克风的结构。

如下图所示。这里就说科大讯飞吧,他的叮咚音箱系列产品都是这样的结构。

讯飞减少了一个麦克风,形成了一个环形的7-1麦克风阵列结构,如下图右侧所示。丁咚第一代和第二代的主要区别是第一代使用驻极体麦克风,而第二代使用模拟微机电系统麦克风。与亚马逊相比,科大讯飞更喜欢柯胜勋的芯片。

第一、二代丁咚产品全部采用科盛讯的AD芯片CX20810。此外,科大讯飞的双麦算法也采用了柯生勋CX20921芯片。2.Echo ShowEcho Show采用椭圆形麦克风阵列,国内一般称为滑行道形状,但只有双线形,如下图左右。

因为Echo Show的厚度,这个阵型达到了一个折中,也是技术向产品设计让步的典型案例。目前国内只有健全的情报技术供应类似阵型,也就是L型6麦阵,如下图所示。3.Echo Spot进一步减少了麦克风阵列的设备,采用了圆形4麦克风的技术,如下图左右图所示,既降低了成本,又保证了一定的效果。

这是一个根据场景自由选择合适技术的典型案例。目前国内Sonic Technology也供应这种阵型的麦克风阵列产品,即兼容4麦和4 1麦的麦克风阵列和开发板,如下图右图所示。相比6麦阵型,增加2个麦克风后,这个阵型只损失了4米外的一些远场语音交互性能。

但根据国外产品公司对用户习惯的统计分析数据,用户最习惯的是1-3米范围内的远场交互距离,所以4麦也适合大多数用户在场景中使用,尤其是酒店等行业。4.苹果HomePod公司使用6环小麦方案。环6-麦的优点是给了设计产品ID更多的自由度,同时兼顾了成本和远场语音交互性能。国产小米AI音箱采用声音智能技术的前端解决方案,其中阵型为环形6麦克风。

同时,为了降低后期成本,所有麦克风都使用数字麦克风,从而省略了必须与模拟麦克风相匹配的AD芯片。天猫精灵和潇雅音箱在中国也是这种阵型。但与小米AI Speaker不同,天猫Elf为了照顾算法因素,仍然采用模拟麦克风TI ADC的方案。

5、Google HomeGoogle Home独一无二,采用双麦克风解决方案,国内外出提问的智能音箱也扩展了这种解决方案。国内双麦技术供应商主要是科大讯飞和晟智科技。然而,盛智科技的双麦克风方案主要用于汽车等行业 科大讯飞已经多次出版了双层麦克风阵列和4麦克风线性阵列。除了科大讯飞,Sonic Technology还发布了4麦线性阵列、3麦三角形阵列和分布式阵列的生产版本。

但是由于这些阵列状产品的销量还是很小,对市场的影响还是很小的。为什么不同产品的麦克风阵列差别这么大?从以上库存可以看出,亚马逊的每一个新产品系列都会使用新的麦克风阵列技术,国内知名产品的麦克风阵列也是五花八门。

即使阵列完全相同,阵列间距也不会不同。为什么不会出现这种现象?1.麦克风阵列技术首先,从麦克风阵列技术本身来看,麦克风阵列是指应用于语音处理的多个按照一定规则排序的麦克风系统,也可以非常简单的方式解释为两个以上麦克风组成的录音系统。一般来说,麦克风阵列可以分为线性、环形和球形,应该描述为一字、十字、双L、平面、螺旋和球形。

至于麦克风阵列的阵元数,也就是麦克风的个数可以取2到数千的平均值。由于成本承受能力,消费麦克风阵列的阵元数量一般不超过8个,所以市场上比较少见的是6麦和4麦阵列。2.麦克风的质量、数量和布局除了算法之外,阵列麦克风的质量、数量和布局是对麦克风阵列性能的主要要求。

这些基本都是硬件架构所要求的,尤其是麦克风的质量和数量,与各个厂商的供应链息息相关,容易导致各个产品的差异。比如丁咚1自由选择性能指标较高的定向驻极体传声器,Echo匹配性能指标较低的MEMS传声器,保证量产质量。

由于算法的不断完善,麦克风的拒识依然严重,因此MEMS麦克风是目前的主流应用。3.远场语音交互的场景其次,从远场语音交互的场景来看,比如智能音箱、智能中控、智能车的场景,身份不同,市场需求自然也不同。

智能音箱一般放在桌面上,必须360度呼叫指令,所以戴环形阵比较合适,而智能中控一般贴在同一面墙上,只关心180度范围,所以此时线阵可以满足要求。当然这里也有类似的,比如手机和平板,一般都是3-4米的长方形。

这种阵型合理利用了屏幕朝向,只注重满足某个扇形角度的性能。智能车可以分为两种情况。一个是只能满足司机的语音交互市场需求,一个是能满足所有乘客,后排必须有人照顾,所以必须使用分布式阵列。4.产品设计的美与约束再一次,从产品设计的美与约束的角度来看,刚才提到的形成,制约了产品的ID设计。

但是如果产品不一样,那肯定是id不一样,所以自然界一定有不同形状的麦克风阵列。不同的阵元间距和制作不会对麦克风阵列性能产生根本性的影响,所以这个设计过程是一个技术和艺术相互让步的过程,同时麦克风阵列也在一定程度上拒绝覆盖。目前的麦克风阵列主要是放在顶部来防止这个问题。

当然,这种约束不会随着算法技术的大幅度提高而减弱。5.产品成本和生产工艺最后,从产品成本和生产工艺的角度,比如麦克风的选择,驻极体麦克风的性能指标更好,但由于生产中大量人工干预造成成本较高,目前主要采用的是MEMS麦克风。微机电麦克风分为模拟麦克风和数字麦克风。

模拟麦克风ADC的性能指标更好,但也增加了成本。数字麦克风的问题是采集的信号是最好的,必须经过算法更好的处理才能在一定程度上超过其他方案的效果。为什么Google Home可以自由选择双麦方案?有时候听不到一个业内人士做的转换。人类有两个 这其实是一种误解。

按照现在的技术,就算用100个麦克风,也未必比人耳效果好。人耳是一个非常简单的结构,到目前为止,几乎所有的原理都没有被科学理解,更不用说用非常简单的麦克风模拟了。现在的麦克风本质上都是标量麦克风。

他们提供的是指声压变成电信号,没有耳廓,无法根据场景变化进行调整。那么Google Home为什么要使用双麦方案呢?这和麦克风阵列有什么区别?事实上,这应该从不同的技术架构中探索。目前市场上主要没有三种远场语音交互技术架构。

1.以Google为代表的纯云技术架构,最初就是以Google为代表的纯云技术架构。Google不想用麦克风阵列,因为阵列相比双麦克风方案具有波束形成的功能,所以自然享有更好的噪声和混响。当距离较近或环境简单时,仍然需要保证远场识别率。

但由于麦克风阵列涉及前端硬件,这是Google不擅长的,Google期望通过云机器学习超越同类功能。但麦克风阵列元素多,导致数据容量过大,目前网络上传比特率严重不足,自由选择的麦克风较少,无法权衡。事实上,如果使用前端方案,单麦克风方案在大多数场景下的性能也可以超过双麦克风方案。当然,多一个麦克风信号对云算法也很重要。

2.以柯生勋为代表的纯前端技术架构之后是以柯生勋为代表的纯前端技术架构。双麦克风减震本质上是一种非常成熟的方案,在智能手机和蓝牙耳机中得到了广泛的应用,但必要时必须兼容大量的语音交互。

前端方案的优点是更容易在芯片上搭建,缺点是升级扩展困难,这恰恰与人工智能递归的趋势不兼容,也是目前这种方案不流行的主要原因。3.以亚马逊为代表的前端云解决方案,最终是以亚马逊为代表的前端云解决方案。该解决方案将算法分别放在前端和云中,可以根据清晰的场景进行部署和优化,更容易优化性能和扩展功能。

该方案考虑了麦克风阵列、苏醒和识别技术的集成。由于苏醒和识别在很大程度上依赖于麦克风阵列的算法处理效果帝都娱乐首页,这三种技术在本质上几乎是无法分开的,尤其是麦克风阵列和苏醒技术。

所以国内厂商开发的亚马逊Alexa产品,如果搭配Sensory获得的苏醒话,绝对不会比Echo差太多。有趣的是,Alexa和Echo的对抗,已经引起了产品终端Alexa平台不得不拒绝接受更差性能的失望。

如何准确自由地选择麦克风阵列阵型和技术?从上面分析,远场语音交互产品明显比较复杂,也就是说麦克风阵列有那么多问题。那么应该如何自由选择合适的麦克风阵列和技术呢?1.从产品的实际角度来看,前端方案要在后端技术之前确定。前端技术包括麦克风阵列、苏醒和识别技术,后端技术包括自然语言解释和内容服务。

前端主要解决产品听不听的问题。有五个核心指标:远场语音苏醒亲率、简单环境误苏醒亲率、远场语音识别率、整体延迟时间和整体稳定性。这五个核心指标需要用户的第一次体验。

因为用户受不了前端技术的任何问题,所以前端技术的稳定性也很重要,这个指标必须在量产中测试。 后端技术主要解决的是产品是否看不懂的问题,只是自然语言解释太多,需要将系统与内容服务串联起来,才能超越用户失望的目的。其实产品的智能化主要体现在后端,涉及到内容服务。目前只有BAT这样的巨头才能做的更好。

目前,已经通过量产测试的全球前端技术主要由亚马逊、苹果、科大讯飞、语音智能技术等厂商控制,而后端技术尤其是内容和服务主要由谷歌、微软、苹果、亚马逊、百度、腾讯、阿里等巨头控制,Esprit、云之声等语音识别厂商也纷纷转型并宣布平台策略。2.根据场景选择合适的队形。其次,根据场景选择合适的阵型。

比如产品定位的场景是不是一定要接360度?产品用户的大概年龄是多少?产品的主要交互距离是多少?产品的ID用什么形状?产品是否考虑低功耗?根据这些指标,专业的技术解决方案提供商可以获得清晰的解决方案,复杂场景可能需要定制研发。然而,根据目前的技术进步,例如,声波技术仍然限制地层的大小和结构。3.降低成本要在满足效果的前提下考虑,这和场景清晰密切相关,比如儿童故事机。

由于孩子和机器之间的距离约束,成本本质上是首先要考虑的因素,所以实际上单个麦克风解决方案就可以解决问题。对于技术实力较强的厂商,可以定制专用麦克风阵列,在性价比方面进行技术优化。对于大多数产品制造商来说,产品研发的速度和稳定性是首要考虑的,所以可以先选择阵列的模块方案,这样更容易构建和控制成本。

这使得制造商可以留出更多的精力来专注于后端智能的研究和开发。现在的后端技术稳定可靠后,真正体现产品差异的一定是后端技术。

亚马逊视角下的产品与平台厂商博弈。亚马逊已经完成了Echo家族产品发布会,其电商网站可能只购买Echo产品,价格完全损失。

这是一件非常有趣的事情。因为亚马逊还在希望Alexa的生态,所以努力把Alexa变成AI平台。

但是从目前的困境来看,Alexa的平台进步可能还是不太大,亚马逊可能只是对推广自己的产品更感兴趣,Alexa刻意给产品开发者制造了很多困难。也更容易解读。

平台的打开和阻塞是天生不兼容的。平台的性质是对外开放,而产品的性质更容易被屏蔽。这是两种生态的竞争,没有哪个公司需要兼容并包。比如苹果依靠iPhone系列构建封闭平台系统,谷歌依靠安卓构建开放平台系统。

按照亚马逊目前的显示,苹果更有可能在南北,所以实际对外开放的只是内容和服务,更像苹果的Apple Store。这个也比较好解释,因为平台必须积累大量客户,身份偏向需要带来大量客户的生态伙伴。

如果这个生态伙伴恰好是自己的,没有理由不支持自己的产品。所以Echo持续降价,销量大幅增加,导致其他生态伙伴无法生存,但从亚马逊的角度来看,这并不是最重要的,因为不管用户来自哪里,他们的核心意见其实都超过了。

当亚马逊的用户积累到一定规模,自然会构成平台优势,但不会给后端R&D用户带来盈利空间,也可以构成相反的逻辑。从相反的逻辑来看,亚马逊的野心非常明确,这意味着挑战其他巨头,因为一旦形成声音流,无论是搜索还是社交,亚马逊都意味着有兴趣染指。

当然,电子商务是亚马逊的优势。 所以亚马逊和谷歌最近在Youtube上竞争也就不足为奇了,并且坚信这种情况不会再发生。这对我们国内的远场语音交互生态有什么救赎?这可能会影响到三类厂商:产品厂商、前端技术提供商和后端技术提供商,后端技术提供商本质上是平台。

其中这对于前端技术解决方案提供商并没有太大的影响,但是麦克风阵列、苏醒、识别都是流水线技术,同时服务于产品和平台两大厂商,他们的核心意见更好赚,并没有太多的其他追求价值,也就是说这部分没有立足之地用互联网思维去做。但是产品厂商和平台厂商纠缠不清,产品厂商和平台厂商都要有用户。

当用户数量足够大的时候,产品和平台后端所追求的价值就不会凸显出来。但是建这个目标是一个硬实力的硬坑,是南北开放模式还是封闭模式?对外开放必须意味着退出我们自己的产品希望生态,培养生态伙伴共同发展。在阻断模式下,需要大量投入,同时创造产品和平台,可能造成双方损失。

这是一个难题,也是一个公司的战略决策。很难说未来哪一款需要胜出,但在两款之间摇摆不定的厂商肯定没有发展空间。

所以很多时候,战略识别和决策是一个公司的核心竞争力。相关文章:自省模仿Echo热潮:为什么国外巨头要布局AI交互?思考远场语音交互体验:为什么Alexa不需要一个屏幕和多轮对话?|深入了解苹果HomePod技术,为什么苹果丑?算上麦克风技术和市场,如何选择麦克风进行远场语音交互?重生的兴奋,人工智能创业的困境与情感,特殊贡献,禁刊许可。以下是发布通知。:帝都娱乐首页。

本文来源:帝都娱乐首页-www.currentofair.com

客户案例Customer case
  • 常熟路一民居家深夜发生火灾 无人员伤亡
  • 帝都娱乐手机客户端|官网APP下载:一文看懂:2018年智能家居产业突围策略
  • 帝都娱乐手机客户端|陕西消防开展“随手拍火患”有奖公益活动
  • 胶合板横向整理 强化地板行情有所回落
  • 三夏农忙时如何预防麦田火灾 消防官兵来支招:帝都娱乐手机客户端
  • 【帝都娱乐手机客户端】非洲红花梨的国际贸易概况
  • Keylight倾力打造全球最大互联网全脑教育平台
  • 学习宝受700万学生青睐 K12教育数字化时代正在到来-帝都娱乐手机客户端
  • 红木上下游市场冷热不均
  • 帝都娱乐首页:上海公安全面使用警用无人机进行“非接触式”场景应用