云屋科技第三代语音引擎CRVE3.0正式发布
云屋科技第三代语音引擎CRVE3.0正式发布了,相对上一代引擎,CRVE3.0在语音处理的各项关键技术上都有大幅提升,还加持了场景化降噪、智能回声预测、指向性语音保护、语音内容实时重建等多项黑科技。
语音引擎的处理主要集中在前处理环节,核心是语音降噪(ANS)、回声消除(AEC)、增益控制(AGC),下面我们详细剖析一下CRVE3.0给我们带来了哪些惊喜。
1.语音降噪(ANS)
通讯过程中因为各参与方环境的复杂性,难免会引入各种噪声,如果不能有效降噪,将会大幅降低语音的辨识度,影响沟通效果。
常见噪声从大的类别来讲主要有两类:
-
相对平稳的持续噪声,比如空调声、电脑风扇声,这种噪声的特点是变化缓慢,CRVE通过自有AI算法进行特征识别,与变化较快的人类语音进行差分处理,定向消除了这种噪声。
-
间歇性噪声,比如键盘敲击声、鼠标点击声、咳嗽声等等,这类噪声的特点是突发性高,有特定的频谱和持续时间规律,CRVE通过自有的深度学习技术进行模型训练,智能识别和消除。
-
黑科技:场景化降噪
CRVE通过多年的大数据训练,可以对用户的场景进行智能识别,对于会议室、私家车内、公共交通、路边等常见通讯场景进行识别,并采用针对性的场景化降噪算法,在不影响音质的前提下最大程度消除了环境噪声。
2.回声消除(AEC)
因为拾音设备和播放设备具备多样性,声音传播路径也非常不可控,一直以来回声消除都是语音引擎最大的难点和痛点。尤其部分用户使用环境复杂,声场特别恶劣,声音输出的非线性程度很高,传统的回声消除算法几乎不可能处理干净。
CRVE通过云屋自研的动态自适应滤波器实现了快速回声检测,回声整体收敛速度更快,终端适应性更强,在声音处理链条的末端再配合智能降噪擦除残留的低能量回声,最终实现了双讲场景下的完整回声消除,因为没有采用抑制的方式消除回声,所以不会出现传统回声消除算法在双讲场景下因抑制导致的语音碰撞。
-
黑科技 智能回声预测
CRVE通过智能回声预测算法来处理非线性较强的回声,实现了难度最大的非线性回声消除。
-
黑科技 指向性语音保护
CRVE对人声的特定频段进行了智能识别,并进行指向性保护,避免在回声消除的过程影响了语音的连贯性。
-
黑科技 高频预留
传统回声消除算法的高频部分信息损失较大,对声音的辨识度有一定影响,CRVE最新的高频预留算法可以保留丰富的高频音域信息,声音保真度更高,尤其对于音乐等宽频声音效果更好。
3.增益控制(AGC)
CRVE的增益控制对用户的麦克风音量和麦克风加强进行了统一智能控制,确保大信号在增强时不会出现削峰和爆音,小信号可以被放大到舒适范围内。
-
黑科技 定向增益
CRVE特有的智能人声识别技术,可以剥离出人的语音进行单独增益,配合VAD实现了嘈杂背景下只增益人的语音不放大底噪的效果。对于多人在同一个会场,有的发言者离麦克风远有的发言者离麦克风近导致的语音输入忽大忽小的场景也能处理的很完美。
-
4.网络损伤处理
-
在互联网上传输语音必须面临的问题就是网络不稳定时存在的丢包和抖动,如果软件处理不好,就会出现语音丢字和快进慢放,严重影响沟通效果。
-
抖动处理
CRVE通过智能jitter技术完美解决了网络抖动对语音质量的影响,实测500ms以内的网络抖动都可以平滑处理,做到让用户完全无感知。
-
动态补偿
CRVE的动态补偿技术可以实现完整的网络侧丢包补偿,在带宽和补偿深度之间进行权衡,在网络丢包低于50%的场景下可以做到音质完全不受影响。
-
黑科技 语音内容实时重建
当网络丢包率高于50%时,网络补偿之后仍然会缺失部分语音包,继续提高补偿深度会导致语音占用的网络带宽过大,造成更大的丢包率,反而得不偿失。CRVE有声学层面的智能算法,利用语音的帧间相关性,基于多项音频参数,在信号层面通过多重滤波器把丢失掉的信号重新构建出来。
网络侧的动态补偿再加上语音内容实时重建,让CRVE可以在丢包率50%时音质完全不受影响,丢包率70%时部分音色略有失真但还能流畅沟通。
搭载CRVE3.0语音引擎的云屋各项产品已全面上线,包括云屋视频会议全系列软硬件产品和云屋开放平台的SDK产品,期待您的体验。
- 上一篇:视频会议软件+终端