坚定源头技术创新及研发思必驰迎来产品化全面收获期

发布时间:2022-08-13 02:55:11 来源:欧宝网站 作者:ob欧宝体育app下载

  自成立以来,思必驰通过“终端+AI”、“行业+AI”等方式深度赋能各行业场景,促进诸多应用落地。

  作为一家对话式人工智能平台公司,思必驰深谙“技术为王,创新为本”的重要性。

  如今的思必驰拥有全链路的智能语音语言技术,自主研发了新一代人机交互平台(DUI)和人工智能芯片(TH1520);为车联网、IoT及政务、金融等众多行业场景合作伙伴提供自然语言交互解决方案。

  凭借雄厚的AI技术实力与广泛的产品落地业务,2020年,思必驰完成Pre-IPO轮融资,随后完成股份制改造。

  此时的思必驰,依然保持沉着,稳中求进地进行着核心技术的研发与升级,并探索更多场景的落地。

  2021年,思必驰在多项核心技术上取得进展。在保持这一良好发展势头的同时,今年以来,思必驰继续不断突破自我。

  音色,是每个人独有的声音特色,也是虚拟人表达情感、对外沟通不可或缺的部分。强大的音色定制能力让虚拟偶像更为鲜活。然而,当前市场上传统人工合成音色定制服务通常流程较为复杂,技术门槛较高,需要大量人力相互配合,定制成本与定制周期也让很多使用者望而却步。

  今年3月,思必驰推出易操作的发音人音色定制平台。该平台是思必驰提供的一项进行音色定制训练的平台服务,旨在赋能用户自主完成语音合成音色模型定制,降低语音合成定制门槛。使用者只需要根据自身场景需要,上传一定量符合规定标准的音频,即可一站式完成自动标注、模型定制、质量评测。

  目前,该平台支持定制中英文、成人男女、儿童等类别,以及幽默、严肃、甜美、中性等各种情感风格的音色,可以满足客户在在消费电子产品、明星动漫热门IP、数字人客服、有声读物、新闻播报等多个领域的应用需求。

  为帮助企业在智能化转型中,拥有更高的技术自主性,思必驰曾推出DUI标注训练一体化平台,通过平台化的方式开放智能语音算法能力,赋能不同类行业/企业在使用语音服务中,拥有数据标注、模型训练能力,持续提升场景识别效果。目前平台提供语音技术定制化服务,在会议、航空通讯、医疗、城市交通、门店质检等垂直场景里运用。用以提升企业服务、管理效率。

  而经过一年的使用实践,目前平台也迎来了2.0的版本升级。升级后,公有云版正式开放,同时推出便携一体机版本,拥有更强的扩展性,随用随调,使用更便捷。更低的平台使用门槛,减轻研发人员投入。升级后的平台支持公有云、私有云、便携一体机等多种灵活的接入形式,服务均可定制化。

  接下来,思必驰DUI标注训练一体化平台将持续深入语音识别优化链路,持续推动DUI平台从“服务赋能”向“能力赋能”转变,赋予用户更大的自主权。

  针对在全屋智能一体化家居场景或卖场场景下多设备的情况,思必驰新推出“直面唤醒”方案,通过模拟人耳的算法模型可以帮助用户优先唤醒其中某一个设备,避免几个设备同时被唤醒,判断更精准、更符合用户的交互习惯。该方案近期也入选了长三角2021年度人工智能产业“十大科技事件”。

  在综合运用信号处理、回声消除、声源定位等技术,并且配合AI语音专用芯片TH1520及麦克风阵列,思必驰在家居、车载、办公等多领域落地了智能降噪案例,凭借强大的AI性能,提升语音通话质量,为用户带来更纯净的语音交互。

  值得一提的是,疫情之下,声纹识别技术填补了远程身份验证的市场需求,在银行数字化转型里大放异彩。除了作为全新的身份认证“活密码”为金融安全保驾护航,思必驰声纹识别技术更在出行场景中,有了新尝试。

  运用于电动两轮车领域的思必驰声纹解锁方案诞生,让出行更自由。基于固定文本+随机验证码认证,融合文本相关和文本半相关的声纹识别方案,获得了比固定文本更高的声纹识别率,且有效防止被提前录音,具备了更高的安全性。

  经过多年的积累与沉淀,思必驰拥有全链路的智能对话核心技术。强大的技术创新能力,也让思必驰的多项语音技术均获得行业认可。

  在各项荣誉里,今年2-3月,思必驰连续登顶中文医疗权威榜单CBLUE2.0。

  在各类赛事上,思必驰也屡获佳绩。思必驰-上海交大人机交互联合实验室团队(AISP-SJTU,下称:联合实验室)在继去年6月份取得Text-to-SQL任务英文基准榜单Spider第一名后,今年4月又取得Text-to-SQL任务中文千言榜单第一名。就在2022年国际口语机器翻译评测比赛(简称IWSLT)中,联合实验室凭借卓越的技术优势,获得“英-中同声传译”(Speech-to-Text)赛道冠军。值得一提的是,IWSLT是国际上最具影响力的口语机器翻译评测比赛之一,今年设置了同声传译、离线个任务。

  在学术交流中,联合实验室在相关方向的顶级国际会议上已发表多篇论文。例如,针对Text-to-SQL任务中用户问句和数据库模式的联合异构图编码挑战,提出了基于线图增强的LGESQL模型,相关成果发表于ACL 2021主会;针对单轮问答式Text-to-SQL任务不同领域之间,由词表差异引发的领域迁移和泛化问题,提出了ShadowGNN模型,将结构和语义信息解耦,相关成果已发表于NAACL 2021主会等等。

  而在行业标准与测评中,思必驰先后参与国家标准《中文语音合成互联网服务接口规范》与行业标准《中文语音合成服务系统评估规范》的制定,并成为全国首批通过评估测评的公司之一。

  思必驰中文语音识别系统、声纹识别服务、智能对话等多项技术均通过中国信通院认证,获得《语音识别服务能力专项评估证书》《声纹识别服务能力基础评估证书》《智能对话系统等级评估证书》《智能对话产品评估能力证书》。

  此前思必驰在智慧办公产品发布会上表示,将坚持从三大方面做对话式人工智能技术:

  一是全链路语音交互技术,覆盖从信号处理、语音识别、语音合成到语义理解、对话管理等链路,从感知智能走向认知智能;

  二是坚持软硬一体化,配套算法技术方案,协同自研AI芯片,思必驰为大量产品做了软硬件协同优化;

  三是大规模可定制,基于自研的大量迁移学习技术,从对特定场景或设备进行快速定制。

  自成立以来,思必驰已通过“终端+AI”、“行业+AI”方式深度赋能各行业场景,促进诸多应用落地。

  除了在智能家居、智能汽车、消费电子等领域探索,思必驰更在AI+新场景思路下不断尝试,今年在智慧办公领域也带来别样惊喜。

  今年2月,思必驰拓展在智慧办公领域的探索,针对个人用户,推出了灵活便携的智能硬件产品360°降噪会议麦克风音箱,聚焦在远程办公、线上学习的使用场景,目前已上线月,思必驰又发布了智能会议解决方案,赋能政企迈入智慧办公新发展阶段。

  针对政企用户的数智化办公升级,推出智能会议解决方案及智能办公终端产品AIMIC-M12、转写一体机T1,带来通话降噪、收音扩音、实时语音转写等服务。

  无论是针对个人用户的会议麦克风音箱,还是针对政企服务的智能会议解决方案及产品,无不说明着,在车载和家庭两大消费市场排兵布阵后,思必驰对于社会生产生活、政企服务领域的重视和展望。

  据相关数据显示,2020年的智慧办公行业市场规模达548.5亿元,年复合增长率高达14.5%。未来五年,预计中国智慧办公行业将以12.8%的增长率持续增长,并于2023年达到829亿元左右的市场规模。