回到顶部

RTC Dev Meetup丨语音处理在实时互动领域的技术实践和应用(第二场)

2022年5月14日 14:00 ~ 2022年5月14日 16:30
线上活动 (活动行Live)

收起

活动票种
    付费活动,请选择票种
    展开活动详情

    活动内容收起

    实时互动作为下一代技术基础能力,正在渗透各行各业。尤其是受疫情的影响,人们越来越习惯在线、远程的工作、学习甚至生活。同时社交直播、游戏电竞、金融、保险、医疗等场景也被搬到了线上,实时互动正在支撑着这些人、物及空间之间创新的沟通和交互方式。

    在实时互动场景中,语音处理是非常重要的一个部分,比如实时语音识别和实时语音翻译,可以将连续的音频流实时转换成文本,并进行实时翻译,应用在直播实时字幕、会议实时记录等场景,可以大大提高用户体验和沟通效率。

    本次,我们邀请了语音处理方面的技术专家,为大家分享语音处理在实时互动领域的最佳技术实践和业务应用。本次,我们邀请了来自百度、讯飞、依图、微  软、声网、数美等企业的语音处理方面的技术专家,分别在4月28日、5月14日为大家分享语音处理在实时互动领域的最佳技术实践和业务应用,欢迎大家报名参与~~


    时间地点

    活动时间:5月 14 日(星期六) 14:00——16:30

    活动地点:线上直播

        

    活动流程

      14:00-14:10   开场

      14:10-14:50  《FastCorrect:语音识别快速纠错模型》谭旭,微软亚洲研究院究员

      14:50-15:30 《Any to Any实时变声的实现与落地》冯建元,声网音频体验算法专家

      15:30-16:10 《如何解决 Iterative 半监督训练在ASR训练中难以落地李田,数美科技NLP技术负责人

      16:10-16:30   抽奖

     

    嘉宾一

    4.jpg

    谭旭,微软亚洲研究院主管研究员


    分享主题

    FastCorrect:语音识别快速纠错模型


    个人简介:

    微软亚洲研究院主管研究员,研究领域包括深度学习、自然语言/语音/音乐、AI内容生成等,在学术会议上发表论文80余篇。研发的机器翻译系统在WMT机器翻译比赛中获得多项冠军,研发的预训练语言模型MASS、AI音乐项目Muzic受到学界广泛关注。在语音合成和识别方面的研究成果(LRSpeech,FastSpeech 1/2,AdaSpeech,FastCorrect 1/2等)帮助微软Azure语音合成和识别服务提升产品体验。

    内容简介:

    ·    语音识别纠错通过检测并纠正语音识别结果中存在的错误,进一步提升识别准确率。目前,大部分纠错模型采用了基于注意力机制的自回归结构,延迟较高,影响模型线上部署。本次报告介绍一种低延迟、高精度的纠错模型FastCorrect系列,通过利用编辑对齐以及多个候选结果,在取得10%的词错误率下降的同时,将模型加速6-9倍,相关研究论文已被 NeurIPS 2021 和 EMNLP 2021 收录。

     

    嘉宾二

    冯建元.jpg

    冯建元,声网音频体验算法专家


    分享主题

    Any to Any实时变声的实现与落地


    个人简介:

    美国伊利诺伊理工学院博士,伊利诺伊大学芝加哥分校特聘研究员,Agora音频体验算法专家,十年算法研究从业经验。先后主导过多个实时音频领域的开发项目包括国内首个AI音频编解码器Sliver、实时美声音效系统、实时声纹变声、实时空间音频渲染等产品研发。极客时间《搞定音频技术》栏目讲师。目前负责Agora超高音质音频系统的设计与研发。

    内容简介:

    随着ASR、TTS技术的演进, 语音识别的准确性和语音合成的自然度都有了极大的提升。这为高质量的实时变声的实现提供了可能。传统的变声利用包括变调效果器、均衡器等音效模块来调整语音的音色,但这种效果器的方式必须依赖手动调节通用性差、且变声效果不稳定。

    而基于ASR-TTS架构的AI变声算法可以做到“Any to Any”(把任何人变成任何人)的自动变声同时又不会影响语音的可懂度。同时在RTC领域要求变声要有较高的实时性,端到端的延迟必须小于1s,这对模型的算力和部署都提出了挑战。这次分享我们会围绕以下几个方面进行分享和讨论:

    1、 基于传统音效的变声算法的困境

    2、 实时变声算法的设计与思考

    3、实时变声如何落地与应用

     

    嘉宾三

    6.jpg6.jpg

    李田,数美科技NLP技术负责人


    分享主题

    如何解决 Iterative 半监督训练在ASR训练中难以落地


    个人简介:

    埃塞克斯大学大数据及文本分析硕士,现负责数美科技天净业务体系NLP技术落地,曾先后负责金融评分体系、语音产品孵化和优化、端到端音频事件监测,语音转录,文本语义模型,文本翻译, 模型加速等体系的开发和建设。拥有多年人工智能、机器学习、算法领域经验,在处理语音、文本、图像等场景下的实战经验颇丰。

    内容简介:

    1、半监督训练在ASR领域的应用

    2、半监督训练在ASR领域的进展和问题

    3、我们半监督方案解决的问题

    4、Improved NIPL解决方案



    活动福利

    报名直播参与活动,即有机会领取本次精美声网周边,心动不如行动,扫码报名本次活动吧!

    wecom-temp-686a57a8055876a013a57e1255fc13fb.png


    活动社群

    WechatIMG2655.png

    扫码进入👆开发者交流群,会后可以获取PPT等会议资料

    提示:直播需要报名后才可以观看


    活动主办


    图片



    合作伙伴

       WechatIMG2638.png


    举报活动

    活动标签

    最近参与

    • 微信用户
      报名

      (2年前)

    • eason
      报名

      (2年前)

    • 活动行运营小助手
      报名

      (2年前)

    • Jasmine
      报名

      (2年前)

    • 无易
      报名

      (2年前)

    • 微信用户
      报名

      (2年前)

    您还可能感兴趣

    您有任何问题,在这里提问!

    为营造良好网络环境,评价信息将在审核通过后显示,请规范用语。

    全部讨论

    还木有人评论,赶快抢个沙发!

    活动主办方更多

    RTE 开发者社区

    RTE 开发者社区

    RTE 开发者社区是由声网及实时音视频开发者共同发起和运营的中立技术社区。 2015 年,代表实时互动最前沿技术的 RTC 大会从美国开到了中国。我们决定让这种聚会不局限于一年一度的线下大会,因此发布了 RTE 开发者社区。此后一年一度的 RTE 大会成为实时互动开发者的年度盛会,同时 RTC 开发者社区成为实时互动技术领域数万名开发者共同建设的技术社区。 我们的宗旨是:I came,I saw,I fixed。
看见问题,随手回答;看见 bug,随手修复。这是每一个极客的信条。 RTE 开发者社区和大家一起共同成长、交流,和你一起解决技术难题。

    微信扫一扫

    分享此活动到朋友圈

    免费发布