计算机科学与技术学院举行智汇论坛 (第三十期)活动

时间:2025-07-25作者:齐海洋文章来源:计算机科学与技术学院浏览:10

2025724日,计算机科学与技术学院举行了智汇论坛第三十期活动,活动以线上线下的形式同时进行。本次活动邀请

英国萨里大学计算机科学与电子工程学院信号处理与机器学习教授、外部事务副院长,萨里大学“以人为本人工智能研究所”AI FellowIEEE Open Journal of Signal Processing 高级领域编辑,IEEE Transactions on Multimedia 副主编王文武结合“大型语言模型(LLMs)”内容进行汇报,并与参会师生进行交流,分享研究心得。

大型语言模型(LLMs)近年来在音频处理领域展现出巨大的潜力,能够从复杂的声音数据中提取并生成有意义的模式,包括语音、音乐、环境噪声、音效及其他非语言音频。结合声学模型,LLMs为解决多种音频处理问题提供了新的思路和方法,例如音频描述生成、音频合成、声音源分离以及音频编码等。本报告聚焦于利用LLMs应对音频相关挑战的最新研究进展,涵盖语言-音频模型在音频与文本数据映射和对齐中的作用、其在各类音频任务中的应用、语言-音频数据集的构建,以及未来语言-音频学习的发展方向。同时,本报告介绍在该领域的最新研究成果,包括用于音频生成与故事创作的AudioLDMAudioLDM2WavJourney,用于声音源分离的AudioSep,用于音频描述生成的ACTUAL,用于音频编码的SemantiCodec,用于内容创作和编辑的WavCraft,以及面向音频推理的APT-LLMs。同时,报告还分享了支持大型语言-音频模型训练与评估的数据集,如WavCapsSound-VECapsAudioSetCaps

主讲人简介:

王文武(Wenwu Wang),英国萨里大学计算机科学与电子工程学院信号处理与机器学习教授、外部事务副院长,兼任萨里大学“以人为本人工智能研究所”AI Fellow。研究兴趣涵盖信号处理、机器学习与感知、人工智能、机器听觉(机器聆听)以及统计异常检测等领域。已在相关领域发表论文400余篇,获得2022IEEE信号处理学会青年作者最佳论文奖(Young Author Best Paper Award)、ICAUS 2021最佳论文奖、DCASE 20202023评审奖(Judge’s Award)、DCASE 20192020可复现系统奖(Reproducible System Award)、以及LVA/ICA 2018最佳学生论文奖等。现任IEEE Open Journal of Signal Processing高级领域编辑和IEEE Transactions on Multimedia副主编。曾担任IEEE Transactions on Signal Processing高级领域编辑及副主编,以及IEEE/ACM Transactions on Audio, Speech and Language Processing副主编。还曾担任IEEE信号处理学会机器学习与信号处理技术委员会(MLSP TC)主席、IEEE SPS技术方向委员会(Technical Directions Board)委员,现为EURASIP声学、语音与音乐信号处理技术委员会(TAC)主席、IEEE SPS信号处理理论与方法技术委员会(SPTM TC)委员。此外,组织多次重要国际学术会议,曾担任INTERSPEECH 2022IEEE ICASSP 20192024IEEE MLSP 20132024IEEE SSP 2009等重要会议的组委成员,并将担任IEEE MLSP 2025技术程序联合主席(Technical Program Co-Chair)。曾在20余次国际会议和研讨会上受邀作大会特邀报告或主旨演讲。