计算机科学与技术学院举行智汇论坛（第三十期）活动

时间：2025-07-25作者：齐海洋文章来源：计算机科学与技术学院浏览：10

2025年7月24日，计算机科学与技术学院举行了智汇论坛第三十期活动，活动以线上线下的形式同时进行。本次活动邀请

英国萨里大学计算机科学与电子工程学院信号处理与机器学习教授、外部事务副院长，萨里大学“以人为本人工智能研究所”AI Fellow，IEEE Open Journal of Signal Processing 高级领域编辑，IEEE Transactions on Multimedia 副主编王文武结合“大型语言模型（LLMs）”内容进行汇报，并与参会师生进行交流，分享研究心得。

大型语言模型（LLMs）近年来在音频处理领域展现出巨大的潜力，能够从复杂的声音数据中提取并生成有意义的模式，包括语音、音乐、环境噪声、音效及其他非语言音频。结合声学模型，LLMs为解决多种音频处理问题提供了新的思路和方法，例如音频描述生成、音频合成、声音源分离以及音频编码等。本报告聚焦于利用LLMs应对音频相关挑战的最新研究进展，涵盖语言-音频模型在音频与文本数据映射和对齐中的作用、其在各类音频任务中的应用、语言-音频数据集的构建，以及未来语言-音频学习的发展方向。同时，本报告介绍在该领域的最新研究成果，包括用于音频生成与故事创作的AudioLDM、AudioLDM2和 WavJourney，用于声音源分离的AudioSep，用于音频描述生成的ACTUAL，用于音频编码的SemantiCodec，用于内容创作和编辑的WavCraft，以及面向音频推理的APT-LLMs。同时，报告还分享了支持大型语言-音频模型训练与评估的数据集，如WavCaps、Sound-VECaps和AudioSetCaps。

主讲人简介：

王文武（Wenwu Wang），英国萨里大学计算机科学与电子工程学院信号处理与机器学习教授、外部事务副院长，兼任萨里大学“以人为本人工智能研究所”AI Fellow。研究兴趣涵盖信号处理、机器学习与感知、人工智能、机器听觉（机器聆听）以及统计异常检测等领域。已在相关领域发表论文400余篇，获得2022年IEEE信号处理学会青年作者最佳论文奖（Young Author Best Paper Award）、ICAUS 2021最佳论文奖、DCASE 2020和2023评审奖（Judge’s Award）、DCASE 2019和2020可复现系统奖（Reproducible System Award）、以及LVA/ICA 2018最佳学生论文奖等。现任IEEE Open Journal of Signal Processing高级领域编辑和IEEE Transactions on Multimedia副主编。曾担任IEEE Transactions on Signal Processing高级领域编辑及副主编，以及IEEE/ACM Transactions on Audio, Speech and Language Processing副主编。还曾担任IEEE信号处理学会机器学习与信号处理技术委员会（MLSP TC）主席、IEEE SPS技术方向委员会（Technical Directions Board）委员，现为EURASIP声学、语音与音乐信号处理技术委员会（TAC）主席、IEEE SPS信号处理理论与方法技术委员会（SPTM TC）委员。此外，组织多次重要国际学术会议，曾担任INTERSPEECH 2022、IEEE ICASSP 2019与2024、IEEE MLSP 2013与2024、IEEE SSP 2009等重要会议的组委成员，并将担任IEEE MLSP 2025技术程序联合主席（Technical Program Co-Chair）。曾在20余次国际会议和研讨会上受邀作大会特邀报告或主旨演讲。

计算机科学与技术学院举行智汇论坛 （第三十期）活动

计算机科学与技术学院举行智汇论坛（第三十期）活动