学院动态 - 计算机与信息技术学院（大数据学院）

学院动态: 新闻中心; 通知公告; 教学动态; 科研动态; 图片新闻

当前位置: 首页 » 学院动态 » 新闻中心

我院成功承办YEF2024专题论坛“强化学习：解锁决策大模型新纪元的智慧之钥”

时间：2024-05-20 作者：

2024年5月16日，中国计算机学会（CCF）于2024年青年精英大会（YEF）举办了“强化学习：解锁决策大模型新纪元的智慧之钥”专题论坛。此次论坛由山西大学计算机与信息技术学院与CCF青年计算机科技论坛（YOCSEF）太原分论坛联合承办，我院魏巍教授和天津大学郝建业副教授共同担任执行主席。本次论坛邀请到国防科技大学徐昕教授、南京大学俞扬教授、同济大学王昊奋研究员、中国科学院自动化研究所张俊格研究员以及北京大学彭佩玺助理教授五位强化学习、大模型研究领域的知名专家，共同探讨强化学习与大模型的未来。

在特邀报告环节上，徐昕教授以“机器人系统的高效强化学习研究进展”为题，从强化学习样本效率问题出发，结合机械臂控制和无人车规划等示例，生动形象地阐述了其课题组在特征正则化、基于模型的强化学习以及迁移学习等领域的相关最新工作，并从特征学习理论、鲁棒学习控制、安全强化学习以及参数敏感性研究等方面对强化学习未来发展进行前瞻性展望。

图1 国防科技大学徐昕教授作特邀报告

图2 魏巍为徐昕教授颁发感谢牌

俞扬教授以“大模型与强化学习融通演进的一些进展”为题，从强化学习助力大语言模型以及大语言模型赋能强化学习两个角度出发，分别介绍了其团队在大模型对齐以及世界模型研究上的相关研究进展，并在最后对未来强化学习以及大模型的结合进行了展望。

图3 南京大学俞扬教授作特邀报告

图4 郝建业为俞扬教授颁发感谢牌

王昊奋研究员以“知识增强大模型：垂域落地的最后一公里”为题，介绍了大模型、知识问答以及推荐系统领域的相关挑战，同时从工业落地的角度系统阐述了如何推动知识增强型大模型在专业垂直领域的应用，通过多个生动形象的例子阐述了大模型如何能做好落地的“最后一公里”。

图5 同济大学王昊奋研究员作特邀报告

图6 魏巍为王昊奋研究员颁发感谢牌

张俊格研究员以“面向智能决策的强化学习与大模型智能体研究”为题，从强化学习微调大语言模型、大语言模型辅助下的强化学习以及大语言模型决策模型三个方面对基于强化学习与大模型的智能决策进行介绍，并在报告最后深入探讨了强化学习与大模型在面向智能决策任务中的协同演进关系与趋势。

图7 中国科学院自动化研究所张俊格研究员作特邀报告

图8 郝建业为张俊格研究员颁发感谢牌

彭佩玺助理教授以“开放环境智能博弈及大模型思考”为题，针对现实博弈任务存在的参与单位不固定、决策时机不明确、对手策略难预知等挑战，分享了其团队在多人博弈、去中心化学习以及大规模机器学习等领域上取得的最新研究成果。在报告最后探讨了大模型在智能博弈问题上的如交通流控制以及无人驾驶领域的潜在应用。

图9 北京大学彭佩玺助理教授作特邀报告

图10 魏巍为彭佩玺助理教授颁发感谢牌

在PANEL环节。与会嘉宾围绕“垂域大模型的涌现？”，“如何看待未来强化学习在通往决策大模型道路上的角色和作用？”，“未来在决策领域应该重点关注和突破哪些技术方向？”，“梯度流和prompt流之间的关系”等议题进行了热烈的讨论，分享了精彩观点和独到见解。

图11：与会嘉宾思辨讨论

经过这次深入的论坛探讨，与会者们对强化学习及其在大模型领域中的未来潜力有了更深入的理解。同时，他们也更加明晰了如何基于强化学习构建决策大模型，并引领其走向更广阔的发展道路。最终，论坛在热烈的交流氛围中圆满落幕，留下的是对未来技术革新的期待与憧憬。

图12与会人员合影