学院动态 - 计算机与信息技术学院（大数据学院）

学院动态: 新闻中心; 通知公告; 教学动态; 科研动态; 图片新闻

当前位置: 首页 » 学院动态 » 科研动态

我院师生2篇论文被CCF A类会议ICML录用

时间：2023-05-03 作者：

4月24日，中国计算机学会（CCF）推荐的A类国际学术会议ICML 2023论文接收结果公布，我院师生2篇论文被录用。国际机器学习大会(International Conference on Machine Learning，简称ICML ) 是由国际机器学习学会（IMLS）举办的全球最负盛名的人工智能会议之一，同时也被中国计算机学会（CCF）推荐为人工智能领域的A类会议，主要发表机器学习领域的前沿研究成果。本届ICML将于今年7月23日至29日在美国夏威夷举办。

第一篇论文：A General Representation Learning Framework with Generalization Performance Guarantees

机器学习旨在从经验数据中学习规律，是人工智能领域重要的研究方向。众所周知，机器学习方法的泛化性能严重依赖于数据的表示。如何获得好的数据表示是机器学习领域一直关注的问题，相关研究被称为表示学习。然而，现有的表示学习方法大多根据经验或领域知识设计，通用性不足。同时，在设计方法时缺乏对泛化误差的考虑。

针对上述问题，该论文提出了一种基于泛化误差的准则用于度量表示学习函数的质量。具体地，将一般性的学习过程分解为表示学习过程和分类学习过程。基于分解结果，学习方法的泛化误差被形式化为表示学习函数的函数。基于VC维理论，推导出泛化误差上界的一种具体形式，即得到一种准则。为了使该准则可计算，将其建模为两个优化问题的比值，见公式（1），并证明了该比值可以有效地逼近原始准则。同时，证明了得到的两个优化问题均为凸优化问题，因此可以保证获得全局最优解，从而准确地计算对应的准则。

（1）

针对公式（1）中优化问题的特性，设计了基于神经网络的优化求解算法。该算法是一种特殊的内点法，因此收敛性和收敛率都有良好的理论保证。同时，该算法可以利用高性能计算硬件GPU进行加速，保证了求解的高效性。实验结果表明提出的准则可以有效地刻画泛化误差、提出的优化求解算法可以快速收敛。

论文将提出的准则用于机器学习领域两类最常用的、可以实现非线性变换的表示学习方法（核方法和深度神经网络方法）中，用于缓解两类方法各自面临的挑战。在核方法应用中，利用提出的准则设计了一个通用的核函数选择方法，实验结果表明所提方法可以从候选核函数集合中准确地选出泛化性能最好的核函数，并且与目前普遍采用的交叉验证方法相比，所提方法的运行结果没有随机性且运行时间更短。在深度神经网络应用中，利用提出的准则设计了一个通用的深度神经网络提升框架（见图1），实验结果表明当用于训练的标记数据较少时，所提框架可以显著地提升多种深度神经网络（包括MLP、CNN、ResNet和ViT）的泛化能。所提框架具有理论保证且通用性强，对于拓展深度学习方法的应用范围具有重要意义。

图1 深度神经网络提升框架

该论文通讯作者为梁吉业教授，第一作者为2018级博士生崔军彪，合作者为梁建青副教授、2020级博士生岳琴。研究工作得到计算智能与中文信息处理教育部重点实验室、科技创新2030-“新一代人工智能”重大项目、国家自然科学基金重点项目、山西省1331工程重点学科建设计划的支持。

第二篇论文：Set-membership Belief State-based Reinforcement Learning for POMDPs

强化学习在许多仿真环境上取得了巨大成功，这些仿真环境通常假设智能体可以获得完美的感知。然而，在如自动驾驶、移动机器人等现实世界的实际任务中，由于智能体传感器设备低质或意外故障等原因通常会使智能体的部分观测数据带有噪声或缺失，这给经典的基于MDPs的强化学习决策方法应用于现实环境带来了挑战。并且，目前主流的基于粒子或基于高斯的部分可观测强化学习方法也只能提供潜在状态的概率估计，可能会使智能体学习效率低下甚至出现决策错误，无法很好地应对挑战。

图2 集员信念强化学习框架图

为此，论文提出了一种集员信念的强化学习算法（简称SBRL,见图2），该算法主要由集员信念状态学习（SBM）模型和强化学习控制器（RL Controller）组成。SBM是所提算法的关键创新点，其基于噪声有界假设对状态转移和观测函数进行模型构建，具体为：

（2）

其中，，。

论文证明了所提出SBM模型可以提供一系列始终包含真实状态的信念状态集，为部分可观测环境下的可靠决策提供了理论保证。大量实验结果表明，所提算法在各种具有挑战性的部分可观测实验场景下，整体性能优于当前最先进的方法。图3展示了所提算法在Safe gym环境下的实验结果。

图3 Safe gym环境下的部分结果

该论文通讯作者为梁吉业教授，第一作者为魏巍教授，合作者2021级博士生张利军、李琳讲师、2021级硕士生宋慧忠。研究工作得到计算智能与中文信息处理教育部重点实验室、科技创新2030-“新一代人工智能”重大项目、国家自然科学基金项目、山西省1331工程重点学科建设计划的支持、山西省自然科学基金项目的支持。