在大规模机器学习问题的求解中,随机优化算法占据着不可替代的地位。大数据在提供海量信息的同时,也暴露了传统计算方法效率低的问题。举例来说,从最初引发深度学习热潮的卷积神经网络,到时下最前沿的对抗神经网络和支撑 AlphaGo 的决策神经网络,都可以被归类为带有非凸目标函数的优化问题。而在海量训练集上求解此类问题都是依赖于 ADAM 和 RMSprop 等随机算法求解器。近些年来,随着大数据带动下统计学习,机器学习和深度学习等人工智能领域的迅猛发展,大规模随机优化算法已经产生了广泛的应用。雷锋网 AI 科技评论在与佐治亚理工学院蓝光辉教授交流的过程中,更深刻地理解了随机优化算法在凸和非凸问题上的研究进展和转化,也感受到蓝光辉教授在随机优化问题上的深刻洞见和前瞻性。
蓝光辉教授为佐治亚理工学院博士、佐治亚理工学院终身教授,他目前还担任计算优化和应用(2014 年至今)、优化算法顶级期刊 Mathematical Programming(数学规划,2016 年至今),SIAM Journal on Optimization(SIAM 优化,2016 年至今)等杂志的副主编,是国际上机器学习和深度学习算法方向的顶级专家。蓝光辉教授的主要研究领域为:随机优化和非线性规划的理论、算法和应用,包括随机梯度下降和加速随机梯度下降,用于解决随机凸和非凸优化问题。
蓝光辉教授早在博士求学期间就专注随机优化算法的攻坚。彼时还是 2007 年,深度学习这个概念还仅限于专业领域学者间的交流。在当时,随机优化算法有一些早期的研究雏形,但仍不实用,没有很好地发展起来。蓝光辉教授在博士阶段的第一个工作中,从理论及计算两方面严格证明了鲁棒性随机优化算法的可行性,并表明这一工作比以前传统的确定算法性能更佳。
回忆起当时博士研究的经历,蓝光辉教授认为,机器学习在当时还没有这么火的原因,主要在于缺乏有效的算法去求解。「以往的算法,需要将数据从头至尾跑一遍,反复多次才能得到一个有效的结果,」蓝光辉教授向雷锋网 AI 科技评论表示,在这种情境下,数据的增加不是如虎添翼的得力助手,而是羁绊研究前行的荆棘;而他提出的这一算法解决了大数据环境下的机器学习问题,并且从理论上证明了海量数据的优势及重要性。
在博士论文的第二个工作中,蓝光辉教授证明了加速随机梯度下降(SGD)(前述 ADAM 等算法的基础)在解决随机优化模型问题中的可行性。随机梯度下降算法在深度学习里普遍被认为是一种非常有效的算法,但当时业界认为加速算法是不能用于求解随机优化模型的,「就像人在奔跑时,加速时步伐迈得很大一样,随机优化问题就相当于行走在一条多变化的道路上,当时认为并不适合这种大步长的算法。」而蓝光辉教授在解决业界这一难题时证明加速算法也能应用于随机优化模型,并达到理想效果。此外,在不同类型的确定性问题中,这一算法也能达到最优化的效果。
不过,蓝光辉教授的这一研究工作在当时只对凸问题收敛。这又催生了他后续在非凸问题的研究。在以前,优化与统计处于井水不犯河水的境地:研究优化的学者专攻算法,而研究统计的学者专注模型;在机器学习逐渐走向流行的时候,研究者将优化与统计结合在一起,综合地解决问题。
机器学习本质上是一种随机优化问题,而神经网络就是一种非凸的随机优化问题。我们可以用更通俗的语言来理解凸问题和非凸问题。如果用登山来形容机器学习的求解过程,凸问题相当于只需要攀登一座山峰的峰顶,比较容易确定全局的最高点。而非凸优化相当于希望能够在一整个包括多座山峰的山脉或山系中找到最高点,即找到全局最优解;但在客观条件限制,无法一座座山峰攀登的情况下(需要快速求解),很大概率下我们只能找到在视野所限内最高的山峰,也就是局部最优值,但不一定是全山脉最高的山峰,即全局最优解。
针对这一问题,蓝光辉教授开始设计随机优化方法解决非凸问题。凭借对非凸问题的探索,蓝光辉教授获得了美国运筹与管理学会青年教师论文奖(INFORMS JFIG Paper Competition)一等奖,并获得国家自然科学基金会杰出新人奖。随后,团队又对加速非凸随机优化算法进行探讨与研究。
对于随机梯度下降和加速随机梯度下降,用于解决随机凸和非凸优化问题的瞩目成果,蓝光辉教授非常谦虚地表示,「我觉得自己比较幸运,因为我所做的工作具有一定前瞻性,但在发表不久能和应用层面结合在一起,并取得较好的效果。」
蓝光辉教授告诉雷锋网 AI 科技评论,作为学术界的研究者,他总会考虑这些问题存在什么样的需求,又有怎样的扩展性。最近,蓝光辉教授正在两大领域进行研究探索。
首先是分布式、无中心化的随机优化算法。以用户信息为例,三家企业各拥有同一用户的不同数据,但限于隐私的敏感性,各家企业的营收数据及相关信息自然不会「拱手相让」。但从另一个角度入手,三家企业反之可以联合起来建立一个更为完善的用户信用模型。「无中心化数据处理的核心在于,企业不分享数据的具体内容,只分享信息。」这一工作据蓝光辉教授的介绍,目前能达到与中心化数据处理同样的效果。
第二个研究是,如何在保证最优效果的前提下,尽量减少彼此传输信息的次数。在无中心化的数据处理状态下,三者间的通讯速度很慢,且成本相对较高。「如何在保证最少化的沟通情况下减少沟通成本?理论上我们可以证明信息传输次数相比起采集数据来说,成本是可以忽略不计的。」
此外,蓝光辉教授指出,优化模型在传统领域上的应用也是不可小觑的存在。车辆调度、航班排期、工作排班,这些传统问题的解决能够显著地看到直接效果,而且也在生活的各个方面影响人们的工作效率。传统应用领域对机器学习的黑箱特性曾经存疑,对运筹学仅凭借公式推算出来的结论持保留态度。但后续,得益于大数据的驱动,系统可以通过机器学习获得更多的参数,将其反映用在传统模型里面的一些决策模型里面,帮助去做出最优化的决策,目前也逐步得到了传统行业的认可与信任。
在理论与实践的转化中,蓝光辉教授坦承,这个鸿沟还需要大量的探索。用建优化模型的方法求解具体某一个机器学习的任务,像做一个分类器判断股票涨还是跌,或是确定哪个方案更好。蓝光辉教授认为,不论是选择线性优化模型,还是二次优化模型,并不是一个非此即彼的选择。可以有多种评价标准,如从算法效率的角度,或是从模型应用是否方便的角度来看,或者从统计性质的角度等来判断。但现在在深度学习领域,这方面的工作仍然较少。「如何从算法或统计的角度去分析具体问题的特点,相关的工作暂时还是比较匮乏;更多地,团队还是会从理论的角度、经验的角度去做判断。」
更重要的一点是,分类问题在现实生活中具备着更多的复杂性。以风险控制为例,银行对用户的借贷申请做出相应的评审和判断,本质上也是综合了多方考量得到的结论,在分类问题上的标准相对于学术界的研究而言比较模糊。蓝光辉教授所做的,还是希望找到更多人工智能可以帮助人类提升效率的结合点,「将人工智能作为一种生产工具,把人类解放出来。」
作为佐治亚理工学院的终身副教授,蓝光辉教授目前保持和国内学术界与工业界的联系。他和斯坦福大学、上海财经大学、明尼苏达大学以及杉数科技科学家团队在从事一个优化与机器学习开源求解器的开发工作。杉数科技是一家中国领先的人工智能决策创业公司,由五位斯坦福教授及博士联合创立,内部推崇科学家文化,服务客户包括顺丰、滴滴、京东、万达、德邦、永辉等行业巨头公司,通过深层次数据优化算法和复杂决策模型的求解能力,聚焦海量数据下的复杂问题,用智能决策重塑成本端,帮助国内企业科学地提高决策水平。蓝光辉教授也和顺丰科技等企业进行科研方面的合作。
面对工业界与学术界的不同角色,蓝光辉教授告诉雷锋网 AI 科技评论,他与杉数科技等的合作主要有两个层面的收获。
首先是理论到实践转变中的成就感。「原本在学术界的研究只是一篇理论性的文章,但在落地的过程中,你会感觉到自己的研究成果可能会变成产品,最后得到更多的应用。」
第二点是从实际出发助力学术研究。在与企业合作的过程中,蓝光辉教授也在找寻随机优化方法在实际应用领域中值得深入探索的方向。这些具体的问题形成反馈,蓝光辉教授也获得了更多的研究启发。
面对目前工业界与学术界的交融和火热,蓝光辉教授也面临全职「下海」的诸多诱惑,但仍然选择呆在学术界做科研。除了对知识传承、教书育人的由衷热爱外,他认为科研最重要的是自己定义研究的方向,这种方向能最大程度上地挖掘自己的潜力。
「技术永远是一种知识积累与创新的体现。」蓝光辉教授期待有更多的学生耐得住寂寞潜心科研,打好扎实的基本功,并在科学的道路上越走越远。