美国研究发现 机器学习无需无数次试

2023-06-22 富美财经 浏览量:

刚开始学走路的孩子可能会因为走得太快而摔倒,或者撞到家具上。 然而,这种因果关系会教会关于如何控制身体,以在空间中移动,从而避免在未来跌倒。机器在很多方面与人类学习的方式相同,包括从错误中学习。然而,对于许多机器来说,比如自动驾驶汽车和电力系统,在工作中学习对人类而言会具有危险性。随着机器学习的成熟和普及,人们越来越有兴趣将其应用于高度复杂、安全关键的自动驾驶系统。然而,这些技术受到培训过程及其他过程中固有的安全风险的阻碍。据外媒报道,美国匹兹堡大学(University of Pittsburgh)斯万森工程学院(Swanson School of Engineering)电气和计算机工程助理教授Juan Andres Bazerque与约翰斯霍普金斯大学(Johns Hopkins University)副教授Enrique Mallada联合研究发现,并非需要无限次的试验才能在不熟悉的环境中学习安全的行为。相关论文已发表于期刊《IEEE Transactions on Automatic Control》,并提出一种全新的方法,可确保完全自信地学习安全操作,同时管理最佳、遇到危险情况和快速识别不安全操作之间的平衡。 图片来源:期刊《IEEE Transactions on Automatic Control》Juan Andres Bazerque解释道:“一般来说,机器学习寻找最优化的解决方案可能会导致更多的错误。错误可能意味着撞到墙上,这非常有问题。但在这项研究中,我们表明学习安全策略与学习最优策略有着根本的不同,并且它可以单独有效地完成。”研究团队在两种不同的场景中进行了研究,以说明新概念。通过对探索做出合理的假设,他们创建了一种算法,可以在有限的回合数内检测到所有不安全的行为。 该团队还解决另一个问题,即为具有几乎确定的约束条件的马尔可夫决策过程(MDP)寻找最优策略。研究分析强调了在检测底层MDP中的不安全操作所需的时间与暴露于不安全事件的级别之间的权衡。MDP非常有效,可为情境中的决策制定建模提供了一个数学框架。在该情境中,结果部分是随机的,部分是在决策者的控制下。为了验证理论发现,研究人员进行了仿真,并证实了确定的权衡。研究发现还表明,纳入安全约束可以加快学习过程。Bazerque表示:“项研究挑战了普遍认为学习安全行为需要无限次试验的想法。 我们的结果表明,通过有效地管理最优性、暴露于不安全事件和检测时间之间的权衡,我们可以在不进行无限次探索的情况下实现有保证的安全性。这对机器人技术、自动驾驶系统和人工智能等具有重要意义。”

为你推荐