强化进修研究标的目的乞助?

刚刚阅读1回复0
kewenda
kewenda
  • 管理员
  • 注册排名1
  • 经验值176610
  • 级别管理员
  • 主题35322
  • 回复0
楼主

RL/MARL都卷得没用。但都离破冰较远,即便许多此根底难题都没较好的化解,譬如sample inefficiency。JURLIQUE一个新坑,联邦政府加强自学Federated RL。参看他们NeurIPS2021的学术论文 https://proceedings.neurips.cc/paper/2021/hash/080acdcce72c06873a773c4311c2e464-Abstract.html

学术论文理论比力多,能先看他们的github领会大致的思惟

https://github.com/flint-xf-fan/Byzantine-Federeated-RL​github.com/flint-xf-fan/Byzantine-Federeated-RL

他们期望透过导入散布式系统(联邦政府)的增设,来远距多个智能体更快更慢地自学一般而言使命,即进步一般而言智能体的sample efficiency。如下表所示图(a)右图。

他们在法兰克福联邦政府商科(ETH)正在停止的科学研究新标的目的

散布式系统的增设增添许多捷伊难题和考验。好比智能体可信性的难题。他们那篇学术论文也切磋和供给更多了一种对于奥斯曼智能体难题的路子。如图(b)右图,联邦政府自学的根本要求是不数据传输(即RL trajectory),那种增设对智能体可信性增添考验。他们能不克不及包管参与联邦政府加强自学Federated RL的智能体的sample efficiency必然能获得进步?该进步能否与系统总智能体数成正相关?当智能体中呈现不成信的奥斯曼智能体时,sample efficiency又会如何变革?

除此之外还有许多值得称赞科学研究切磋的难题。他们期望透过科学研究Federated RL能鞭策 RL的破冰,即使生活中许多RL难题都同时faced by多个智能体。

别的,他们的工做也供给更多了许多关于policy gradient estimator的改进上的许多路子。他们接纳了SCSG (stochastically controlled stochastic gradient) [1] 的强化演算法来估量policy gradient。大致路子是留存之前的势能,来远距当前的势能估量,从而实现对估量的尺度差的控造。他们认为

除了下面JURLIQUE的Federated RL外,也能考虑连系你的专精大布景来做些有趣的工具。好比EE大布景的,能思索一下电子学,EPC等应用范畴有什么头疼的现代难题能从RL的视角去化解。应该有都很多人在那么做。好听一点儿的讲法,叫科学研究课题。固然也离破冰较远,但对那些应用范畴的现代难题而言,供给更多了化解难题许多捷伊路子,所以仍是很有用的research~

科学研究课题的下限(准入门槛)较低。简单霸道一点儿就是C=A+B。但科学研究课题的下限能极高。即使如今各人狂热搞AI,已经没几人会吕圣索自学现代学科专精的科学常识了。

[1] Lei, L., Ju, C., Chen, J., & Jordan, M. I. (2017). Non-convex finite-sum optimization via scsg methods.Advances in Neural Information Processing Systems,30.

0
回帖 返回旅游

强化进修研究标的目的乞助? 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息