中文版 | English
题名

用于分布式计算集群调度的深度强化学习模型训练方法、装置及调度方法

发明人
第一发明人
李清
申请人
鹏城实验室 ; 清华大学深圳国际研究生院 ; 南方科技大学
第一申请人
鹏城实验室
第一申请人地址
518000 广东省深圳市南山区兴科一街2号
当前申请人
鹏城实验室 ; 清华大学深圳国际研究生院 ; 南方科技大学
当前申请人地址
518000 广东省深圳市南山区兴科一街2号 (广东,深圳,南山区)
当前第一申请人
鹏城实验室
当前第一申请人地址
518000 广东省深圳市南山区兴科一街2号 (广东,深圳,南山区)
申请号
CN202110387715.7
申请日期
2021-04-12
公开(公告)号
CN113033806B
公开日期
2023-07-18
授权日期
2023-07-18
专利状态
授权
法律状态日期
2023-07-18
专利类型
授权发明
学校署名
其他
摘要
本申请公开了一种用于分布式计算集群的深度强化学习模型训练方法、装置以及调度方法,所述方法包括采用深度强化学习框架建立若干第一调度模型和第二调度模型;通过若干第一调度模型确定训练样本集;基于训练样本集训练第二调度模型以得到模型参数;基于模型参数更新各第一调度模型中的第一深度强化学习智能体的模型参数,并继续执行通过若干第一调度模型确定训练样本集的步骤,直至第二调度模型满足预设条件以得到深度强化学习模型。本申请通过解耦深度强化学习训练的前向行动和后向学习过程,通过多个独立且同时与环境交互的第一调度模型生成训练样本集,再基于训练样本对第二调度模型进行训练,这样实现了大规模并行训练,提高了深度强化学习模型的训练速度,实现了分布式计算集群的高效利用。
其他摘要
本申请公开了一种用于分布式计算集群的深度强化学习模型训练方法、装置以及调度方法,所述方法包括采用深度强化学习框架建立若干第一调度模型和第二调度模型;通过若干第一调度模型确定训练样本集;基于训练样本集训练第二调度模型以得到模型参数;基于模型参数更新各第一调度模型中的第一深度强化学习智能体的模型参数,并继续执行通过若干第一调度模型确定训练样本集的步骤,直至第二调度模型满足预设条件以得到深度强化学习模型。本申请通过解耦深度强化学习训练的前向行动和后向学习过程,通过多个独立且同时与环境交互的第一调度模型生成训练样本集,再基于训练样本对第二调度模型进行训练,这样实现了大规模并行训练,提高了深度强化学习模型的训练速度,实现了分布式计算集群的高效利用。
CPC分类号
G06N3/08 ; Y02D10/00
IPC 分类号
G06N3/092
INPADOC 法律状态
(+PATENT GRANT)[2023-07-18][CN]
INPADOC 同族专利数量
1
扩展同族专利数量
1
优先权日
2021-04-12
专利代理人
温宏梅
代理机构
深圳市君胜知识产权代理事务所(普通合伙)
相关链接[来源记录]
来源库
PatSnap
成果类型专利
条目标识符http://sustech.caswiz.com/handle/2SGJ60CL/563335
专题未来网络研究院
推荐引用方式
GB/T 7714
李清,郭嘉伟,江勇,等. 用于分布式计算集群调度的深度强化学习模型训练方法、装置及调度方法[P]. 2023-07-18.
条目包含的文件
条目无相关文件。
个性服务
原文链接
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
导出为Excel格式
导出为Csv格式
Altmetrics Score
谷歌学术
谷歌学术中相似的文章
[李清]的文章
[郭嘉伟]的文章
[江勇]的文章
百度学术
百度学术中相似的文章
[李清]的文章
[郭嘉伟]的文章
[江勇]的文章
必应学术
必应学术中相似的文章
[李清]的文章
[郭嘉伟]的文章
[江勇]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
[发表评论/异议/意见]
暂无评论

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。