互联网 qkzz.net
全刊杂志网:首页 > 女性 > 文章正文
刊社推荐

基于预测状态表示的Q学习算法


□ 刘云龙 李人厚 刘建书

  摘要:针对不确定环境的规划问题,提出了基于预测状态表示的Q学习算法,将预测状态表示方法与Q学习算法结合,用预测状态表示的预测向量作为Q学习算法的状态表示,使得到的状态具有马尔可夫特性,满足强化学习任务的要求,进而用Q学习算法学习智能体的最优策略,可解决不确定环境下的规划问题,仿真结果表明,在发现智能体的最优近似策略时,算法需要的学习周期数与假定环境状态已知情况下需要的学习周期数大致相同。
  关键词:不确定环境规划;预测状态表示;Q学习算法;奶酪迷宫
  中图分类号:TP181 文献标识码:A 文章编号:0253-987X(2008)12-1472-04

 未安装PDF浏览器用户请先下载安装
原版页码:1472,1473,1474,1475,1485原版全文......
很抱歉,暂无全文,若需要阅读全文或喜欢本刊物请联系《西安交通大学学报》杂志社购买。
欢迎作者提供全文,请点击编辑
分享:
 

了解更多资讯,请关注“木兰百花园”
分享:
 
精彩图文


关键字
支持中国杂志产业发展,请购买、订阅纸质杂志,欢迎杂志社提供过刊、样刊及电子版。
关于我们 | 网站声明 | 刊社管理 | 网站地图 | 联系方式 | 中图分类法 | RSS 2.0订阅 | IP查询
全刊杂志赏析网 2017