当前位置:首页 > 范文 > 动手学强化学习读后感摘抄

动手学强化学习读后感摘抄

格式:DOC 上传日期:2024-05-27 06:20:53
动手学强化学习读后感摘抄
时间:2024-05-27 06:20:53   小编:

《动手学强化学习》读后感:本书通过结合理论和实践,详细介绍了强化学习的基本概念、算法和应用。作者以清晰的逻辑和生动的案例,让读者深入了解强化学习的原理和技术,并通过实际编程实践加深了对强化学习的理解。这本书不仅适合初学者入门,也对已有基础的读者提供了更深层次的学习和应用指导。

《动手学强化学习》读后感(篇一)

看了部分章节的书籍,来说下评价。评价内容仅供参考。本书看着名字有点像动手学深度学习,但其实是本强化学习。两个是机器学习的不同的方向,但他们都有点相似点。本书是从基础概念出发,都是为让学习者入门,学习强化学习。本书在在学习的时候,需要一些微积分,概率论以及线性代数的知识。同时,还需要学会python。 然后再来说说本书的大概内容。本书分为三个部分,分别为基础,进阶,前沿。书中都是从基本概念出发,从多臂老虎机问题为例,从小处入手,用代码抽象构造模型,然后一步步用算法解决这个问题。可以说对于一些想要了解强化学习的人,是非常好的,能够更好地了解强化学习。对于一些较难理解的地方,书中还会配备相应的视频来进行讲解,帮助更好地理解强化学习。 总得来说,如果你想学习强化学习,这本书是个不错的选择。

《动手学强化学习》读后感(篇二)

这本书是上海交通大学老师开设ACM班强化学习课程中总结的经验,强化学习是机器学习的下一个新兴领域,但理解起来难度较大,对数学要求高,不易于将代码和理论结合得很好。这本书每个章节均用Notebook写作而成,存放在在Github仓库上,便于查看和运行。

这本书通过理论和代码详细阐述了何为强化学习,即监督体和环境交互过程中的学习。书中先从一个比较有趣的多臂老虎机问题进行引入,然后介绍了马尔可夫过程和动态规划算法。其中一些比较经典的具有实际参考意义的算法,比如DQN算法、策略梯度算法、TPRO算法。算法使用伪代码描述后,同时也用Python实现了一遍,可以通过阅读加深印象或者跟着动手敲一遍来实现。介绍完算法后同时给出了引用的参考文献,可以查阅参考文献继续深入思考。

《动手学强化学习》读后感(篇三)

有幸拜读俞勇老师联合编写的《动手学强化学习》这本书的样章,虽然只是粗读了样章的前三章,但根据所读内容和目录对全书有了一个大概的认识。正如书中所介绍 本书理论与实践并重,在介绍强化学习理论的同时,辅之以线上代码实践平台,帮助读者通过实践加深对理论的理解。 所以可以定位这本书就是强化学习相关知识的入门和实践书籍,当然由于强化学习理解起来要比机器学习和深度学习难度要大,最好读者有一些机器学习的基础。从样张来看书中采用了大量的漫画形式的插图,趣味性很强,而且通俗易懂,使读者不感乏味,提高读者兴趣。书中的配套资源也是丰富的,本书提供的代码都是基于 Python 3 编写的,本书中的代码在涉及自动求导时皆使用 PyTorch 框架实现 ,每一章都由一个 Python Notebook 组成 ,同时本书录制了在线视频 ,多样的学习的方式,加强了学习效果。

《动手学强化学习》读后感(篇四)

本书的作者张伟楠曾获得吴文俊人工智能优秀青年奖,对机器学习、强化学习颇有研究。看到张伟楠出版此书,我不禁的非常期待尽快能够拿到这本书并学习。

通过对前两章的试读,第一章讲解了什么是强化学习?强化学习的环境与目标,强化学习中的数据和强化学习的独特性。第二章介绍了多臂老虎机问题,问题介绍、探索与利用的平衡、贪婪算法、上置信界算法和汤普森算法。

对于我这个小白来说,本身深度学习还没搞明白的情况下,学习强化学习有些难度,但是作者通过知识讲解+图形化展示+代码编程的形式讲解强化学习,使得我对强化学习产生了浓厚的学习兴趣,说到这里,我非常期待能够尽快看完这本书,并通过书上的例子自己完成实现。

最后感谢人邮出版社和异步社区的大力支持,我才能够读到这么多好的书籍,感谢你们的无私付出。

《动手学强化学习》读后感(篇五)

在这个电子信息飞速发展的时代,电子书似乎成了一种主流,方便而且资源无限丰富,但是对我来说,纸质书永远是一种追求。他让我真实 的感受到了知识的厚度。 强化学习这是需要有一定基础的,至少,你得会Python吧,如果你还不了解,建议出门左转,先把python学完再来。当然,如果你还会pytorrch的话,那样会让你看这本书更加清爽。 这本书是我目前接触强化学习中读的最舒服的一本书,他并不是简单的堆叠概念,而是通过漫画和打趣的方式让你轻松愉快的接受,先产生模糊的印象,然后一步步加深,深入浅出,无形之中接受那个理念。

本书中附带的演示代码都可以直接运行,如果可以的话,还是期望你们跟着敲一下,虽然技术不是用代码量衡量的,但是跟着弄出来成就感还是满满的,而且加深了理解。

最后,如果你希望学习或了解强化学习,这本书不可错过。

《动手学强化学习》读后感(篇六)

看了异步社区发的样章,强化学习确实需要一个动手教程,因为强化学习的原理算法,比机器学习和深度学习更复杂,而这本书以jupyter notebook代码,实操了原理,而且本书还有在线录制视频,对书中看不懂的问题,看视频讲解会更加方便大家理解。

1.3有的句子读起来好啰嗦,1.6,有点拗口,写得有点模糊,不够清晰理解。目标和目标函数,为什么不能写得更易懂点,这显然不能当教材用的,而且就是自学也是让人一知半解。写得真是好啰嗦,字不如表,表不如图,明明两个图就可以解决的问题,写了6页。

第二章讲的三种算法还是挺易懂的,还配有jupyter notebook代码,这种形式还是非常棒的,而且还用matplotlib可视化了各种算法的效果,清晰明了。不过多臂老虎机问题的概率问题讲的有点绕,不清晰。

《动手学强化学习》读后感(篇七)

在读了前面部分的样章后,我感觉“动手学”系列的又一本力作要来了,书中的内容有漫画插图,有代码及其注解,有详细推导的公式,让读者不会被全篇的严谨话术吓退,而且代码的注释及其详细,虽然我目前还未接触到强化学习,但读了前面部分之后,感觉自己被强化学习这一方向吸引了,虽然公然强化学习较难,涉及的公式推导较复杂,但我相信只要动手学了,一切都会慢慢上手, 张伟楠老师的文笔简洁但不失严谨,这样既可以把一个概念讲得通俗易懂,也做到了避免舍本逐末,将知识本身和读者理解做到了平衡。

书中的代码都有对应的jupyter notebook资源,采用的是pytorch框架,适合本科刚入门的小白,现在刚入门的学生选的第一个框架应该都是pytorch,虽然众口难调,但即使不熟悉pytorch,理解书中的原理、顺便对其他框架有所了解也是好的。

希望其他读者们能将动手学贯彻到底,纸上得来终觉浅。

《动手学强化学习》读后感(篇八)

这是一本兼顾理论基础与前沿技术的强化学习入门书,指明了强化学习的入门及进阶路径 。

这本书的章节编排非常符合自学的需求:首先用图、文、公式结合的方式介绍算法的主要功能和适用场景,语言精练不啰嗦,对于一些难度较大的概念,还会适当举例以帮助读者理解;然后以伪代码块的形式总结算法的核心步骤;接着给出代码实现过程,关键代码处配有注释解读;最后展示算法的运行效果并对算法优缺点、改进方向加以分析,为硕士、博士等学生群体研究并改进算法提供了非常有借鉴价值的思路。

这本书的配套自学资源也非常丰富:扫描书中的二维码就可以跳转到配套网站中观看视频课程;可以在GitHub中找到最新的源代码,源代码使用Python 3和流行的PyTorch框架实现,无须配置环境,在和鲸平台上可以在线运行;读者在学习过程中有什么疑问的话,可以在网站评论区直接与作者交流。

这本书还提供了配套的课件,非常适合作为学校的教科书,减轻了老师们备课的负担,也满足了理论授课和上机实验两方面的教学需求。

《动手学强化学习》读后感(篇九)

这本书是我目前读过的比较好的有关强化学习的图书,图书采用了大量的漫画形式的插图,通俗异动,同时,图书采用大量严谨性的语言,保证了在通俗易懂的基础上,确保概念的严谨性。实现序贯决策的机器学习方法便是强化学习,在此书中讲解的非常明确。广泛地讲,强化学习是机器通过与环境交互来实现目标的一种计算方法。图书通过大量举例来介绍这一方法,例如,将智能体的整体回报比作一场游戏最后的分值,提高了文本的可读性以及易理解的特性。

图书使用的大量插画,可以较好的吸引读者,容易使读者产生阅读兴趣,避免了某些图书,虽然严谨科学,但是容易“劝退”的效果。这极大的提高了全民学习的积极性,提高了入门人员的接受欲望。

这本书的配套资源也完善,扫描书中的二维码就观看视频课程;还可以获得最新的源代码,供读者学习使用。

随着人工智能技术的日渐发展,人工智能完成的任务也越来越多样化,全民学习的热潮也逐渐涌现,像这样一本,适合大都数读者阅读的好书,值得推荐。

《动手学强化学习》读后感(篇十)

随着人工智能技术的日渐普及,人们对人工智能的期待越来越高,希望人工智能完成的任务也越来越多样化。在过去十多年的发展中,基于机器学习的智能检测和智能预测类的人工智能技术快速发展。例如,在门禁系统中应用的人脸活体检测、在个性化信息流推荐中应用的用 户兴趣预测已成为人们日常生活中不可或缺的技术。如今,在这些成熟的人工智能技术基础上, 服务于决策智能的技术变得越来越重要,这背后对应机器学习领域下的一个分支—强化学习。

目前强化学习技术已经在机器人控制、游戏智能、智慧城市、推荐系统、能源优化等领域得到广泛应用,发展前景广阔,业界对强化学习人才的需求量也与日俱增。但是,强化学习的普及教育较为滞后,不少高校仍未开设强化学习课程,学生迫切需要一条系统学习强化学习技术的专业路径。

本书的作者之一俞勇教授在上海交通大学致远学院、电子信息与电气工程学院为大三本科生开设了强化学习课程。目前这两个学院的强化学习课程在学生的培养方案中皆占 2 学分,包含授课和实验学时。在授课和批改学生的课程作业的过程中,我们发现强化学习对学生和老师来说都是一个难度较大的科目。对于学生,强化学习的理论属于机器学习大科目中的进阶内容, 涉及的数学内容比一般的有监督学习更加复杂,并且真正理解这些内容离不开第一手的编程和调试经验。例如,在Q-learning 算法中,如果直接学习函数 Q 的更新公式,很难看出它可能会出现过高价值估计的问题,更难以理解为何这种过高价值估计在深度强化学习任务下总是导致学习失败。只有通过实验对比,学生才能真切体会双 Q 函数给这种过高价值估计带来的减缓效益。对于老师,要做好强化学习的教学工作,将强化学习的理论原理和实践经验在 2 学分的课程中讲透,实属不易。部分学生反映强化学习的理论难度大、授课节奏快;部分学生反馈理论授课内容和课程作业的差距太大,无法轻松衔接。总体来说,要想扎实掌握强化学习技术,离不开动手实践,而市面上目前尚未见到集强化学习原理和动手实践于一体的权威图书。

在 2021 年春季上海交通大学致远学院 ACM 班的强化学习课程中,我们尝试以在线 Python Notebook 的形式为学生提供课程辅助材料和代码小作业。对于一个强化学习主题单元,我们将原理讲解部分(包括配图和公式)与对应的代码实践部分耦合,使学生在学习完一个原理知识点后能立即以代码实践的形式学习其实现方式。更重要的是,这样的代码块可以直接在线运行和修改,也就是说学生可以在一个 Notebook 里完成对一个强化学习主题单元的原理学习和代码实践。从学生的反馈来看,这样的学习方式能帮助他们更好地将理论知识点和实践能力点对应,也能帮助老师更高效地授课、布置和批改作业。随后,在 2021 年秋季电子信息与电气工程学院AI 专业的强化学习课程中,我们通过在线平台向学生完全公开了学习材料,并以“动手学强化学习”作为主要的课后学习形式,这种形式获得了学生更加积极的反馈。

基于在强化学习研究和教学中的浅薄经验,我们写作了这本《动手学强化学习》,旨在探索一种更好的强化学习教学方式,为我国强化学习的人才培养贡献一份力量。

《动手学强化学习》读后感(篇十一)

自从 AlphaGo 横空出世以来,强化学习这一领域以其优美的数学模型,在各种任务上卓越的表现,以及潜在的广阔发展前景,吸引了越来越多的关注。正如 DeepMind 在其 2021 年的一篇论文Reward is Enough中指出的一样:“强化学习,可能是众多机器学习算法中最有可能实现通用人工智能的方法。”近年来强化学习的表现也越来越让人惊叹,2019年,在星际争霸游戏上,由 DeepMind 开发的 AlphaStar 已经超越了人类顶级玩家的水平。2022 年 2 月,DeepMind 使用 AI 控制托卡马克装置控制等离子体的成果再度登上Nature封面,在可控核聚变领域引发重大反响。这样影响深远的成果也不断吸引着越来越多的科研人员投入强化学习的研究之中。

然而,对初学者而言,由于强化学习基于随机过程中的马尔可夫决策理论,具有浓厚的数学背景,因此现有的强化学习书籍以及网络课程大多将重点放在强化学习背后的理论基础,而忽视了其具体的代码实践。正是由于这个原因,初学者在学习强化学习的过程中,往往会面临理论信手拈来,一到实践就开始一筹莫展的尴尬局面。

在计算机这一极具工程性的领域中,无论多精妙的理论最终都要以代码的形式来落地,毕竟,只懂理论可开发不出 AlphaGo。如何将理论转化为一个真正运行着的智能体,是每一个强化学习的初学者都面临的难题。正如黑格尔所言:“想要学会游泳,必须勇敢地跳入激流。”只有真正动手实践,才能真正学会强化学习。在我看来,《动手学强化学习》这本书,就在一定程度上很好地填补了理论与实践之间的鸿沟。

相较于市面上的其他教材,《动手学强化学习》这本书最大的特点就是理论与实践并重。这一点可以说是刻在这本书的基因中的。在前言中,作者提到,本书来自作者在上海交通大学 ACM 班的强化学习课程中所尝试的新的教学方式:将理论的讲解与对应的代码实践相耦合,使得学生在学习完一个原理知识点后能够立即以代码实践的形式学习其实践方式,这样的教学方式得到了同学们的积极反馈。

本书就是基于这门课的授课材料所写就的。这门课的设计理念同样也在这本书中被传承了下来:在讲解理论的同时,每一个算法都会给出具体的实践代码,每段代码都具有非常详尽的注释。这种材料的组织方式不仅对初学者十分友好,同样很适合经验丰富的强化学习研究人员——可以作为案头常备的强化学习基础代码库,方便随时查阅。

对初学者来说,示例代码优秀的代码质量和良好的代码结构至关重要。说到这,就不得不提到本书的作者俞勇教授了。自从2002年上海交通大学 ACM 班创立以来,短短十年之间,ACM 班的学生三次问鼎全球 ACM 大赛。而俞勇教授,就是 ACM 班的创始人。

▲ 2005年上交大获ICPC全球总决赛冠军

俞勇教授不仅仅是上海交通大学 ACM 班的创始人,同时也是国家级教学名师,上海交通大学的特聘教授。俞勇教授一直致力于培养卓越的人工智能算法工程师和研究员。本书的成书过程,离不开俞勇教授对课程教学的创新与探索。同时,俞勇教授及其整个 ACM 班的加持,也使得本书的理论讲解与代码质量得到了充分的保证。在阅读本书的过程中,我个人最为惊喜的部分是强化学习前沿部分。这一部分对强化学习领域的最新进展做了大体的介绍,包括模仿学习、多智能体强化学习等,并且同样给出了示例代码。这使得读者能够紧跟强化学习的前沿研究趋势。

AlphaGo 的大脑:Actor-Critic 算法

我想读者一定会对 AlphaGo 背后的算法很好奇。在这里本文简要介绍一下 AlphaGo 背后的 Actor-Critic 算法,这种算法同样在书中给出了丰富的示例代码,读者可以自行实践。

AlphaGo 将改进的蒙特卡洛树搜索与深度强化学习相结合,形成了一个深度学习系统。AlphaGo 使用的深度强化学习算法,就是著名的 Actor-Critic 算法。Actor-Critic 的算法框架已经成为当今流行的深度强化学习算法的标配。

正所谓人如其名,Actor-Critic 算法背后的思想也和它的名字一样直观。考虑一个进行表演的演员(Actor),她要怎样提升自己的水平呢?如果仅仅是她自己漫无目的地进行表演,那么她也不明白自己表演的好坏,更不要说提升自己的表演水平了。这个时候就需要一个评论家(Critic)来对她的表演进行打分,有了评分之后,演员就可以根据评分来不断提高自己的表演水平。再举个例子,对一个学生而言,考试分数是了解自己学习水平的重要手段。如果没有考试,可能学生也不知道自己对知识的掌握程度如何。

正如《学习之道》一书所指出的一样:“如果没有及时的测试,学生就难以对自己的水平产生合理的评估,很容易产生‘能力错觉’。”考试分数为学生的学习情况提供了反馈,学生可以利用这个反馈来改进自己的学习方法。这就是演员-评论家算法背后的思路,简单但是有效。

▲ “演员-评论家”算法示意图

演员-评论家算法的具体实现如上图所示,传统的深度强化学习方法往往是价值网络和策略网络二选一,而 Actor-Critic 算法却将价值网络与策略网络相结合。一方面,Actor-Critic 算法通过策略网络,也就是 Actor,来确定当前状态选择何种动作;另一方面又通过价值网络,即 Critic,来为动作进行打分。Actor-Critic 的算法框架简单,但十分有效。当前流行的深度强化学习算法如 PPO、IMPALA等,基本都采用了Actor-Critic的算法框架,只是在细节上有各种改进。

在 AlphaGo 的具体实现中,策略网络用来判断下一步的落点,而价值网络则用来评估当前局势的好坏。正是Actor-Critic 算法的卓越表现,为 AlphaGo 在围棋上取得如此惊人的优异表现奠定了基础。当然,AlphaGo 还采用了蒙特卡洛搜索树以及自博弈的相关算法,这就涉及一些更深入的主题(如博弈论)的相关知识了。但是 Actor-Critic 的算法框架,毫无疑问是 AlphaGo 的核心。

AlphaGo 的表现固然令人耳目一新,可是 AlphaGo 背后的强化学习算法,才是人类智慧的结晶。想要在强化学习的领域一展宏图,就必须真正”动手“去学强化学习。相信这样一本书,一定能成为每一位强化学习研究者案头必备的良师益友。

《动手学强化学习》读后感(篇十二)

作者俞勇团队结合多年编程教育、强化学习经验以及学生反馈,打造了这本强化学习入门佳作,从“基础”“进阶”“前沿”“展望”四个方面着手,让读者不仅能掌握强化学习的理论知识,更能掌握真正运用强化学习的能力。

这本书的主要特点有四点,而这四点又正好是我们自学强化学习最好的四大步骤。

俞勇教授真不愧是教学名师啊!对于书籍内容和结构的安排太赞了......

(1)注重理论基础,兼顾公式推导

首先,这本书不仅注重理论基础,还兼顾了公式推导。这本书主要包含 3 个部分内容:

●第一部分为强化学习基础,讲解强化学习的基础概念和表格型强化学习方法;

●第二部分为强化学习进阶,讨论深度强化学习的思维方式、深度价值函数和深度策略学习方法;

●第三部分为强化学习前沿,介绍学术界在深度强化学习领域的主要关注方向和前沿算法。

异步君墙裂推荐这本书的原因是什么呢?

要知道,现在市面上的强化学习教材是无法在把理论知识通俗易懂地讲解出来的同时,做到把公式也一步步推导出来的。许多教材是先出“入门版”,再配套出“公式推导版”。

可能,有刚刚入门的小伙伴会有疑惑:

“我这才刚入门,打好理论基础不应该才是最重要的事情吗?哪有那么多精力弄公式推导?”

怎么说呢,你刚刚入门时是应该重点关注理论基础,毕竟“基础不牢,地动山摇”,但是,当你学得越来越深入,公式推导的重要性越发重要。

一来,要想掌握理论背后的物理、数学含义,你需要进行公式推导;

二来,要想知道某种理论的适用范围,你需要通过公式推导;

三来,要想对比不同算法的优越性,对比不同模型的适配度,你需要对底层公式推导有着清晰的认识。

最后,但是特别重要的一点,要想熟练编写代码和理解算法,你需要深入公式推导,毕竟这是写代码的目的所在。

异步君记得有一个段子是这样说的:“理论再好,代码难搞。公式推导,明年博导!!!”虽然有些搞笑,但是说的还是在理的。

给你看个这本书的公式推导过程,这步骤清晰得让新手完全不同经历那种“公式不知道用在哪里,公式不知道怎么推导出来的“抓狂体验:

(2)注释清晰,再也不怕算法,代码实战落地性强

对于初学者而言,强化学习一难在理论,二难在代码实战。而这本书开始就为你解决了理论基础和公式推导的难题,接下来的代码难关也为你提供了解决之道。

在ACM 班的强化学习课程中,作者们尝试以在线 Python Notebook 的形式为学生提供课程辅助材料和代码小作业。对于一个强化学习主题单元,他们将原理讲解部分(包括配图和公式)与对应的代码实践部分耦合,使学生在学习完一个原理知识点后能立即以代码实践的形式学习其实现方式。

更重要的是,这样的代码块可以直接在线运行和修改,也就是说学生可以在一个 Notebook 里完成对一个强化学习主题单元的原理学习和代码实践。

从上海交通大学的学生的反馈来看,这样的学习方式能帮助他们更好地将理论知识点和实践能力点对应,也能帮助老师更高效地授课、布置和批改作业。

所以,这本书就沿用了这种方法。理论与实践并重,提供配套的线上代码实践平台,通过展示源码的编写和运行过程,让读者进一步掌握强化学习算法的运行机制,帮助读者通过实践加深对理论的理解。

书中提供的代码都是基于Python 3编写的,此外,考虑到目前 PyTorch 机器学习框架比较受欢迎,本书中的代码在涉及自动求导时皆使用PyTorch 框架实现。

每一章的内容都提供了Jupyter Notebook链接,可以在线直接运行。每一份示例代码中都包含可以由读者自行设置的变量,方便读者进行修改并观察相应的结果,从而加深对算法的理解。书中的一些关键代码都有相应注释,特别适合那些对编程很吃力的初学者。

(3)视频网课、配套丰富资源,让你做资源最多的强化学习者!

对于自学一种新技术,我们要么是通过购买一本入门教材,要么是到网上寻找大师视频课程进行学习。而这本书,就提供了一种兼顾教材和网课的学习方法,能让你系统地学习强化学习。这也是它的最大优势之一。

每一章节课程结束之后,都会提供课后练习,帮助你消化所学知识。

你可以在讨论区提问,作者团队会在线答疑,避免学习的迷茫期。

提供配套课件,教师可以采用其进行授课,特别方便。

一本追求卓越,满足初学者需求的强化学习百宝书,开始动手学强化学习吧!

还剩页未读,是否继续阅读? 继续免费阅读

下载此文档

范文

Powered 2024 版权所有 ICP备666666号

付费下载
付费获得该文章下载权限
限时特价 2.00
原价:¥10.00
在线支付
付费复制
付费后即可复制文档
特价:2.00元 原价:10.00元
微信支付
x
提示:如无需复制,请不要长按屏幕影响阅读体验
付费下载
付费后即可下载文档
特价:2.00元 原价:10.00元
微信支付
x
付费下载
扫一扫微信支付
支付金额:2.00