当前位置:首页 > 范文 > 深度学习进阶读后感100字

深度学习进阶读后感100字

格式:DOC 上传日期:2024-06-27 10:15:13
深度学习进阶读后感100字
时间:2024-06-27 10:15:13   小编:

《深度学习进阶》是一本非常实用的技术书籍,它涵盖了深度学习领域的最新进展,包括卷积神经网络、循环神经网络、生成对抗网络等。书中的实例和代码非常详细,让读者可以轻松上手实践。对于想要深入了解深度学习的人来说,这是一本必读的书。

《深度学习进阶》读后感(篇一)

确实挺不错的,之前买了前作,这次出了续作,更多的集中精力在NLP领域,很好。首先,风格简单易懂,延续了前作的风格,不需要太多的数理基础也可以看懂,稍微难一点点的,也会有详细的图例给你;然后代码的风格也很简单易懂,没有一大段一大段的,毕竟它目标不是实现一个工程嘛,主要是要你理解其中原理,所以代码都是短小精悍,直击要害的。最后,可能有一点点不足吧,发展日新月异,最新的技术有提到,但没有代码实现,当然,这是出版的时间差的问题啦,瑕不掩瑜,很好的一本书。

《深度学习进阶》读后感(篇二)

本书作为《深度学习入门:基于Python的理论与实现》的续作,主要介绍了深度学习在自然语言处理(NLP)上的主要方法和模型。近来也在转型学习神经网络和深度学习,对于书中的一些公式还不太能理解,只能浅要总结如下:

- 1、神经网络有输入层、隐藏层和输出层。神经网络的推理可以理解为数据的正向传播,神经网络的学习可以理解为梯度数据的反向传播。使用计算图可以帮助理解各节点的正向传播和反向传播的计算过程。

- 2、自然语言处理(NLP)是深度学习的一个领域,目的是让计算机能理解人类语言。在NLP中,单词用向量表示,单词向量化的方法主要有两种:一种是基于计数的方法,一种是基于推理的方法。

- 3、基于计数的方法是对语料库中每个单词上下文单词出现的频数进行计数生成共现矩阵,然后转换为PPMI矩阵,再做降维处理,可以将巨大的稀疏向量转换为小的密集向量。基于计数的方法的问题是共现矩阵巨大,做降维处理的复杂度很高。

- 4、基于推理的方法一次只选取一小部分数据,即在mini-batch语料上学习,它基于上下文的单词推测中心词,就像完形填空。从模型视角看,就是输入上下文,模型输出各单词的出现概率。

- 5、RNN循环神经网络为了表达自然语言的序列,利用RNN创建的语言模型具有记忆能力。RNN具有环路,因此可以在内部记忆隐藏状态。RNN可以理解为多个RNN层连接起来的神经网络。

- 6、RNN学习过程中可能出现梯度爆炸(梯度变大超过一定阈值)或梯度消失(梯度变小接近0)的问题,影响模型学习。梯度裁剪(超过阈值后裁剪)对解决梯度爆炸有效,而LSTM、GRU等模型(Gated RNN)引入“门”的结构,解决梯度消失问题。LSTM即Long Short-Term Memory,意思是可以长时间维持短期记忆。LSTM有三个门:输入门、遗忘门、输出吗。门有专门的权重。

- 7、文本数据、音频数据、视频数据都是时序数据。基于RNN语言模型可以生成新的文本,通过组合两个RNN,可以将将一个时序数据转换为另一个时序数据(seq2seq),如机器翻译、语音识别等。seq2seq模型包含两个RNN模块:Encoder(编码器)和Decoder(解码器)。文本识别的seq2seq实现:Encoder由Embedding层和LSTM层组成,Embedding层将字符转换为字符向量,再输入LSTM层。Decoder由Embedding层、LSTM层和Affine层构成。如果将编码器从LSTM换成CNN(卷积神经网络),seq2seq就可以处理图像。

- 8、seq2seq的问题是编码器的输出是固定长度的向量,也就会导致在长文本处理时可能会发生有用的信息从向量中溢出。Attention机制是为了进一步强化seq2seq,基于Attention机制,使得seq2seq能像人一样,将“注意力”关注在重要信息上。Attention机制通过改造编码器和解码器来解决seq2seq的固定长度向量问题。

- 9、Transformer模型不用RNN,基于Attention构成,使用Self-Attention技巧。

《深度学习进阶》读后感(篇三)

7.1.3节提到的参考论文使用多层LSTM(斋藤所编写的两本深度学习教材以详细友好、给出代码实现著称,但是却唯独省略了LSTM的反向传播方法的实现)制作语言模型,并以“the meaning of life”为初始输入进行文本生成的结果如下: “the meaning of life is that only if an end would be of the whole supplier. widespread rules are re garded as the companies of refuses to deliver. in balance of the nation ’s information and loan growth associated with the carrier thrifts are in the process of slowing the seed and commercial paper.” “the meaning of life is nearly in the first several months before the government was addressing such a move as president and chief executive of the nation past from a national commitment to curb grounds. meanwhile the government invests overcapacity that criticism and in the outer reversal of small-town america.” 他们的结果似乎没有斋藤给出的结果(“the meaning of life is not a good version of paintings.”,这个结果还是一个否定式,多么狡猾)有趣,而且似乎对政治很敏感。后者使用的是改良(除了前述论文使用的多层化LSTM、应用Dropout以外,还使用了Affine层和Embedding层的权重共享)版本的RNNLM。 seq2seq的基本思想是将两个RNN分别作为Encoder和Decoder,按序将文本输入编码器,再以其输出(当然不是softmax层输出而是最后一个LSTM层的输出)为解码器的初始输入进行预测。7.4.1节中对seq2seq的改进是Reverse,即倒转输入数据,使句首变成了输入的结尾,就能够极大地提升模型的表现。 所提供的参考论文认为,在编码器的输入和解码器的输出的对应词(这里似乎已经预设了两侧文本之间的语序应该有一定的相似性)之间要经过一段传播过程,并且总有一个较大的“最小延迟”(“minimal time lag”),Reverse并没有改变延迟的平均量,但是却在两侧文本的句首对应处显著降低了最小延迟。从而,在反向传播过程中更容易在目标句和源句之间建立联系(“establishing communication”)。并且特别指出,Reverse处理并不仅仅提高了文本前段的预测精确度,而是在整个长句上都有效。 作者声称由此可以推断Reverse提高了LSTM层的记忆利用率,这当然是一种同义反复:我们不能用“利用率”或者是某种能力来解释,而是要考察记忆内容的变化。

还剩页未读,是否继续阅读? 继续免费阅读

下载此文档

范文

Powered 2024 版权所有 ICP备666666号

付费下载
付费获得该文章下载权限
限时特价 2.00
原价:¥10.00
在线支付
付费复制
付费后即可复制文档
特价:2.00元 原价:10.00元
微信支付
x
提示:如无需复制,请不要长按屏幕影响阅读体验
付费下载
付费后即可下载文档
特价:2.00元 原价:10.00元
微信支付
x
付费下载
扫一扫微信支付
支付金额:2.00