读完《统计学习导论》,深感统计学习的重要性和广泛应用。书中系统介绍了统计学习的基本概念、方法和应用,让我对机器学习有了更深入的了解。通过实例分析和算法推导,逐步掌握了各种学习方法的原理和实现方式。这本书对于学习者来说是一本不可或缺的入门读物。
统计学习导论读后感篇一
原著是很好的书,但是这个译本像是英文水平不咋样且完全没有专业知识的外行翻译的一样!有些地方用语不够专业,有些地方可以说是完全错误,非常误导初学者,哪怕是有基础的人看到某些片段都要疑惑半天。中英对照地看完,只能说这翻译水平还不如DeepL。
举个例子,书中竟然把函数flexible翻译成光滑度,又把smooth翻译成柔性水平???放在整个高数范畴里都不能这么翻译吧?而且就我的知识而言一个函数越flexible他的光滑度应该越低吧,这不是完全翻译反了吗??
统计学习导论读后感篇二
王星教授在《译者序》中自称带领团队倾情翻译,认真翻译大半年,而且让读者相信他们的诚意。
事后看来,这个团队纯粹在瞎搞,纯粹在搞笑。
================
10.2主成分分析,(10.4)式下面一段,P261
王星:当 φ2 是第二主成分的载荷向量时......它表明......
点评:where(其中)翻译成“当”,it turns out....(可以证明/事实表明)翻译成“它表明”。就是个初中生,他的英文能烂成这样吗?
这也许是王星团队一遇到simple就翻译成“简单”的原因,例如,“do it, simply/just do it.",王星团队的翻译为“干它,简简单单地干它”。
简直让人简简单单地笑死。
======================
10.2.2主成分的另一种解释,P263
王星:图10-2左图中的例子显示,数据的前3个主成分张成了与n个观测最接近的三维超平面。类似的例子还有很多。
点评:图10-2左图是前2个主成分张成的平面,不是前3个.....。另外,and so forth(以此类推)也被王星恶搞了。
================
不得不让人感叹,这是个瞎子团队,胡编乱造,而且很起劲,很真诚。
统计学习导论读后感篇三
王星教授带领团队,历时大半年,自称投入了无数心血,硬生生地将这本书打造成了垃圾。
这也算个奇迹。
此书弥漫着新兵蛋子的幼稚气,却又装成一副很老成的样子。最典型的例子是,英文版留下了很多诸如“可以证明”这样的与高级教材的接口,中文版几乎将它们删除干净。这是为了译文的流畅吗?
================
中文版中的大大小小的错误,如水乡中的河网密布。真心不知道这个团队当初如何有胆量翻译这本书的。
8.2.3提升法
P223,标题8.2.3下方第二段,倒数第三行
王星:装袋法中不并不包含自助抽样的步骤.....
点评:这是个无心但重大的错误,此处的装袋法应为提升法。
=============
P224,对提升法过程的介绍,几乎不知所云。
==============
P224,图8-11上面第二段,第三行
王星:这种情况下的提升法整体与加法模型相符,因为每个树只含一个变量。
原文:In this case, the boosted ensemble is fitting an additive model, since each term involves only a single variable.
点评:很简单直白的意思被译者弄得稀碎,这不过是说:d=1时,提升法拟合的是个加法模型,因为模型中每一项只涉及一个变量。
这也是我为什么说这个团队是统计学习领域新兵蛋子的原因,译文不是那个味道。
==============
P224,图8-11上面一段,第一行
王星:......以得到能从14类癌症中识别出正常水平的分类器。
原文: ......in order to develop a classifier that can distinguish the normal class from the 14 cancer classes.
点评:这明明是将14类癌症与正常类(即无癌症)分开。
频繁出现的此类翻译错误不等同于说,译者在奥利给中找能食用的玉米粒吗?搞笑得不行。
==================
这个团队改行说集体相声,倒是个不错的选择。
统计学习导论读后感篇四
继续上图,继续欣赏王星团队是如何恶搞《统计学习导论》的。
================
10.2.3关于PCA(主成分分析)的其他方面,P264
王星:变量的标准化........变量是否分别被标准化了(每个变量乘以一个不同的常数)。
点评:稍微有点统计常识的人都知道,“标准化”这个词要慎重使用,因为它的意思取决于具体上下文。这里的scale翻译成标准化,导致读者很难理解。事实上,这个词在此处的意思就是“单位的变化(例如从吨变为公斤)。
====================
决定主成分的数量
P266,倒数第二段,倒数第二行
王星:这是得到一致公认的一条主观决策方法,同时这一原则也反应出以下事实:PCA是探索性数据分析中被广泛使用的一类方法。
点评:这里的admittedly更准确的意思是“显然”、“诚然”,用于加强语气;因为前文已说明确定主成分数量的方法,是主观的。
后半句的准确意思:主成分分析主要用于探索性分析。
=================
P266,最后一段
王星:......将用于回归中的主成分得分向量数目选择可以参照经过交叉验证或类似方法的调节参数对变量选择的结果.....
点评:这样的翻译简直就不是人话。这里的意思多么清楚,将前者看成调整参数。
===============
译文中的海量翻译错误,让人怀疑这个团队就是出来搞笑的。
统计学习导论读后感篇五
这本书读起来不费劲,弱化了数学推导过程,注重思维的直观理解和启发。读起来很畅快,个人感觉第三章线性回归写的很好,即使是很简单的线性模型,作者提出的几个问题和细细的解释这些问题对人很有启发性,逻辑梳理得很好,也易懂。(不过有点可惜的是翻译版本确实不是太好,有些明显的错误,建议如果英文不是很好的还是读中文版,读中文版看的快,中文版看不懂的地方再对照着英文版看看应该就能懂了。)
线性回归这一章印象深的写的很好的部分有:
在进行多元线性回归时,本书作者提出了4个问题——
Some important questions
回答第一个问题时引出了F统计量,并解释了“当已经得到了各个变量的p值时,为什么还要看整体的F统计量呢?".F统计量和n和p都有关系,它会根据预测变量的个数进行调整,这样即使预测变量个数很多,使得部分变量的p值小于0.05(但很可能其实这些预测变量对响应变量并没有多大效果),看F统计量的p值就可以回答第一个问题。
接着,我们会想知道到底是哪些变量和响应变量有关系,第二个问题引出了变量选择(variable selection)的概念,常用的包括:best subset selection, forward selection, backward selection.(关于书中提到的mixed selection似乎不常见,其实就是综合了forward selection和backward selection这两种方法)。
到了第三个问题,衡量模型拟合优劣的指标有RSE和R²,不过由于RSE受到y的量纲的影响,所以去评判一个好的RSE的标准还没有建立起来,因此我们常用的还是看R²的大小来看模型拟合的优劣程度。书中提到,"当更多的变量进入模型时,即使新加入的变量与响应变量的关联很弱,R²也一定会增加,因为在最小二乘方程中添加变量必然会使我们能更加准确地拟合数据", 这一点也可以看出R²越大也不代表这个模型就越好,很可能某些预测变量其实和y的关联性很弱,反而在对测试集数据进行预测的时候使得我们的预测效果不好。所以,我们引入了adjusted R²,adjusted R²则对增加的冗余变量进行了惩罚。在本书第六章可以看到,当我们选择从多个模型中选择最优模型的时候,我们会用到两类方法,第一类是看Cp,AIC, BIC, adjusted R²这几个值的大小,第二类则是用CV的方式。
最后附上百度云链接,包括了三本书,一本An Introduction To Statistical Learning, 一本课后习题解答书,一本The Elements of Statistical Learning.(看完统计学习导论想对这些统计学习方法的原理和推导细节有更深入的了解可以接着看这本啦)
(链接分割线)-------------------------------------------------------------------------------------------------------------------
书和课后习题解答的英文版