首页 > 其他分享> > 《数学之美》——吴军#读书笔记

《数学之美》——吴军#读书笔记

2021-01-20 11:57:48 作者：互联网

《数学之美》

吴军

第一章：文字和语言vs数字和信息

主要内容概述：“语言和数学的产生都是为了同一个目的——记录和传播信息”。科技是伴随着人类的不断进化而发展进步的。信息是从人类诞生（雏形时期）开始就已经产生，并与现在的通信模式没有什么不同。同时随着信息量的增加，认字也随之出现了。文字只是信息的载体，而非信息本身，所以不同的载体可能存储着相同意义的信息。在对事物的描述上也从外表向抽象发展，这不自觉的实现了对信息的编码，且编码方式很符合现在的编码原理。人员前人在语言文字上使用的方法，如今的信息科学中依然实用。
关键词： 第一章提到了现阶段自然语言处理中的概念在历史中的应用，包括：通信的原理、信息传播模型、信息编码和最短编码、解码规则及语法、聚类、校验位、双语对照文本，语料库和机器翻译、多义性和利用上下文消除歧义性。

第二章：自然语言处理——从规则到统计

主要内容概述： 人们对自然语言处理的认知从最开始的“鸟飞派”思想，到如今理解的依靠统计学理论。并且已经在相应领域产生很好的效果。2005年后，随着Google基于统计方法的翻译系统全面超过基于规则方法的SysTran翻译系统，彻底将基于规则的自然语言处理方法消灭。自然语言处理的研究也从单纯的句法分析和语义理解转换到了机器翻译、语义识别、文本生成、数据挖掘和知识获取。

第三章：统计语言模型

主要内容概述： 自然语言处理的基础，广泛应用于机器翻译、语音识别、手写体识别等。其中马尔可夫模型最具代表性。

第四章：谈谈中文分词

主要内容概述： 而这些语言模型都是建立在词之上的，因此对句子进行分词才能进一步自然语言处理。从最开始的“查字典”方法，最少词数理论、到之后的统计语言模型，有效的降低了分词的错误率。

第五章：隐马尔科夫模型

被认为是解决大多数自然语言处理问题最为快速、有效的方法。解决了像语音识别、机器翻译等多种复杂问题。其原理就是当前值只与前一时刻的值有关，和其他值无关。

第六章：信息的度量和作用

信息的作用在于消除不确定性，而自然语言处理的大量问题都是在找相关信息。从而出现了香农提出的著名概念：信息熵。

第七章：贾里尼克和现代语言处理

贾里尼克对NLP领域的影响是巨大的，对NLP领域的学者影响也是巨大的。学习他的思想对我们的学习工作大有帮助。

第八章：简单之美——布尔代数和搜索引擎的索引

技术分为术和道两种：具体的做事方法是术，做事的原理和原则是道。布尔代数用在简单的01数值来代编现在的事物，将我们对时间的认知从连续状态扩展到离散状态。

第九章：图论和网络爬虫

图论的起源从最早的欧拉研究哥尼斯堡七桥问题开始。而对于网络爬虫技术就是依靠于图论中的遍历算法来遍历网页这个大网的。而世界上第一个网络爬虫代码是由麻省理工学院的学生马休·格雷（Matthew Gray）在1993年写的，叫“互联网漫游者”（WWW Wanderer）。在网络爬虫或是遍历时，最重要的是要记录已经获取到的内容或走过的路径。而最为流行的方法就是使用哈希表。
网络爬虫的技术需要考虑的几个大方向：

首先，使用BFS还是DFS？
第二，页面的分析和URL的提取。
第三，记录那些网页已经下载过——哈希表。

第十章：PageRank——Google的民主表决式网页排名技术

第十一章：如何确定网页和查询的相关性

搜索网页结果的排名主要取决于两组信息，关于网页的质量信息（Quality），和这个查询与每个网页的相关性信息（Relevance）。
关于网页质量的研究，谷歌公司提出了Pagerank算法：大致思想就是一个网页被很多其他网页所链接，说明它受到普遍的承认和信赖，那权重就打大，排名就靠前。如何确定网页和查询的相关性？搜索关键词权重的科学度量TF-IDF（单文本词频Term Frequency），以及搜索关键词的频率指数IDF（逆文本频率指数 Inverse Document Frequency）。而IDF的概念就是一个特定条件下关键词的概率分布的交叉熵（Kullback-Leibler Divergence）。相关性的确定也是通过TF和IDF的乘积决定了。而网页的综合排名大致是由相关性和网页排名的乘积决定的。

第十二章：地图和本地搜索的最基本技术——有限状态机和动态规划

关于地址的解析，通过有限状态机即可实现上下文有关文法，从而对地址文本进行解析。
而一个有限状态机是一个特殊的有向图，当满足进入下一个状态的条件时，则进入下一状态，直到到达终止状态。否则地址无效。由于有限状态机只能进行准确匹配，不能实现模糊匹配，后来科学家提出了一种基于概率的有限状态机解决了这样一问题。
全球导航的关键算法是动态规划（Dynamic Programming）。其原理就是想要找最短路径，就先得找到局部最短路径。
有限状态机和动态规划的赢哟个也不止全球导航，还应用于语音识别、拼写和语法纠错等问题。

第十三章：GoogleAK-47的设计者——阿米特·辛格博士

寻找简单有效的解决方案，一开始不能追求大而全的方法。

第十四章：余弦定理和新闻分类

新闻中的文本可以通过特征向量来表示，而两个新闻文本的相似性可以通过对应的两特征向量的夹角余弦值来判断。

第十五章：矩阵运算和文本处理中的两个分类问题

文本处理中主要就是研究分类问题，而研究文本分类问题的核心运算就是矩阵运算。在使用矩阵运算进行文本处理时，应用到奇异值分解来简化计算。

第十六章：信息指纹及其应用

一段文字所包含的信息就是它的信息熵。而任何一段信息，都可以对应一个不太长的随机数，作为区别它和其他信息的指纹（Fingerprint）。现在较为常用的随机数生成算法为梅森旋转算法。

第十七章：由电视剧《暗算》所想到的——谈谈密码学的数学原理

加密函数不应该通过几个自变量和函数值就能推出函数本身的，这是保证加密可靠性的基本原则。而利用已经获取的信息来消除一个情报系统的不确定性就是解密。

第十八章：闪光的不一定是金子——谈谈搜索引擎反作弊问题

搜索引擎作弊的目的就是为了让网页排名靠前。早起的作弊方法是使用重复关键词、之后是添加被引用的链接，再到后来形形色色的作弊方式。而在反作弊领域识别作弊网站的方法很多，也切实有效，如通过图论来识别。作弊的本质是在网页排名信号中加入噪声，因此反作弊的关键就是去噪声。

第十九章：谈谈数学模型的重要性

1，一个正确的数学模型应当在形式上是简单的；
2，一个正确的模型一开始可能还不如一个精雕细琢过的错误模型来的准确，但是，如果我们认定大方向是对的没就应该坚持下去；
3，大量准确的数据对研究很重要；
4，正确的模型也可能受噪声干扰，而显得不准确；这时不应该用一种凑合的修正方法来弥补它，而是要找到噪音的根源，这也许能通过重大的发现。

第二十章：不要把鸡蛋放到一个篮子里——谈谈最大熵模型

最大熵原理（The Maximum Entropy Principle） 指出，需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。这样的话，概率分布最均匀，预测的风险最小。
最大熵可以将各种信息整合到一个统一的模型中。它是唯一一个既可以满足各个信息源的限制条件，同时又能保证平滑性（Smooth）的模型。

第二十一章：拼音输入法的数学原理

输入法输入汉字的快慢取决于对汉字编码的平均长度，也就是击键次数乘以寻找这个键所需要的时间。
汉字的编码分为两部分：对拼音的编码和消除歧义性的编码。
香农第一定理指出，对于一个信息，任何编码的长度都不小于它的信息熵。
而拼音转汉字的算法实现其实可以将汉语输入看成一个通信问题，而输入法则是一个将拼音串变到汉字串的转换器。每一个拼音可以对应多个汉字，把一个拼音串对应的汉字从左到右连起来，就是一张有向图，被称为网格图或篱笆图。而拼音转汉字就是要找到从起点到终点的一条最短路径。可以直接使用动态规划算法实现。

第二十二章：自然语言处理的教父马库斯和他的优秀弟子们

马库斯之所以被称为自然语言处理的教父，不仅仅是因为他贡献了LDC语料库。更是他培养出了众多自然语言处理领域的大牛。柯林斯的故事告诉我们，我们在做事时应力求做到极致。布莱尔的故事告诉我们在做事时应试图寻找简单的方法。

第二十三章：布隆过滤器

布隆过滤器的好处在于快速、省空间，但是有一定的误识别率。其背后的原理是两个完全随机的数字冲突的概率很小。

第二十四章：马尔可夫链的扩展—贝叶斯网络

贝叶斯网络不像马尔可夫链那种单一的链式结构，而是一个加权有向图，它可以把任何有关联的事件统一到他的框架。所以它应用非常广泛，从生物统计、图像处理、到博弈论都有涉及。

第二十五章：条件随机场和句法分析

条件随机场使得句法分析的准确率从不大50%提高到了95%。使得句法分析得以广泛应用到众多产品上。但是条件随机场的实现也比较复杂。

第二十六章：维特比和它的维特比算法

维特比不仅提出了著名的维特比算法，更重要的是他制定了现代的3G移动通信标准（CDMA，码分多址技术）。而维特比算法是一个特殊但应用最广的动态规划算法，它不仅可以解决使用隐含马尔可夫模型描述的问题。还包括今天得数据通信、语音识别、机器翻译、拼音转汉字、分词等。

第二十七章：再谈文本自动分类问题——期望最大化算法

EM算法： 根据现有的模型计算各个观测数据输入到模型中的计算结果，这个过程称为期望值计算过程（Expectation）——E过程；接下来，重新计算模型参数，以最大化期望值，这个过程称为最大化过程（Maximization）——M过程。

第二十八章：逻辑回归和搜索广告

搜索广告之所以比传统的在线展示广告赚钱多很多，除了搜索者的一推明确外，更重要的是靠预测用户可能会点击哪些广告，来决定搜索结果页中插入哪些广告。而搜索广告的实现就是整合用户的各种特征来构建数学模型，较为普遍的是利用逻辑回归模型来实现，逻辑回归模型就是将一个事件出现的概率适应到一个逻辑曲线上，它可以将影响概率的不同因素结合在一起的指数模型。

第二十九章：各个击破算法和Google云计算的基础

Google在处理云计算时，使用到的解决工具是一个叫MapReduce的程序，其根本原理就是常见的分治算法（Divide-and-Conquer）——各个击破算法。分治算法就是将一个复杂问题，成若干个简单的子问题进行解决，之后对子问题的结果进行合并得到已有问题的解。

后记：

通过这本书，让我看到了在信息技术行业正确的做事方法，我们应该深入浅出，从最基础的理论研究问题，利用最简单的方法解决问题。真正的解决问题，而不是去“凑”一个方法来实现。
正确的理论和方法有一个被认识的过程。任何事情都有它的发展规律，而这些规律都是可以认识的，在信息科学领域也不例外。当我们认识了规律后没就应该自觉地在工作中遵循规律而不要违背规律。

怎么看了一下笔记，感觉像是没有什么收获。哈哈，感触还是蛮深的，有自己不少的感想，但是出于之后给能要给提交读书笔记，防止说我抄袭网上的，后续再发出来吧！哈哈

(“The secret of getting ahead is getting started. 成功的秘诀是开始行动。”。FIGHTING. . . .)

标签：网页,吴军,读书笔记,模型,之美,信息,算法,自然语言,方法
来源： https://blog.csdn.net/cjx14060307101/article/details/112861289