读书笔记--读数学之美有感
大概是在10年前,无意间读到吴军老师撰写得数学之美,感觉吴老师对数学与信息论的结合讲述的太好了,吴老师结合自身的多年工作经历将信息技术中用到的数学,特别是数学里面的很多概率论、线性代数、模型算法、编解码规则等,用非常通俗易懂的语言阐述给大家,比如我们天天用到的搜索引擎、商品推荐、语言识别、自然语言处理、文章分类、人脸识别等问题的底层数学原理,如果大家能够在上初高中或者大学期间能够读到这本书,我想应该会让好多觉得数学学习枯燥的人获得启发和价值引导灵感,同样也让我们非常直观的了解到为什么大家要从小学1年级到大学都在学习数学,数据的价值在哪里,数学是一种逻辑思维,一种解决问题和描述问题本质的方式方法,很多科学、工程问题或物理学的问题最终都要借助数学来解决。以下是一些关键细节,供参考。
一、文字和语言,数字和信息
信息:最早是声音传播,方便人类交流通信,促使语言的产生,语言和通信的联系是天然的,详见下图。大学期间学过信号处理课程的同学一定非常熟悉这个模型,以及工作中从事后端数据传输处理(比如电子邮件的发送接收设计等)的小伙伴一定非常熟悉,原来,这些技能其实早在人类祖先的交流中就拥有了,只是没有一个相对规范的称呼,通信模型。

文字(包括数字)是高效记录信息的方式,但文字需要上下文,否则会产生歧义,比如日 表示太阳,也表示一天。文字最早是象形文字,后来是拼音文字,汉字笔画其实也是一种字母表示,也是拼音文字。
数字进制的概念描述是不同位置的数字表示不同的量,中国用个十百千万千万亿兆,罗马人用I:1,V:5,X:10,L:50,C:100,D:500,M:1000。单200万的数字,用罗马编码估计得一黑板,现在我们用的阿拉伯数字(0~9)其实是印度人发明的,经过阿拉伯人传到欧洲。
文字的编码也是常用字笔画短,生僻字笔画多。符合信息论的最短编码原理
通信原理和信息传播模型
信源编码和最短编码
解码的规则和语法
聚类
校验位
双语对照文本,语料库和机器翻译
多义性和利用上下文消除歧义性
二、自然语言处理(NLP)--从规则到统计
经过多年的自然语言的研究,科学家发现,要让机器具有智能,不是让机器理解自然语言,而是靠数学,准确的说是靠统计学。发明飞机的怀特兄弟靠的是空气动力学研究,也是工程和数学的结合,不是仿生学(理解鸟怎么飞的)
基于规则的自然语言处理:是早期对自然语言处理的理解,需要进行句法分析和语义分析
基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至就是相同的;在数学意义上,自然语言处理又和语言的初衷(即上面的通信原理)联系在了一起。
三、统计语言模型
科学家要让计算机处理自然语言,需要为自然语言这种上下文相关的特性建立数学模型,简称统计语言模型
IBM的贾里尼克认为:一个句子是否合理,是否出现,就看他的可能性大小如何。概率
整句话出现的概率P(S),w1表示第一个词,wn表示第n个词
P(S)=P(w1,w2,w3,...,wn)=P(w1)*P(w2|w1)*P(w3|w1,w2)*P(w4|w1,w2,w3)...*P(wn|w1,w2,w3,...,wn-1).
马尔可夫提出来一种偷懒但有效的方法:假设任意一个词wi出现的概率只与它前面一个词(wi-1)有关,于是上面的公式就变为
P(S)=P(w1)*P(w2|w1)*P(w3|w2)*P(w4|w3)...*P(wn|wn-1).
事实证明:统计语言模型比任何已知的借助某种规则的解决方法更有效。数学的精彩之处就在于利用简单的模型可以干大事。
马尔可夫模型其实和俄罗斯的数学家马尔可夫没关系,是美国数学家鲍姆.韦尔奇发现的。后来不断变化,又出现了隐含马尔可夫模型。
相关文章:
读书笔记--读数学之美有感
大概是在10年前,无意间读到吴军老师撰写得数学之美,感觉吴老师对数学与信息论的结合讲述的太好了,吴老师结合自身的多年工作经历将信息技术中用到的数学,特别是数学里面的很多概率论、线性代数、模型算法、编解码规则等࿰…...
[PyTorch][chapter 33][卷积神经网络]
前言 参考: 《数字图像处理与机器视觉》 第五章 空间域图像增强, 图像卷积: 空间域图像增强 图像增强是根据特定需要突出一副图像中的某些信息,同时削弱或去除 某些不需要信息的处理方法,其主要目的是是的处理后的图像对某种特定的…...
Lift, Splat, Shoot 论文学习
1. 解决了什么问题? LSS 在工业界具有非常重要的地位。自从 Tesla AI Day 上提出了 BEV 感知后,不少公司都进行了 BEV 工程化的探索。当前 BEV 下的感知方法大致分为两类: 自下而上:利用 transformer 的 query 机制,…...
【密码产品篇】动态口令系统密钥体系结构(SM3、SM4)
【密码产品篇】动态口令系统密钥体系结构(SM3、SM4) 动态口令是一种一次性口令机制,用户无须记忆口令,也无须手工更改口令。口令通过用户持有的客户端器件生成,并基于一定的算法与服务端形成同步,从而作为…...
PDF工具Adobe Arcrobat Pro DC下载安装教程
wx供重浩:创享日记 对话框发送:adobe 免费获取Adobe Arcrobat Pro DC安装包 Acrobat是一款PDF(Portable Document Format,便携式文档格式)编辑软件。借助它,您可以以PDF格式制作和保存你的文档 ,…...
大量从IT培训班出来的程序员们最后都怎样了?
在当今信息时代,IT行业越来越受到人们的关注。越来越多的年轻人选择进入IT行业学习编程技术,而IT培训班也因此应运而生。据统计,在中国,每年约有100万人通过各种途径进入IT行业。其中,通过IT培训班获得技能认证的人数也…...
【论文阅读笔记】Federated Unlearning with Knowledge Distillation
个人阅读笔记,如有错误欢迎指出 Arxiv 2022 [2201.09441] Federated Unlearning with Knowledge Distillation (arxiv.org) 问题: 法律要求客户端有随时要求将其贡献从训练中消除的权利 让全局模型忘记特定客户的贡献的一种简单方法是从头开始对模型进…...
常用MQ介绍与区别
RabbitMQ RabbitMQ是实现AMQP协议(0.9.1) 的消息中间件的一种,由RabbitMQ Technologies Ltd开发并且提供商业支持的,最初起源于金融系统,服务器端用Erlang语言编写,用于在分布式系统中存储转发消息,在易用性、扩展性、…...
今天面试招了个20K的人,从腾讯出来的果然都有两把刷子···
现在找个会自动化测试的人真是难呀,10个里面有8个写了会自动化,但一问就是三不知 公司前段时间缺人,也面了不少测试,前面一开始瞄准的就是中级的水准,也没指望来大牛,提供的薪资在15-20k,面试的…...
加速度传感器的量程估算
下面推导过程中包含一个重要的错误:sinx/x1没有错,但是这里的x是 t,当x t时,位移并非sin(t),而是n*sin(t),我稍後修訂。 在测震动和噪声的场合,现有的加速度传感器,需要客户提供加…...
0601-指针的基础
内存 物理存储器和存储地址空间 物理存储器:实际存在的具体存储器芯片。比如:内存条、RAM芯片、ROM芯片。 存储地址空间:对存储器编码的范围。 编码:对每个物理存储单元(一个字节)分配一个号码寻址&…...
关于K8S库中高可用的锁机制详解
简介 对于无状态的组件来说,天然具备高可用特性,无非就是多开几个副本而已;而对于有状态组件来说,实现高可用则要麻烦很多,一般来说通过选主来达到同一时刻只能有一个组件在处理业务逻辑。 在Kubernetes中,…...
常用中外文献检索网站大盘点
一、常用中文文献检索权威网站: 1、知网:是全球最大的中文数据库。提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书等各类资源,并提供在线阅读和下载服务。涵盖领域包括:基础科学、文史哲、工程科技、社会科学、…...
公司招了一个00后,以为是个小年轻,没想到人家是个卷王...
公司前段缺人,也面了不少测试,结果竟然没有一个合适的。一开始瞄准的就是中级的水准,也没指望来大牛,提供的薪资也不低,面试的人很多,但平均水平很让人失望。 令我印象最深的是一个00后测试员,…...
数字化转型难?怎么转?听听厂商、CIO、CEO怎么说
数字化转型已经成为当今商业领域中的热门话题。对于许多企业来说,数字化转型是一项重要而且必不可少的战略,以适应快速变化的市场环境并保持竞争力。然而,数字化转型并不是一项容易的任务,它涉及到许多方面,需要综合考虑技术、组织和文化等因素。那么,让我们来听听一些厂…...
C++面试题汇总
C面试题汇总 1. new/delete和malloc/free:2. delete和delete[]:3. 常引用:4. overload、override、overwrite的介绍5. C是不是类型安全的?6. main 函数执行以前,还会执行什么代码?7. 数组与指针的区别&…...
OpenAi编写基于Python+OpenCV的人脸识别实现带墨镜效果
要基于Python和OpenCV实现带墨镜效果的人脸识别,你可以按照以下步骤进行操作: 安装所需的库:确保你已经安装了Python和OpenCV库。你可以使用pip命令来安装OpenCV库:pip install opencv-python。 导入必要的库:在Pytho…...
安卓闲谈吹水
一、熟练掌握 Java 语言,面向对象分析设计能力,反射原理,自定义注解及泛型,多次采用设计模式重构项目 首先我们先了解什么是对象。 1.对象是由我们自己定义的类来创建出来的。 2.对象实际上就是类的具体实现。 (对象是类的一个实…...
测试类的使用
1.在pom文件中添加依赖 <dependencies> <dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version><scope>compile</scope> </dependency> </dependencies>2.在s…...
【物联网技术对生活的影响与展望】
随着科技日新月异的发展,物联网(IoT)技术正在快速地影响着我们的生活。它是将各种设备和物品连接在一起,通过互联网使它们可以相互交流和传递数据的技术。它的应用范围广泛,可以涵盖从智能家居到工业网络的各个领域。 …...
ARM 架构 JuiceFS 性能优化:基于 MLPerf 的实践与调优迷
Qt是一个跨平台C图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本笔记将重点介绍QSpinBox数值微调组件的常用方法及灵活应用。…...
WarcraftHelper 2024新版:经典魔兽争霸III兼容性优化工具全指南
WarcraftHelper 2024新版:经典魔兽争霸III兼容性优化工具全指南 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 在现代电脑上重温经典游戏…...
政务帮办新范式:基于检索增强与多智能体协同的智能系统实践
一、引言:政务帮办的挑战与智能化需求 在数字化转型浪潮中,政务服务正从传统的人工办理向智能化帮办演进。然而,当前政务帮办系统普遍存在三类典型问题: 1.1 现有三类系统的局限性 基于预定义规则的传统流程系统 优势:处理标准化业务(如社保基数核定、公积金提取)时表…...
2026年AI Agent客服问答助手知识难题破局
一、前言 许多企业上线的智能问答系统效果不佳,准确率不足70%,问题不在于技术不行,而在于用错了方法。当前系统普遍存在“知识看不懂、上下文记不住、回答靠碰运气”的问题,导致体验差、难落地。 2026年,真正有效的智能…...
Agentic AI 深度解析:当人工智能学会“动手”
从“回答问题”到“完成任务”,Agentic AI 正在重新定义人工智能的边界。它不是“更大的聊天机器人”,而是能够自主规划、调用工具、执行多步任务并持续迭代的智能体系统。一、什么是 Agentic AI?——重新定义“智能” Agentic AI(…...
ARM 架构 JuiceFS 性能优化:基于 MLPerf 的实践与调优卮
Qt是一个跨平台C图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本笔记将重点介绍QSpinBox数值微调组件的常用方法及灵活应用。…...
OpenClaw二次开发:千问3.5-9B接入自定义Python模块
OpenClaw二次开发:千问3.5-9B接入自定义Python模块 1. 为什么需要自定义模块扩展 去年我在尝试用OpenClaw自动化处理公司内部的数据报表时,发现现成的技能市场里没有适配我们内部BI系统的模块。官方提供的通用HTTP请求工具虽然能用,但每次都…...
万象视界灵坛效果展示:浅蓝格点底纹上CLIP文本嵌入的t-SNE降维散点图
万象视界灵坛效果展示:浅蓝格点底纹上CLIP文本嵌入的t-SNE降维散点图 1. 平台概览 万象视界灵坛(Omni-Vision Sanctuary)是一款基于OpenAI CLIP技术的高级多模态智能感知平台。它将复杂的语义对齐过程转化为直观的视觉体验,采用…...
谐振式与耦合式WPT系统中收发线圈的等效电路建模与性能对比
1. 无线能量传输的基本原理 想象一下,你正在给手机充电,但不需要插线,只要把手机放在桌面上就能自动充上电。这种看似科幻的场景,正是无线能量传输(WPT)技术带来的现实。作为从业十多年的工程师,我见证了这个领域从实验…...
如何在不影响员工效率的前提下,彻底杜绝Web威胁?
在数字化转型的浪潮中,浏览器早已从一个简单的网页浏览工具,演变为企业业务运转的核心枢纽。无论是访问云应用、处理内部系统,还是与客户协作,几乎每项工作都离不开它。然而,正是这种无处不在的依赖,让浏览…...
