机器学习笔记:李宏毅chatgpt 大模型 大资料
1 大模型
1.1 大模型的顿悟时刻
Emergent Abilities of Large Language Models,Transactions on Machine Learning Research 2022
模型的效果不是随着模型参数量变多而慢慢变好,而是在某一个瞬间,模型“顿悟”了

这边举的一个例子是,比如让模型回答鸡兔同笼问题
- 一开始小模型什么都学不到,故而效果不好
- 随着模型参数量增大,模型慢慢地会一定地推导了,但是还是得不到正确的推导结果——此时仍然不得分
- 只有当参数量达到某一个数值之后,不仅会推导,还得到了正确的答案
- ——>此时才得分
1.2 inverse scaling prize? U shape
Inverse scaling can become U-shaped 2022
大部分任务是随着模型的变大,效果越来越好,那么有没有某些任务/问题,是模型变大效果反而变差的呢?
答案是有的,这里列了一些:
但是,真的是模型参数量变大模型表现反而不好嘛?
于是这篇论文进一步扩大模型参数量,发现模型表现跌到一定程度后,还是会涨精度
——>在这些任务中,performace 和参数量的关系是U shape的
而这种带Ushape的任务,这篇论文认为,大多数是“带陷阱(干扰项)”的问题。当模型稍微获得一点能力的时候,就很有可能陷入这个陷阱中。但模型参数量进一步扩大,就会知道这是个“陷阱”,从而找到正确的答案
2 大资料
2.1 两种认知
When Do You Need Billions of Words of Pretraining Data? 2020

语言模型一般需要两种认知
- 一种是对语言本身语法、文法的认知(深蓝色曲线)
- 这一部分不需要很多的语料,有一些资料供学习就够了
- 另一种是对语言背后世界运行规律的认知
- 这一部分就需要大量的语料喂入了
2.2 数据处理

- 过滤有害内容(比如黄色、暴力的内容)
- 去除HTML tag
- 从网站上爬资料的话,会有很多无用的HTML 语言
- 但是也不是所有的HTML tag都去掉,会保留一些如换行符等有用的知识
- quality filtering
- 在论文中有详细的规则,介绍了如何去除低品质资料
- 去除重复资料
- 后面会有论文专门说重复资料的影响
- test-set filter
- 需要把用来测试的那一部分语料去掉,不然就相当于提前学了这一部分内容,导致测试结果不准
2.3 重复数据的影响
- 比如如上的语料库中,中间这一段话出现了6W多次
- 我们分不同的层级,去除掉语料库中重复的部分,然后喂入语言模型,让语言模型随便说一段话。
- 将这一段话和语料库进行对比,看看模型是学习了语料库中的内容,生成了新的语句,还是仅仅死记硬背了语料库中的内容
- 表格中的数字就是有多少比例生成的语句是和语料库中的语句极为相似
- 可以发现如果语料库中重复的语句过多,机器很容易直接复述之前的内容
2.4 固定的计算资源下,应该更大的模型,还是更多的资料?
Training Compute-Optimal Large Language Models 2022
- 每一条虚线都表示具有相同的运算资源
- 纵轴表示预测的效果(Loss),越小表示预测的越好
- 横轴表示模型参数量
- 可以看到 小模型大资料 和 大模型小资料 效果都不如一个折衷的配置
- 小模型大资料:看了很多资料, 但是不学习(学而不思)
- 大模型小资料:思而不学
- 于是论文把所有计算资源配置下的,各个U型曲线的最低点找到,然后进行外推
- 得到一个和Gopher计算资源一样的情况下,模型参数和资料的最佳配置组合(命名为Chinchilla)
可以发现Chinchilla几乎完胜
相关文章:
机器学习笔记:李宏毅chatgpt 大模型 大资料
1 大模型 1.1 大模型的顿悟时刻 Emergent Abilities of Large Language Models,Transactions on Machine Learning Research 2022 模型的效果不是随着模型参数量变多而慢慢变好,而是在某一个瞬间,模型“顿悟”了 这边举的一个例子是&#…...
2023年中国智慧公安行业发展现况及发展趋势分析:数据化建设的覆盖范围不断扩大[图]
智慧公安基于互联网、物联网、云计算、智能引擎、视频技术、数据挖掘、知识管理为技术支撑,公安信息化为核心,通过互联互通、物联化、智能方式促进公安系统各功能模块的高度集成、协同作战实现警务信息化“强度整合、高度共享、深度应用”警察发展的新概…...
Apache Dubbo概述
一、课程目标 1. 【了解】软件架构的演进过程 2. 【理解】什么是RPC 3. 【掌握】Dubbo架构 4. 【理解】注册中心Zookeeper 5. 【掌握】Zookeeper的安装和使用 6. 【掌握】Dubbo入门程序 7. 【掌握】Dubbo管理控制台的安装和使用 8. 【理解】Dubbo配置二、分布式RPC框架Apache …...
React UI组件库
1 流行的开源React UI组件库 1 material-ui(国外) 官网: Material UI: React components based on Material Design github: GitHub - mui/material-ui: MUI Core: Ready-to-use foundational React components, free forever. It includes Material UI, which implements Go…...
计算机科学的伟大变革:从机械计算到人工智能
摘要 计算机科学作为一门学科,经历了几十年的发展和演变。本论文旨在探讨计算机科学领域的伟大变革,从最早的机械计算设备到如今的人工智能系统。通过回顾历史、分析技术进步以及展望未来,我们可以清晰地看到计算机科学如何塑造了现代社会&a…...
微服务详解
微服务 什么是微服务? 微:单个服务的设计,所有参与人从设计、开发、测试、运维所有人加起来只需要两个披萨就够了 服务:一定要区别于系统,服务一个或者一组相对较小且独立的功能单元,是用户可以感知的最…...
Python爬虫的requests(学习于b站尚硅谷)
目录 一、requests 1. requests的基本使用 (1)文档 (2)安装 (3)响应response的属性以及类型 (4)代码演示 2.requests之get请求 3. requests之post请求 &#x…...
PHP最简单自定义自己的框架view使用引入smarty(8)--自定义的框架完成
1、实现效果。引入smarty, 实现assign和 display 2、下载smarty,创建缓存目录cache和扩展extend 点击下面查看具体下载使用,下载改名后放到extend PHP之Smarty使用以及框架display和assign原理_PHP隔壁老王邻居的博客-CSDN博客 3、当前控…...
字符串的常用操作
1.拼接字符串 使用运算符""可以对多个字符串进行拼接将几个字符串拼成一个字符串。 2.计算字符串的长度 使用len()函数计算字符串的长度 len(string) 其中string用于指定要进行长度统计的字符串。 3.截取字符串 由于字符串也属于序列,所以要截取字…...
开启想象翅膀:轻松实现文本生成模型的创作应用,支持LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型,开箱即用
开启想象翅膀:轻松实现文本生成模型的创作应用,支持LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型,开箱即用 TextGen: Implementation of Text Generation models 1.介绍 TextGen实现了多种文本生成模型,包括&a…...
文心一言 VS 讯飞星火 VS chatgpt (74)-- 算法导论7.2 2题
二、如果用go语言,当数组A的所有元素都具有相同值时,QUICKSORT的时间复杂度是什么? 文心一言: 在Go语言中,对一个所有元素都相等的数组进行快速排序(QuickSort)的时间复杂度是O(n log n)。 快速排序是一…...
大数据第二阶段测试
大数据第二阶段测试 一、简答题 Flume 采集使用上下游的好处是什么? 参考答案一 -上游和下游可以实现解耦,上游不需要关心下游的处理逻辑,下游不需要关心上游的数据源。 -上游和下游可以并行处理,提高整体处理效率。 -可以实现…...
06 为什么需要多线程;多线程的优缺点;程序 进程 线程之间的关系;进程和线程之间的区别
为什么需要多线程 CPU、内存、IO之间的性能差异巨大多核心CPU的发展线程的本质是增加一个可以执行代码工人 多线程的优点 多个执行流,并行执行。(多个工人,干不一样的活) 多线程的缺点 上下文切换慢,切换上下文典型值…...
datax-web报错收集
在查看datax时发现日志出现了如上错误,因为项目是部署在本地linux虚拟机上的,使用的是nat网络地址转换,不知道为什么虚拟机的端口号发生了变化,导致数据库根本连接不进去,更新linux虚拟机的ip地址就好...
YOLO相关原理(文件结构、视频检测等)
超参数进化(hyperparameter evolution) 超参数进化是一种使用了genetic algorithm(GA)遗传算法进行超参数优化的一种方法。 YOLOv5的文件结构 images文件夹内的文件和labels中的文件存在一一对应关系 激活函数:非线性处理单元 activation f…...
深入解析Spring Boot的核心特性与示例代码
系列文章目录 文章目录 系列文章目录前言一、自动配置(Auto-Configuration)二、起步依赖(Starter Dependencies)三、命令行界面(CLI)四、微服务支持五、内嵌Web服务器六、配置文件管理七、简化的日志配置八、健康检查与监控九、注解驱动开发十、外部化配置总结前言 Spri…...
什么是Java中的观察者模式?
Java中的观察者模式是一种设计模式,它允许一个对象在状态发生改变时通知它的所有观察者。这种模式在许多情况下都非常有用,例如在用户界面中,当用户与界面交互时,可能需要通知其他对象。 下面是一个简单的Java代码示例࿰…...
无涯教程-Perl - endhostent函数
描述 此函数告诉系统您不再希望使用gethostent从hosts文件读取条目。 语法 以下是此函数的简单语法- endhostent返回值 此函数不返回任何值。 例 以下是显示其基本用法的示例代码- #!/usr/bin/perlwhile( ($name, $aliases, $addrtype, $length, addrs)gethostent() ) …...
Vue2使用easyplayer
说一下easyplayer在vue2中的使用,vue3中没测试,估计应该差不多,大家可自行验证。 安装: pnpm i easydarwin/easyplayer 组件封装 习惯性将其封装为单独的组件 <template><div class"EasyPlayer"><e…...
Map映射学习
一、Map的遍历 创建Map集合 Map<String, Integer> map new HashMap<>();添加元素 map.put("java", 99);map.put("c", 88);map.put("c", 93);map.put("python", 96);map.put("Go", 88); 遍历方法: …...
GD32定时器时钟源配置避坑指南:为什么你的定时时间总是不对?
GD32定时器时钟源配置避坑指南:为什么你的定时时间总是不对? 在嵌入式开发中,精确的定时控制是许多功能实现的基础。然而,不少开发者在初次接触GD32系列MCU的定时器时,常常会遇到一个令人困惑的问题:明明按…...
英雄联盟客户端个性化定制:5分钟打造你的专属游戏界面
英雄联盟客户端个性化定制:5分钟打造你的专属游戏界面 【免费下载链接】LeaguePrank 项目地址: https://gitcode.com/gh_mirrors/le/LeaguePrank 还在为英雄联盟客户端千篇一律的界面感到乏味吗?想让你的游戏资料页和在线状态展现独特个性吗&…...
闲鱼自动化采集系统实战指南:智能监控与精准推送解决方案
闲鱼自动化采集系统实战指南:智能监控与精准推送解决方案 【免费下载链接】idlefish_xianyu_spider-crawler-sender 闲鱼自动抓取/筛选/发送系统,xianyu spider crawler blablabla 项目地址: https://gitcode.com/gh_mirrors/id/idlefish_xianyu_spide…...
Keras实现带注意力机制的编码器-解码器模型实战
1. 从零构建带注意力机制的编码器-解码器模型三年前我第一次尝试用Keras实现带注意力机制的序列到序列模型时,被各种维度不匹配的错误折磨得够呛。这种架构在机器翻译、文本摘要等任务中表现出色,但实现细节中的坑比想象中多得多。本文将分享我从实战中总…...
papers-notebook快速入门:10分钟学会构建自己的论文阅读笔记系统
papers-notebook快速入门:10分钟学会构建自己的论文阅读笔记系统 【免费下载链接】papers-notebook :page_facing_up: :cn: :page_with_curl: 论文阅读笔记(分布式系统、虚拟化、机器学习)Papers Notebook (Distributed System, Virtualizati…...
Real Anime Z开源价值解读:Z-Image底座+Real Anime Z微调的协同优势
Real Anime Z开源价值解读:Z-Image底座Real Anime Z微调的协同优势 1. 项目核心价值 Real Anime Z是一款基于阿里云通义Z-Image底座模型与Real Anime Z专属微调权重开发的高精度二次元图像生成工具。它专为真实系二次元风格优化,通过创新的技术方案解决…...
视频孪生,镜像视界先行
视频孪生,镜像视界先行标杆技术,标杆案例在数字孪生高速迭代的时代,视频孪生已成为行业主流落地形态。 告别虚拟建模的伪孪生内卷,实景化、空间化、实战化成为核心趋势, 镜像视界前瞻布局、持续领跑,做到技…...
5个强大Python库提升机器学习数据可视化效果
1. 机器学习数据可视化的新选择:5个小众但强大的Python库 在数据科学和机器学习项目中,可视化不仅是展示结果的工具,更是讲述数据故事的关键语言。虽然Matplotlib和Seaborn已经成为行业标配,但当我需要制作更具表现力的可视化效果…...
Java并发编程实战-CompletableFuture异步编排优化聚合接口性能
1. 为什么需要异步编排优化聚合接口 在电商、社交等互联网应用中,聚合接口是非常常见的场景。比如一个用户中心页面,需要展示用户基本信息、订单列表、优惠券数量、积分余额等多个维度的数据。传统的做法可能是串行调用多个服务接口,先查用户…...
Java并发编程编程真的很难学吗?
提到并发编程很多人就会头疼了;首先就是一些基础概念:并发,并行,同步,异步,临界区,阻塞,非阻塞还有各种锁全都砸你脸上,随之而来的就是要保证程序运行时关键数据在多线程…...







