当前位置: 首页 > news >正文

语言模型发展史

四个阶段

第一阶段:基于规则和统计的语言模型

由人工设计特征并使用统计方法对固定长度的文本窗口序列进行建模分析,这种建模方式也被称为N-gram语言模型

优点:

1)采用极大似然估计, 参数易训练
2)完全包含了前n-1个词的全部信息
3)可解释性强, 直观易理解

缺点:

1)只能建模到前n-1个词
2)随着n的增大,参数空间呈指数增长
3)数据稀疏,难免会出现OOV问题
4)泛化能力差 

第二阶段:神经网络语言模型 

基于N-gram语言模型以上的问题,以及随着神经网络技术的发展,人们开始尝试使用神经网络来建立语言模型。

优点:

1)相比 n-gram 具有更好的泛化能力
2)降低了数据稀疏带来的问题

缺点:

1)对长序列的建模能力有限
2)可能会出现梯度消失等问题

第三阶段:预训练语言模型

基于Transformer的预训练模型:包括GPT、BERT、T5等。这些模型能够从大规模通用文本数据中学习大量的语言表示,并将这些知识运用到下游任务中,获得较好的效果。

预训练:在大规模数据集上事先训练神经网络模型,使其学习到通用的特征表示和知识

微调:在具体的下游任务中使用预训练好的模型进行迁移学习,以获取更好的泛化

优点:

更强大的泛化能力,丰富的语义表示,可以有效防止过拟合。


缺点:

计算资源需求大,可解释性差等

第四阶段:大语言模型

随着预训练模型Transformer参数的指数级提升,其语言模型性能也会线性上升。2020年,OpenAI发布了参数量高达1750亿的GPT-3,首次展示了大语言模型的性能。(Transformer+大量参数)

Meta公司的LLaMA-13B模型以及谷歌公司的PaLM-540B

国内如百度推出的文心一言ERNIE系列、清华大学团队推出的GLM等等

优点:

像“人类”一样智能,具备了能与人类沟通聊天的能力,甚至具备了使用插件进行自动信息检索的能力
缺点:

参数量大,算力要求高、训练时间长、可能生成部分有害的、有偏见的内容等等 

相关文章:

语言模型发展史

四个阶段 第一阶段:基于规则和统计的语言模型 由人工设计特征并使用统计方法对固定长度的文本窗口序列进行建模分析,这种建模方式也被称为N-gram语言模型。 优点: 1)采用极大似然估计, 参数易训练 2)完全包含了前n-…...

【Linux】模拟实现一个shell

接受每一个人的批评,可是保留你自己的判断。 ——莎士比亚 一段时间的没有更新是由于最近开学期间比较的忙,同时也是由于刚开学的几门课才学习的时候有点迷糊,需要在学校课堂上花的时间更多了,所以才没有更新的,求放过…...

云原生数据库 PolarDB

简介:云原生数据库 PolarDB 是阿里云自研产品,在存储计算分离架构下,利用了软硬件结合的优势,为用户提供秒级弹性、高性能、海量存储、安全可靠的数据库服务。100%兼容MySQL和PostgreSQL生态,支持分布式扩展&#xff0…...

MobaXterm基本使用 -- 服务器状态、批量操作、显示/切换中文字体、修复zsh按键失灵

监控服务器资源 参考网址:https://www.cnblogs.com/144823836yj/p/12126314.html 显示效果 MobaXterm提供有这项功能,在会话窗口底部,显示服务器资源使用情况 如内存、CPU、网速、磁盘使用等: (完整窗口&#xff0…...

elastic Search 初步之向量检索的数据写入及检索查询

### Elasticsearch 向量检索实现方法方案 Elasticsearch 从 7.3 版本开始引入了向量检索功能,支持通过向量字段进行相似度搜索。以下是实现向量检索的步骤和方案,包括 Python 和 Java 版本的代码示例。 #### 1. 最低实现向量检索的 ES 版本 - **最低版本**: Elasticsearch …...

Tdesign TreeSelect 树形选择 多选

这里写自定义目录标题 小程序原生开发 Tdesign TreeSelect 树形选择 多选可以选择不同一级分类下的数据 小程序原生开发 Tdesign TreeSelect 树形选择 多选可以选择不同一级分类下的数据 TreeSelect 树形选择 在原demo基础上修改 const chineseNumber 一二三四五六七八九十.…...

Pygame中Sprite实现逃亡游戏5

在《Pygame中Sprite实现逃亡游戏4》中通过碰撞检测实现了玩家、飞龙与飞火之间的碰撞处理,基本上实现了逃亡功能。最后,实现这个逃亡游戏中文字提示的功能。 1 操作提示 当进入游戏后,会在玩家下方的位置给出操作提示,如图1所示…...

等保2.0数据库测评之达梦数据库测评

一、达梦数据库介绍 达梦数据库管理系统属于新一代大型通用关系型数据库,全面支持 ANSI SQL 标准和主流编程语言接口/开发框架。行列融合存储技术,在兼顾 OLAP 和 OLTP 的同时,满足 HTAP 混合应用场景。 本次安装环境为Windows10专业版操作…...

集成mcuboot后测试和验证的方法

本文介绍一些在实际项目中集成的 MCUboot后测试和验证的方法和步骤: 功能测试 启动测试 正常启动验证 : 多次上电启动设备,观察 MCUboot 是否能够正常加载并跳转到应用程序。检查启动过程中的日志输出(如果有)&#…...

Vulhub zico 2靶机详解

项目地址 https://download.vulnhub.com/zico/zico2.ova实验过程 将下载好的靶机导入到VMware中,设置网络模式为NAT模式,然后开启靶机虚拟机 使用nmap进行主机发现,获取靶机IP地址 nmap 192.168.47.1-254根据对比可知Zico 2的一个ip地址为…...

宠物医院微信小程序源码

文章目录 前言研究背景研究内容一、主要技术?二、项目内容1.整体介绍(示范)2.系统分析3.数据表信息4.运行截图5.部分代码介绍 总结 前言 随着当代社会科技的迅速发展,计算机网络时代正式拉来帷幕,它颠覆性的影响着社会…...

[教程]Crystal源码下载及编译

描述: 随着 Crystal Source 代码的更新,用于构建源代码和编译它们的指南已经过时,这导致了很多混淆和寻求帮助。 本指南将是一个完整的分步指南,从下载 Visual Studio 到启动到您的服务器。 此外,请确保下载此存储库中…...

【Android 14源码分析】WMS-窗口显示-流程概览与应用端流程分析

忽然有一天,我想要做一件事:去代码中去验证那些曾经被“灌输”的理论。                                                                                  – 服装…...

双指针---(部分地更新)

双指针 复写零 给你一个长度固定的整数数组 arr ,请你将该数组中出现的每个零都复写一遍,并将其余的元素向右平移。 注意:请不要在超过该数组长度的位置写入元素。请对输入的数组 就地 进行上述修改,不要从函数返回任何东西。 …...

【Windows】自定义显示器的分辨率

背景 由于本人更新驱动导致2个显示器里面,有一个显示器的分辨率只剩下2个可以调节 这样就导致2个显示器分辨率不同,更新了多次驱动都修复不了,所以想着看能不能自定义分辨率 工具下载 显示器自定义分辨率工具 或者百度搜索 Custom Resolu…...

组播基础-2-IGMP协议

文章目录 IGMPIGMPv1IGMPv2IGMPv3IGMP总结IGMP Snooping IGMP 运行于主机和路由器之间 因特网组管理协议,TCP/IP 协议族中负责 IP 组播成员管理的协议,用来在接收者与其他直接相邻的组播路由器之间建立、维护组播组成员关系 负责组播成员管理&#xf…...

基于Springboot+Vue的视频点播系统设计与实现登录 (含源码数据库)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 系统中…...

执行力怎么培养?

执行力怎么培养? 并行:适合在初期养成习惯,不抱对结果的期望天才就是强迫症:适合中期修身:适合高级 并行:适合在初期养成习惯,不抱对结果的期望 在你开始做任何事情的时候,不要一开…...

Power apps:一次提交多项申请

1、添加一个Form,导入sharepoint列表,添加确认,继续,取消按钮 2、在页面的onvisible属性中添加 Set(applynumber,Last(付款申请表).申请编号1); #定义一个申请编号变量,每次申请,就将列表最后一个…...

Oracle数据库物理结构操作管理

实验步骤 (1)查询数据库初始化参数中参数名包含sga的参数的名称、值和描述信息。 SQL> select name,value,description from V$PARAMETER where name like %sga%; (2)设置sga_max_size的大小为1G SQL> alter system set sg…...

Python调用SM9遭遇“Unknown curve”?紧急修复手册:从OpenSSL 3.0.7到国密SM9曲线OID映射全对照

第一章:Python调用SM9遭遇“Unknown curve”问题的根源定位当使用 Python(如通过 cryptography 或 gmssl 库)实现国密 SM9 算法时,常见报错 ValueError: Unknown curve 并非源于椭圆曲线参数缺失,而是因底层密码学库未…...

Qwen3-0.6B-FP8效果展示:用‘把这篇技术博客改写成适合小学生理解的版本’实测简化能力

Qwen3-0.6B-FP8效果展示:用‘把这篇技术博客改写成适合小学生理解的版本’实测简化能力 1. 引言:当大模型遇上“小学生”挑战 想象一下,你面前有一篇满是专业术语、复杂逻辑的技术文章,现在需要把它讲给一个小学三年级的孩子听&…...

如何优雅取消HTTP请求:async-http-client资源清理终极指南

如何优雅取消HTTP请求:async-http-client资源清理终极指南 【免费下载链接】async-http-client Asynchronous Http and WebSocket Client library for Java 项目地址: https://gitcode.com/gh_mirrors/as/async-http-client 在Java异步编程中,高…...

使用Docker部署Qwen3-TTS语音生成服务

使用Docker部署Qwen3-TTS语音生成服务 1. 引言 语音合成技术正在改变我们与机器交互的方式,而Qwen3-TTS作为开源领域的佼佼者,提供了高质量的语音生成能力。传统的部署方式往往需要复杂的环境配置和依赖安装,这让很多开发者望而却步。 Doc…...

EzArduino:面向初学者的Arduino面向对象封装库

1. EzArduino 库概述:面向嵌入式初学者的面向对象 Arduino 抽象层EzArduino 是一个专为 Arduino 平台设计的轻量级 C 封装库,其核心目标是降低硬件交互门槛、提升代码可读性与可维护性。它并非替代 Arduino Core 的底层实现,而是在Arduino.h基…...

嵌入式系统开发核心技术解析与实践

嵌入式系统开发核心技术专题1. 嵌入式开发基础体系1.1 C语言核心要点在嵌入式开发中,C语言作为最接近硬件的编程语言,需要掌握以下关键技术点:指针深度应用:包括函数指针、回调函数实现、内存操作等核心概念内存管理机制&#xff…...

1746-NR4电阻模拟输入

1746-NR4 模拟输入模块(电阻输入)特点由 Allen-Bradley 生产,属于 SLC 500 系列类型为 模拟输入模块,专门用于电阻信号采集提供 4 路独立输入通道支持热电偶、RTD(热电阻)及其他电阻传感器输入精度高&#…...

MOS管技术详解:从基础到工程应用

MOS管技术详解:从基础原理到工程应用1. MOS管基础概念与分类1.1 场效应管基本类型场效应管(FET)主要分为两大类型:结型场效应管(JFET):Junction Field-Effect Transistor金属氧化物半导体场效应管(MOSFET):Metal-Oxide-Semiconduc…...

BIM动画进了数字孪生就“瘫了”?一招破解模型迁移死局

作为一名深耕建筑、工程与施工(AEC)领域的设计师或工程师 是否曾经历过这样的困境: 在Revit、Fuzor、Navisworks、Lumion或BIM FILM等专业软件中 耗费大量心血构建了高精度建筑信息模型(BIM) 并为其赋予了复杂的施工模…...

别让AI被‘带坏’:手把手教你用开源工具复现大模型越狱攻击(附防御实战)

大模型安全攻防实战:从开源工具复现到防御策略部署 当ChatGPT在2022年底掀起AI浪潮时,很少有人预料到三年后的大模型会面临如此复杂的对抗攻击。作为一名长期从事AI安全测试的工程师,我亲眼见证了攻击手段从最初的简单提示注入发展到如今的神…...