当前位置: 首页 > news >正文

Datawhale AI冬令营(第一期)--零基础定制你的专属大模型

本文主要简述如何快速完成和一些小细节

第一步下载嬛嬛数据集

数据来源:self-llm/dataset/huanhuan.json at master · datawhalechina/self-llm · GitHub

注意:1.一定是数据集下载完成一定是.json结尾的

        2.这个是github的网址,可能会遇到打不开的情况

如果打不开这个网址直接点击下载这个压缩包,记得下载完要解压缩并且解压缩的位置要记住

(如果这一步不会可以联系助教,或者学习群里的同学)

第二步打开星火大模型平台

废话不多说直接上链接:星火大模型精调平台

这里有很多种方式登入,手机快捷是最简单的方式之一。

登入成功你将看到下面这个界面

如果到这一步,那么你已经迈出成功的第二步了。可能会问怎么是第二步,因为下载数据集被我放到上面跟学习手册顺序不一样。

第三步定制专属嬛嬛大模型

下面只需要按图片的步骤来,如果遇到不懂的截图问助教(ps:截多一点)

这里是推荐这个模型也可以换别的,别的可能再后面会遇到一些小问题小白请按照图上的来

这时候就会有同学问”怎么找不到这个界面“是下面这个界面。我当时也卡了一下,发现往下拉一下就好了。(因为我真的很粗心的)

这里可以直接拖进去,如果拖不进去看看是不是哪里没做好。为了节省时间选择文件也是OK的。

下面两个图其实是可以调整的,新手宝宝真的不建议动,直接默认就好。

这里可以看见是免费的,不需要担心收费的问题。点击提交即可开始我们的炼丹之旅。

Q:这样就结束了吗?

A:肯定不是的,学习手册还有那么长。趁现在还在训练,我们需要创建一个应用。具体有什么用后面你就知道了。

第四步创建应用

点击这个链接:控制台-讯飞开放平台

可以到讯飞的另外一个平台,之前那个不要关掉一会儿还要用到!!!

如果之前有用过的,就不要关这个了。完成就回到刚刚那个界面,一般是10分钟左右,明显还要一会儿。

等这个跑满了就可以开始发布的工作

有时候看不到这个体验,就点击服务管理,下面我举个例子:

可以看见还在发布中,稍微等一下就是下面这个界面就可以开始体验了

(这里不是说internlm2.5 7b chat不好,是举个发布中的例子)

第五步体验AI嬛嬛

下面我们开启体验之旅:

这里我们要感谢一下晏助教大大提供的思路,给大家展示一下:

如果有细心的小伙伴就会发现这个八个瑞士卷的问题(还没看直播的快去看看回放)

如果出现bug请及时联系助教,下面展示几种BUG:

可以试一下重新训练,或者退出重新登入

打卡

然后就到了我们最重要的打卡环节了(这里想必看过群公告和学习手册的小伙伴都懂)

对学习手册的问题这里简单的回答一下(仅代表个人观点)

对于这个练习题,关于'嬛嬛数据集'采用的Alpaca格式,我们可以逐一分析选项:

  1. 数据集中instruction字段可以为空,因为有些任务不需要指令
    这个说法是正确的。在Alpaca格式的数据集中,instruction字段通常包含一个简短的任务说明或指令。然而,并不是所有的任务都需要明确的指令,因此在某些任务中,instruction字段是可以为空的。

  2. input字段必须包含具体的输入内容,否则数据集无效
    这个说法是错误的。Alpaca格式并没有强制要求input字段必须包含具体内容。有些任务可能没有输入,或者input字段可以为空,特别是在开放式任务中。

  3. output字段是可选的,不是所有样本都需要标准答案
    这个说法是正确的。Alpaca格式允许output字段是可选的。对于一些任务,输出可能是开放的,或者在某些情况下没有标准答案。

  4. input字段在开放式任务中可以为空字符串,这是格式允许的
    这个说法是正确的。对于开放式任务(如生成文本的任务),input字段可以为空字符串,因为开放式任务通常不依赖于特定的输入内容。

综上所述,正确的选项是:

  • instruction字段可以为空,因为有些任务不需要指令
  • output字段是可选的,不是所有样本都需要标准答案
  • input字段在开放式任务中可以为空字符串,这是格式允许的

思考题:

Q:AI是什么?

A:AI(人工智能)是指通过模拟人类的思维、学习、决策等过程,使计算机或机器能够执行通常需要人类智能的任务。AI的目标是让机器具备感知、理解、学习、推理、问题解决等能力,从而在不同的领域(如语音识别、图像处理、自然语言处理等)中自动化执行任务。

最后感谢12的小伙伴一起的努力,感谢Datawhale AI冬令营和讯飞提供宝贵的学习机会,以及Datawhale团队。

感觉无代码训练大模型还是很轻松的,希望大家都能得到想要的收获!

最后晒一下12班的优秀成绩,如果有什么不对的希望指正,谢谢!

相关文章:

Datawhale AI冬令营(第一期)--零基础定制你的专属大模型

本文主要简述如何快速完成和一些小细节 第一步下载嬛嬛数据集 数据来源:self-llm/dataset/huanhuan.json at master datawhalechina/self-llm GitHub 注意:1.一定是数据集下载完成一定是.json结尾的 2.这个是github的网址,可能会遇到打不开的情况 …...

LLMs之APE:基于Claude的Prompt Improver的简介、使用方法、案例应用之详细攻略

LLMs之APE:基于Claude的Prompt Improver的简介、使用方法、案例应用之详细攻略 目录 Prompt Improver的简介 0、背景痛点 1、优势 2、实现思路 Prompt优化 示例管理 提示词评估 Prompt Improver的使用方法 1、使用方法 Prompt Improver的案例应用 1、Kap…...

【Unity人形布娃娃插件】Ragdoll Animator

Ragdoll Animator 是一款为 Unity 引擎开发的插件,专注于让角色在运行时动态地切换到布娃娃物理系统(Ragdoll Physics)。该插件帮助开发者轻松创建逼真的角色动画过渡效果,尤其适用于需要角色碰撞、摔倒、受击或其他物理反应的场景…...

跨团队协作中目标一致性至关重要

在团队协作的复杂拼图里,目标一致性是那根贯穿始终的主线,缺之则拼图难成,团队亦难达预期之效。 且看这样一个实例:部门承接了业务方一项紧急的数据处理需求,此任务犹如一座亟待攀登的险峰,落在了 A 团队…...

Excel的文件导入遇到大文件时

Excel的文件导入向导如何把已导入数据排除 入起始行,选择从哪一行开始导入。 比如,前两行已经导入了,第二次导入的时候排除前两行,从第三行开始,就将导入起始行设置为3即可,且不勾选含标题行。 但遇到大文…...

使用字典进行动态编程

在你的程序中,你想要执行各种计算,例如计算卫星的总数。 此外,当你进行更高级的编程时,你可能会发现你需要从文件或数据库中加载此类信息,而不是直接编码到 Python 中。 为了帮助支持这些场景,Python 使你…...

机器学习02-发展历史补充

机器学习02-发展历史补充 文章目录 机器学习02-发展历史补充1-机器学习个人理解1-初始阶段:统计学习和模式识别(20世纪50年代至80年代)2-第二阶段【集成时代】【核方法】(20世纪90年代至2000年代初期)3-第三阶段【特征…...

全国青少年信息学奥林匹克竞赛(信奥赛)备考实战之计数器与累加器(一)

学习背景: 在现实生活中一些需要计数的场景下我们会用到计数器,如空姐手里记录乘客的计数器,跳绳手柄上的计数器等。累加器是累加器求和,以得到最后的结果。计数器和累加器它们虽然是基础知识,但是应用广泛&#xff0…...

Android的SurfaceView和TextureView介绍

文章目录 前言一、什么是SurfaceView ?1.1 SurfaceView 使用示例1.2 SurfaceView 源码概述1.3 SurfaceView 的构造与初始化1.4 SurfaceHolder.Callback 回调接口1.5 SurfaceView 渲染机制 二、什么是TextureView?2.1 TextureView 使用示例2.2 TextureVie…...

Scala的集合

1 集合简介 1)Scala 的集合有三大类:序列 Seq、集 Set、映射 Map,所有的集合都扩展自 Iterable 特质。 2)对于几乎所有的集合类,Scala 都同时提供了可变和不可变的版本,分别位于以下两 个包 不可变集合&am…...

1. Flink自定义Source

一. Source 简介 DataStream是Flink的低级API,用于进行数据的实时处理,Flink编程模型分为Source、Transformation、Sink三个部分,如下图所示。 默认Flink提供了大量的内置Source,常见的Source如下: 基于文件的Sour…...

关于LinuxWindows双系统在八月更新后出现的问题

问题描述类似于:Verifying shim SBAT data failed: If you are, this is caused by a reported problem in the August update if you can get into Windows, either uninstall the August update, or open Command Prompt as administrator and run this command,…...

VMware:如何在CentOS7上开启22端口

打开虚拟机:【编辑】【虚拟机网络设置】 其中填入的虚拟机IP地址是虚拟机中centos的IP地址,虚拟机端口为需要映射的centos端口 配置好之后保存,打开宿主机 win cmd telnet 192.168.1.26 22 如果出现上述窗口,则说明已经成功开放…...

ubuntu远程桌面开启opengl渲染权限

背景 最近用windows的【远程桌面连接】登录ubuntu后(xrdp协议),发现gl环境是集显的,但是本地登录ubuntu桌面后是独显(英伟达),想要在远程桌面上也用独显渲染环境。 一、查看是独显还是集显环境…...

从小学题到技术选型哲学:以智能客服系统为例,解读相关AI技术栈20241211

🧠💡从小学题到技术选型哲学:以智能客服系统为例,解读相关AI技术栈 引言:从小学数学题到技术智慧 📚✨ 在小学数学题中,有这样一道问题: “一个长方形变成平行四边形后&#xff0c…...

【C语言练习(5)—回文数判断】

C语言练习(5) 文章目录 C语言练习(5)前言问题问题解析结果总结 前言 通过回文数练习,巩固数字取余和取商如何写代码 问题 输入一个五位数判断是否为回文数? 问题解析 回文数是指正读反读都一样的整数。…...

【Rust 学习笔记】Rust 基础数据类型介绍——数组、向量和切片

博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持! 博主链接 博客内容主要围绕: 5G/6G协议讲解 高级C语言讲解 Rust语言讲解 文章目录 Rust 基础数据类型介绍——数组、向量和切片一、数组、向量和…...

2024年特别报告,「十大生活方式」研究数据报告

“一朵花成轻奢品、一只玩偶掀抢购狂潮、一片荒地变文旅圣地…” 近年爆火的野兽派、Jellycat、阿那亚等诸多品牌,与消费者选择的生活方式息息相关。 今年小红书的内容种草、直播电商,也都依循着“生活方式”的轨迹。生活方式的价值所向,可…...

R中单细胞RNA-seq分析教程 (5)

引言 本系列开启R中单细胞RNA-seq数据分析教程[1],持续更新,欢迎关注,转发! 10. 伪时间细胞排序 如前所述,在 UMAP 嵌入中看到的背侧端脑细胞形成的类似轨迹的结构,很可能代表了背侧端脑兴奋性神经元的分化…...

openpnp - Too many misdetects - retry and verify fiducial/nozzle tip detection

文章目录 openpnp - Too many misdetects - retry and verify fiducial/nozzle tip detection概述笔记环境光最好弱一些在设备标定时,吸嘴上不要装绿色屏蔽片如果吸嘴不在底部相机中间,先检查设置底部相机坐标调整底部相机坐标 吸嘴校验的细节底部相机坐…...

idea大量爆红问题解决

问题描述 在学习和工作中,idea是程序员不可缺少的一个工具,但是突然在有些时候就会出现大量爆红的问题,发现无法跳转,无论是关机重启或者是替换root都无法解决 就是如上所展示的问题,但是程序依然可以启动。 问题解决…...

ES6从入门到精通:前言

ES6简介 ES6(ECMAScript 2015)是JavaScript语言的重大更新,引入了许多新特性,包括语法糖、新数据类型、模块化支持等,显著提升了开发效率和代码可维护性。 核心知识点概览 变量声明 let 和 const 取代 var&#xf…...

VM虚拟机网络配置(ubuntu24桥接模式):配置静态IP

编辑-虚拟网络编辑器-更改设置 选择桥接模式,然后找到相应的网卡(可以查看自己本机的网络连接) windows连接的网络点击查看属性 编辑虚拟机设置更改网络配置,选择刚才配置的桥接模式 静态ip设置: 我用的ubuntu24桌…...

IP如何挑?2025年海外专线IP如何购买?

你花了时间和预算买了IP,结果IP质量不佳,项目效率低下不说,还可能带来莫名的网络问题,是不是太闹心了?尤其是在面对海外专线IP时,到底怎么才能买到适合自己的呢?所以,挑IP绝对是个技…...

Go 并发编程基础:通道(Channel)的使用

在 Go 中,Channel 是 Goroutine 之间通信的核心机制。它提供了一个线程安全的通信方式,用于在多个 Goroutine 之间传递数据,从而实现高效的并发编程。 本章将介绍 Channel 的基本概念、用法、缓冲、关闭机制以及 select 的使用。 一、Channel…...

基于PHP的连锁酒店管理系统

有需要请加文章底部Q哦 可远程调试 基于PHP的连锁酒店管理系统 一 介绍 连锁酒店管理系统基于原生PHP开发,数据库mysql,前端bootstrap。系统角色分为用户和管理员。 技术栈 phpmysqlbootstrapphpstudyvscode 二 功能 用户 1 注册/登录/注销 2 个人中…...

LangFlow技术架构分析

🔧 LangFlow 的可视化技术栈 前端节点编辑器 底层框架:基于 (一个现代化的 React 节点绘图库) 功能: 拖拽式构建 LangGraph 状态机 实时连线定义节点依赖关系 可视化调试循环和分支逻辑 与 LangGraph 的深…...

Python 训练营打卡 Day 47

注意力热力图可视化 在day 46代码的基础上,对比不同卷积层热力图可视化的结果 import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader import matplotlib.pypl…...

Linux中《基础IO》详细介绍

目录 理解"文件"狭义理解广义理解文件操作的归类认知系统角度文件类别 回顾C文件接口打开文件写文件读文件稍作修改,实现简单cat命令 输出信息到显示器,你有哪些方法stdin & stdout & stderr打开文件的方式 系统⽂件I/O⼀种传递标志位…...

云安全与网络安全:核心区别与协同作用解析

在数字化转型的浪潮中,云安全与网络安全作为信息安全的两大支柱,常被混淆但本质不同。本文将从概念、责任分工、技术手段、威胁类型等维度深入解析两者的差异,并探讨它们的协同作用。 一、核心区别 定义与范围 网络安全:聚焦于保…...