Llama 3.1中文微调数据集已上线,超大模型一键部署
7 月的 AI 圈真是卷完小模型卷大模型,精彩不停!大多数同学都能体验 GPT-4o、Mistral-Nemo 这样的小模型,但 Llama-3.1-405B 和 Mistral-Large-2 这样的超大模型让很多小伙伴犯了难。
别担心!hyper.ai 官网在教程板块为大家提供了使用「Open WebUI」和使用「OpenAI 兼容 API 服务」两种方式启动这两个超大模型的教程! 此外,还上线了中文微调数据集 DPO-zh-en-emoji,下拉文章获取链接~
8 月 5 日-8 月 9 日,hyper.ai 官网更新速览:
-
优质教程精选:5 个
-
优质公共数据集:10 个
-
社区文章精选:3 篇
-
热门百科词条:5 条
-
8 月截稿顶会:2 个
访问官网:hyper.ai
公共教程精选
1. 使用 Open WebUI 一键部署 Mistral Large 2 / Llama 3.1 405B
该教程是使用 OpenWebUI 一键部署 Mistral Large 2 / Llama 3.1 405B,相关环境和配置已经搭建完成,只需克隆启动容器即可进行推理体验。
在线运行 Mistral Large 2 模型部署:
https://go.hyper.ai/Bwf6G
在线运行 Llama 3.1 405B 模型部署:
https://go.hyper.ai/iyL60
2. 一键部署 Mistral Large 2 / Llama 3.1 405B 模型 OpenAI 兼容 API 服务
该教程为使用 OpenAI 兼容 API 部署 Mistral-Large-Instruct-2407-AWQ。「OpenAI 兼容 API」意味着第三方开发者可以使用与 OpenAI 相同的请求和响应格式,将类似的功能集成到自己的应用程序中。启动该教程后可以在任何 OpenAI 兼容的 SDK 对该模型进行连接。和上个教程相比更为复杂一些,适合有编程基础的
在线运行 Mistral Large 2 模型部署:
https://go.hyper.ai/Smexo
在线运行 Llama 3.1 405B 模型部署:
https://go.hyper.ai/1AiDi
3. 使用吉布斯扩散 (Gibbs-Diffusion) 进行图像盲降噪
GDiff 全称 Gibbs-Diffusion,是一种贝叶斯盲去噪方法,解决了信号和噪声参数的后验采样问题。该教程是根据论文「Listening to the Noise: Blind Denoising with Gibbs Diffusion」搭建的测试方法,按照教程步骤操作即可体验研究成果。
在线运行:https://go.hyper.ai/y2wIU
公共数据集精选
1. DPO-zh-en-emoji 表情符号问答数据集
该数据集是一个专为微调大语言模型而设计的数据集,包含了大量的问答对数据,每个问题都有中文和英文两个版本的答案,并且答案中融入了趣味幽默的元素,包括表情符号 (emoji) 的使用。shareAI 团队已将其用于微调 Llama 3.1 8B 模型。
直接使用:https://go.hyper.ai/Y90pZ
2. UrbanSARFloods v1 洪水制图基准数据集
UrbanSARFloods 是专门用于城市和开放区域洪水制图的数据集,包含 8,879 个 512×512 的图像块,覆盖 807,500 平方公里,涵盖了 18 次洪水事件。解决了现有的大规模 SAR 衍生洪水制图研究中对城市洪水关注不足的问题。
直接使用:https://go.hyper.ai/yOXx7
3. VRSBench 大规模高质量遥感视觉语言基准数据集
该数据集是一个为遥感图像理解设计的多用途视觉-语言基准数据集,包含 29,614 张经过人工验证的详细字幕图像、52,472 个对象引用和 123,221 个问答对,旨在推进通用的、大规模的遥感图像视觉-语言模型的发展。
直接使用:https://go.hyper.ai/O7DtC
4. ATLAS 高分辨率 3D 人物纹理数据集
该数据集全称 ArTicuLated humAn textureS(简称 ATLAS)是一个最大的高分辨率 (1,024 × 1,024) 3D 人物纹理数据集,包含了 5 万个具有文本描述的高保真纹理。相关论文成果已入选 ECCV 2024。
直接使用:https://go.hyper.ai/Zx1nj
5. MIND 微软新闻数据集
MIND 包含约 16 万篇英文新闻文章和 100 万用户生成的超过 1500 万条印象日志,收集自 Microsoft News 网站的匿名行为日志。旨在作为新闻推荐的基准数据集,并促进新闻推荐和推荐系统领域的研究。
直接使用:https://go.hyper.ai/lVOyX
6. BoWFire 火灾检测分割数据集
BoWFire 数据集是一个专门用于火焰检测的图像数据集,旨在提高火灾检测的准确性并减少误报。该数据集包括了多种紧急情况下的火灾图像,例如建筑物着火、工业火灾、车祸和骚乱等情况。
直接使用:https://go.hyper.ai/73AYY
7. CNN/DailyMail 新闻文章数据集
该数据集包含 CNN 和 Daily Mail 记者撰写的 30 多万篇新闻文章,旨在帮助开发能够用一两句话概括长段落文本的模型。
直接使用:https://go.hyper.ai/AbidL
8. Doodle Dataset 涂鸦图像数据集
该数据集包含 100 多万张图像,涵盖 340 个涂鸦类别,经过处理后可用于机器学习任务。
直接使用:https://go.hyper.ai/Ns4M4
9. Yoga-16 人体瑜伽动作图像数据集
Yoga-16 数据集旨在提高瑜伽姿势识别模型的分类准确率。它分为三个主要目录:训练、测试和验证,每个目录包含 16 个子目录,对应 16 种不同的瑜伽姿势。
直接使用:https://go.hyper.ai/iMe0Z
10. Human Images Dataset 男性和女性人体图像数据集
该数据集包含男性和女性两个人物类别图像文件夹。图像包括面部、上半身和全身。可用于性别识别、人类身份识别和图像分类等各种项目。
直接使用:https://go.hyper.ai/6UJb7
更多公共数据集,请访问:
https://hyper.ai/datasets
社区文章精选
1. 学术分享丨清华大学博士后李雨哲详解 Cell/Nature 子刊论文,探索基因组学的 AI 应用
「Meet AI4S」系列直播第二期,邀请到了清华大学张强锋实验室博士后李雨哲。8 月 21 日,李雨哲博士将以线上直播的形式进一步为大家分享空间转录组学和单细胞组学研究中的 AI 方法。
查看活动详情:https://go.hyper.ai/GIzpo
2. 全球首个!清华/上海交大等联合构建面向糖尿病诊疗的视觉-大语言模型,登 Nature 子刊
Google Research 联手麻省理工获得 IJCAI 2024 最佳论文奖!公众号后台回复 IJCAI 2024,获取 IJCAI 2024 最佳论文奖、杰出论文奖、AIJ 经典论文奖与杰出论文奖合集。
查看完整报道:https://go.hyper.ai/ZGzI2
3. 首次!GPT-2赋能无线通信物理层,北大团队提出基于预训练LLM的信道预测方案
清华大学副教务长、医学院主任黄天荫教授团队,上海交通大学电院计算机系/教育部人工智能重点实验室盛斌教授团队,上海交通大学医学院附属第六人民医院贾伟平教授及李华婷教授团队,新加坡国立大学及新加坡国家眼科中心覃宇宗教授团队通力合作,成功构建全球首个面向糖尿病诊疗的视觉-大语言模型集成系统 DeepDR-LLM 。本文是该研究的详细解读和分享。
查看完整报道:https://go.hyper.ai/qnzSp
热门百科词条精选
1. 交并比 IoU
2. 倒数排序融合 RRF
3. 对比学习 Contrastive Learning
4. 大规模多任务语言理解 MMLU
5. 长短期记忆 Long Short-Term Memory
这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:
https://go.hyper.ai/wiki

一站式追踪人工智能学术顶会:https://go.hyper.ai/event
以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!
下周再见!
关于 HyperAI超神经 (hyper.ai)
HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:
-
为 1300+ 公开数据集提供国内加速下载节点
-
收录 400+ 经典及流行在线教程
-
解读 100+ AI4Science 论文案例
-
支持 500+ 相关词条查询
-
托管国内首个完整的 Apache TVM 中文文档
访问官网开启学习之旅:
https://hyper.ai/
相关文章:
Llama 3.1中文微调数据集已上线,超大模型一键部署
7 月的 AI 圈真是卷完小模型卷大模型,精彩不停!大多数同学都能体验 GPT-4o、Mistral-Nemo 这样的小模型,但 Llama-3.1-405B 和 Mistral-Large-2 这样的超大模型让很多小伙伴犯了难。 别担心!hyper.ai 官网在教程板块为大家提供了…...
css实现太极图
<template><div><!-- 太极图 --><div class"all"><div class"left box"></div><div class"right box"></div><div class"black"><div class"inner_white"><…...
Android 13 移植EthernetSettings/Ethernet更新
移植EthernetSettings Android 13 在Settings搜索没有发现以太网设置,应该是移除了,但是客户的设备需要,所以移植Android 11的. 以太网相关的功能在Android13中进行模块化,提取到packages/modules/Connectivity/中, EthernetManager相关代码从framework移到packages/modules/…...
极狐GitLab 如何设置访问令牌前缀?
极狐GitLab 是 GitLab 在中国的发行版,专门面向中国程序员和企业提供企业级一体化 DevOps 平台,用来帮助用户实现需求管理、源代码托管、CI/CD、安全合规,而且所有的操作都是在一个平台上进行,省事省心省钱。可以一键安装极狐GitL…...
leetcode日记(72)最大矩形
依旧是看了答案才知道大概方法…太难想到了 和上一道题思路相似!可以直接调用上题的函数,只不过调用前的准备非常难想到,就是建造形状相同的矩阵,第i行j列的元素是i行中j列前相邻的“1”的个数。 class Solution { public:int m…...
自驾畅游保定:参观总督署,品美食文化
这是学习笔记的第 2490篇文章 前几天跟孩子聊天,孩子说暑假都没出去玩了,暑假旅行的作业咋写?让我有满满的负疚感,去附近的公园、吃点美食不算旅游,得了,得安排一下一日游。 几个月前心心念的去保定&#x…...
我常用的几个傻瓜式爬虫工具,收藏!
爬虫类工具主要两种,一种是编程语言第三方库,比如Python的scrapy、selenium等,需要有一定的代码基础,一种是图形化的web或桌面应用,比如Web Scraper、后羿采集器、八爪鱼采集器、WebHarvy等,接近于傻瓜式操…...
数据分析2 Numpy+Scipy+Matplotlib+Pandas
3.设置坐标范围 mp.xlim(水平坐标最小值, 水平坐标最大值) mp.ylim(垂直坐标最小值, 垂直坐标最大值) 代码:plt3.py 4.设置坐标刻度 mp.xticks(位置序列[, 标签序列]) mp.yticks(位置序列[, 标签序列]) 代码:plt4.py 5.设置坐标轴 坐标轴名:l…...
手机IP地址:是根据网络还是设备决定的?
在日益数字化的今天,手机已经成为我们日常生活中不可或缺的一部分。它不仅是我们沟通的桥梁,更是我们获取信息、享受娱乐和完成工作的得力助手。然而,在使用手机上网的过程中,你是否曾经好奇过手机的IP地址是如何被分配的…...
数据结构-常见的七大排序
上节中我们学习了七大排序中的五种(插入排序、希尔排序、堆排序、选择排序、交换排序) 数据结构-常见的七大排序-CSDN博客 这节我们将要学习快速排序(hoare、指针法、挖洞法(快排的延伸)、快速排序非递归(栈)) 1.快速排序 1.1 hoare法 1.1思路 1.选出一个key,一…...
离线安装部署springboot+vue系统到服务器
注意:首先服务器会有多个网卡,这些服务器的网卡连接所需要的文件可能不是我们默认的ifcfg-eth0/ifcfgens33,可以试着切换一下服务器网线插入的接口,要保证服务器网线插入的接口和网卡对应的文件一致 说明,在一些政府(保…...
【STM32】ADC模拟数字转换(规则组单通道)
本篇博客重点在于标准库函数的理解与使用,搭建一个框架便于快速开发 目录 ADC简介 ADC时钟配置 引脚模拟输入模式 规则组通道选择 ADC初始化 工作模式 数据对齐 触发转换方式 连续与单次转换模式 扫描模式 组内的通道个数 ADC初始化框架 ADC上电 ADC校…...
WPF 数据模板DataTemplate、控件模板ControlTemplate、Style、ItemsPreseter
一言蔽之,Template就是“外衣”—— ControlTemplate是控件的外衣, DataTemplate是数据的外衣。 DataTemplate 它定义了一个数据对象的可视化结构 DataTemplate常用的地方有3处,分别是: ContentControl的ContentTemplate属性&…...
Windows下搭建Telegraf+Influxdb+Grafana(详解一)
InfluxDB(时序数据库),常用使用场景:监控数据统计。 grafana,用作监控页面的前端展示。 telegraf,数据采集器。 所有的安装包都上传到网盘 链接: https://pan.baidu.com/s/1Lv6UnfueK7URx7emAatoYg 提取…...
同城搭子社交系统开发同城搭子群活动APP圈子动态小程序
引言 随着互联网技术的飞速发展,同城搭子社交系统作为一种新兴的社交模式,正逐渐在市场中占据一席之地。该系统通过搭子群活动和圈子动态等功能,为用户提供了一种高效、精准的社交体验。本文将从市场前景、使用人群、盈利模式以及运营推广等…...
大厂最佳实践 | Stripe 如何防止重复付款
为什么扣了我两笔钱? 2010年,美国加利福尼亚州的两兄弟打算创办一家公司,但他们发现建立网上支付十分困难。于是,他们决定开发一款在线支付服务,并将其命名为Stripe。 随着用户数量的不断增长,重复付费问题…...
Raspberry Pi Pico 2 上实现:实时机器学习(ML)音频噪音抑制功能
Arm 公司的首席软件工程师 Sandeep Mistry 为我们展示了一种全新的巧妙方法: 在 Raspberry Pi Pico 2 上如何将音频噪音抑制应用于麦克风输入。 机器学习(ML)技术彻底改变了许多软件应用程序的开发方式。应用程序开发人员现在可以为所需系统整…...
安全自动化和编排:如何使用自动化工具和编排技术来提高安全操作效率。(第二篇)
深入理解Kubernetes环境中的安全自动化与编排(第二篇) 1. 引言 Kubernetes作为现代容器编排平台的主流选择,正在被越来越多的企业用于部署和管理其容器化应用。在Kubernetes环境中实施安全自动化与编排,既能够提升系统的安全性&…...
HarmonyOS WebView
HarmonyOS WebView Web组件提供基础的前端页面加载的能力,包括加载网络页面、本地页面、html格式文本数据。Web组件提供丰富的页面交互的方式,包括:设置前端页面深色模式,新窗口中加载页面,位置权限管理,C…...
解决elementUI表格里嵌套输入框,检验时错误信息被遮挡
1.表格 自定义错误信息显示div <el-form-item label"租赁价格" prop"supplierId"><el-table-column prop"salePrice" label"销售价" align"center"><template slot-scope"scope"><el-form-…...
AsyncRun.vim 项目根目录管理:智能识别和高效利用
AsyncRun.vim 项目根目录管理:智能识别和高效利用 【免费下载链接】asyncrun.vim :rocket: Run Async Shell Commands in Vim 8.0 / NeoVim and Output to the Quickfix Window !! 项目地址: https://gitcode.com/gh_mirrors/as/asyncrun.vim AsyncRun.vim 是…...
java+uniapp集成unipush2实现消息推送
一、开通uniPush2.0 1.实名认证 登录DCloud开发者中心,通过实名认证 2.进入UniPush控制台 HBuilderX中打开项目的manifest.json文件 导航在“App模块配置” → 项的“Push(消息推送)” → “UniPush”下点击配置 或者申请开通。 3.配置应用信息 在UniPush开通界面…...
可视化监控大盘构建:Grafana搭配Prometheus的艺术
在软件测试领域,我们早已不满足于“功能正确”这一单一维度。性能表现、资源消耗、服务稳定性、异常预警……这些非功能质量属性正逐渐成为衡量系统成熟度的关键标尺。而要将这些隐性的、动态的指标转化为可感知、可决策的信息,一套高效、灵活的可视化监…...
Midjourney蓝莓印相技术白皮书(2024V2.3权威修订版):基于1726张A/B测试图谱验证的色阶偏移阈值与CMYK映射规则
更多请点击: https://intelliparadigm.com 第一章:Midjourney Blueberry印相技术的演进脉络与核心定义 Midjourney Blueberry印相技术并非官方术语,而是社区对Midjourney V6中基于蓝光敏感通道(Blue Channel Emulation࿰…...
用MATLAB和Vivado搞个带通FIR滤波器:从FDATool到IP核的完整配置流程
从MATLAB到FPGA:带通FIR滤波器的工程化实现全指南 在数字信号处理领域,FIR滤波器因其线性相位特性和稳定性成为工程师的首选工具。当我们需要从高速采样信号中提取特定频段时,带通FIR滤波器的设计就变得尤为关键。本文将带您完整走通从MATLAB…...
如何通过HS2-HF Patch解锁《Honey Select 2》的完整创作潜力:从新手到专家的终极指南
如何通过HS2-HF Patch解锁《Honey Select 2》的完整创作潜力:从新手到专家的终极指南 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 还在为《Honey…...
别再只调包了!用PyTorch和DGL从零实现一个GCN层(附Cora节点分类实战代码)
从零构建图卷积网络:PyTorch与DGL实战中的底层逻辑拆解 当你第一次调用g.update_all()时,是否好奇过DGL框架背后究竟发生了什么?那些看似简单的消息传递和聚合操作,实际上隐藏着图卷积网络最精妙的设计思想。本文将带你深入GCN的数…...
如何实现一个延迟队列?
1. 基于 Sorted Set (ZSet) 的实现 这是最轻量级、最原生的 Redis 延迟队列实现方式。 核心思想:利用 ZSet 可以根据 score 进行排序的特性。我们将任务的预期执行时间戳作为 score,任务的具体内容(或任务 ID)作为 member。 生产…...
告别轮询!用DSP28335 GPIO中断实现矩阵按键响应,效率提升实战指南
DSP28335 GPIO中断驱动矩阵按键:从轮询到事件驱动的实战重构 在嵌入式系统开发中,按键响应速度往往直接影响用户体验和系统实时性。传统轮询方式虽然实现简单,但在处理矩阵键盘时会导致CPU资源浪费和响应延迟。我曾在一个工业控制面板项目中&…...
自研系统与Odoo ERP数据集成中间件设计与实现
1. 项目概述:连接两个世界的桥梁最近在折腾企业信息化系统集成时,遇到了一个挺典型的场景:公司内部有一套自研的、基于特定业务逻辑的微服务应用(我们内部戏称为“雾系统”),同时又在使用Odoo这套成熟的ERP…...
