当前位置: 首页 > news >正文

微软发布 Phi-3.5 系列模型,涵盖端侧、多模态、MOE;字节 Seed-ASR:自动识别多语言丨 RTE 开发者日报

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、微软发布 Phi-3.5-vision 轻量级、多模态的开源模型,端侧运行,可进行复杂视觉推理

微软发布 Phi-3.5-vision 轻量级、多模态的开源模型,其属于 Phi-3 模型家族。该模型专为需要文本和视觉输入的应用而设计,重点处理高质量、高推理密度的数据。它支持 128K 的上下文长度,并经过严格的微调和优化过程,旨在在内存或计算资源有限、低延迟要求高的环境中广泛用于商业和研究领域。

该模型具备广泛的图像理解、光学字符识别(OCR)、图表和表格解析、多图像或视频剪辑摘要等功能,非常适合多种 AI 驱动的应用,在图像和视频处理相关的基准测试中表现出显著的性能提升。

Phi 3.5 系列 AI 模型包括三款不同特点的模型:Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct。这些模型在 Hugging Face 平台上开源,并获得了 Microsoft 的 MIT 许可证,允许不受限制的商业应用和修改。

Phi-3.5-mini-instruct 是一款轻量级模型,拥有 38.2 亿参数,支持 128k token 上下文长度,适合在内存或算力受限的设备上使用,并且在多语言和多轮对话任务中表现良好。Phi-3.5-MoE-instruct 是微软 Phi 模型中的首个 MoE 模型,采用混合专家架构,拥有 420 亿个参数,专注于处理高质量推理密集数据,并在专业学科领域的 MMLU 基准测试中击败了 GPT-4o mini。Phi-3.5-vision-instruct 是一个多模态模型,集成了文本和图像处理功能,适用于图像理解、光学字符识别等任务,并在视觉任务基准测试中表现出色。(@雷锋网)

2、字节跳动 Seed-ASR:自动语音识别模型,可识别不同语言、方言、口音

字节跳动豆包近期推出的 Seed-ASR 是一款先进的自动语音识别模型,能够识别多种语言、方言和口音。Seed-ASR 通过超过 2000 万小时的语音数据和近 90 万小时的配对 ASR 数据进行训练,展现出了卓越的识别能力。

该模型支持精准识别普通话以及 13 种中国方言,同时具备处理各种口音的英语和其他 7 种语言的能力。Seed-ASR 还具备强大的上下文感知能力,能够根据特定场景,如历史对话记录、会议纪要等信息,更准确地进行语音内容的识别。此外,Seed-ASR 可以进一步部署以支持各种场景中的特定需求,而无需额外的语言模型。(@站长之家)

3、v0 发布一个基于聊天的网页开发助手,可生成用户界面、自动编写运行代码

v0 发布一个基于聊天的网页开发助手,用户可以通过聊天的方式与 v0 互动,让它帮助调试代码、回答开发问题、生成代码等,专门用于前端开发领域,可以为用户提供关于这些技术的深入指导和帮助。无论是编写代码、优化性能、部署应用,还是解决技术难题,v0 都能提供专业的支持和建议。

它拥有丰富的 TypeScript、React、Next.js、Vercel 等前端技术的知识。用户可以把 v0 视为个人的 web 开发助手,能够帮助处理与 web 开发相关的各种问题,提供建议、解决方案和技术支持。

v0 可以根据需求执行以下几种任务:

1.生成用户界面(UI):如果用户请求 v0 生成某种类型的 UI(如表单、按钮、布局等),它可以编写相应的代码,并生成 UI 的代码片段

2.运行代码:v0 可以帮助执行或运行代码段,提供实时反馈,帮助调试或验证代码的功能

3.回答编程相关问题:用户可以向 v0 提出关于 web 开发、前端技术(如 TypeScript、React、Next.js 等)的任何问题,v0 会一步步解答,帮助解决技术问题(@小互 AI)

4、Meta 部署新网络爬虫机器人,为其 AI 模型收集大量数据

Meta 悄悄发布了一款新的网络爬虫,可用于搜索互联网并收集大量数据,为其人工智能模型提供支持。

据三家追踪网络抓取器的公司称,Meta 新网络爬虫机器人 Meta External Agent 于上月推出,类似于 OpenAI 的 GPTBot,可以抓取网络上的人工智能训练数据,例如新闻文章中的文本或在线讨论组中的对话。

根据使用档案历史记录显示,Meta 确实在 7 月底更新了一个面向开发者的公司网站,其中一个标签显示了新爬虫的存在,但 Meta 至今还没有公开宣布其新爬虫机器人。

Meta 的 Llama 是最大的 LLM 之一,虽然该公司没有透露最新版本的模型 Llama 3 使用的训练数据,但其初始版本的模型使用了由 Common Crawl 等其他来源收集的大型数据集。今年早些时候,Meta 的联合创始人、首席执行官马克・扎克伯格在一次财报电话会议上曾吹嘘说,公司的社交平台已经积累了一套用于人工智能训练的数据集,甚至「超过了 Common Crawl」。

新爬虫的存在表明 Meta 庞大的数据库可能已经不够用了,因为该公司继续致力于更新 Llama 和扩展 Meta AI,通常需要新的和高质量的培训数据来不断改进功能。

来自 Dark Visitors 的数据显示,全球近 25% 的最受欢迎的网站现在已屏蔽了 GPTBot,但只有 2% 的网站屏蔽了 Meta 的新爬虫机器人。(@IT 之家)

5、Salesforce 推出 xGen-MM 开源多模态 AI 模型

在这里插入图片描述

xGen-MM 是由 Salesforce AI Research 开发的一系列最新的基础大型多模态模型(LMMs)。该系列在 BLIP 系列的成功设计基础上进行了改进,确保了更强大和更优越的基础。这些模型在高质量的图像标注数据集和交错的图像-文本数据上进行了大规模训练,能够执行各种视觉语言任务,并在基准测试中取得了竞争性表现。(@机器之心 SOTA 模型)

02 有态度的观点

1、谷歌 DeepMind 首席执行官兼联合创始人:AGI 将有助于理解宇宙和意识的奥秘,十年内治愈所有疾病

在 Google DeepMind 的播客中,谷歌 DeepMind 首席执行官兼联合创始人 Demis Hassabis 指出,尽管现代人工智能系统没有正确的世界模型或真实经验,却在理解抽象概念和从语言学习方面表现出异常的有效性。

Hassabis 对公众对人工智能的快速接受感到惊讶,并强调了 AI 聊天机器人和语言模型的「异常有效性」。他提到了 AI 领域的长期规划、代理和保障措施的挑战,并预测了大多数疾病和通用人工智能的治疗方法将在未来十年内开发出来。

Hassabis 强调了 AI 安全性的重要性,包括对 AGI 的谨慎态度、国际合作、适应性监管、以及对 AI 产品的测试和错误发现。他还讨论了人工智能对现实、物理和意识的基本问题的潜在解答能力,以及 AGI 在理解宇宙量子层面奥秘方面的应用。最后,他表示对 AGI 在未来十年内得到发展持乐观态度。(@雷锋网)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
在这里插入图片描述
素材来源官方媒体/网络新闻

相关文章:

微软发布 Phi-3.5 系列模型,涵盖端侧、多模态、MOE;字节 Seed-ASR:自动识别多语言丨 RTE 开发者日报

开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…...

笔记:Echarts柱状图 实现滚轮条 数据太多

效果👇👇👇 配置:👇 let option {dataZoom: [{type: "slider",show: true,zoomLock: true,start: 0,end: 20,bottom: 60,height: 10,textStyle: {color: "transparent",fontSize: 9,},fillerColo…...

嵌入式学习day17(数据结构)

大纲 数据结构、算法数据结构: 1. 线性表:顺序表、链表(单向链表,单向循环链表,双向链表,双向循环链表)、栈(顺序栈,链式栈)、队列(循…...

网站怎么做敏感词过滤,敏感词过滤的思路和实践

敏感词过滤是一种在网站、应用程序或平台中实现内容审查的技术,用于阻止用户发布包含不适当、非法或不符合政策的内容。我们在实际的网站运营过程中,往往需要担心某些用户发布的内容中包含敏感词汇,这些词汇往往会导致我们的网站被用户举报&a…...

【峟思】如何使用投入式水位计才能确保测量准确性

在水利、环保、工业监测等众多领域,水位测量是一项至关重要的任务,它不仅直接关系到水资源的合理利用与保护,还影响到防洪、供水、排水等多个方面的安全与效率。投入式水位计作为一种常见的水位测量工具,以其结构简单、测量准确、…...

供应链管理系统(SCM) —— 企业物流的智能枢纽

SAP 供应链管理系统以打造数字化和集成化的供应链管理平台为使命,将传统的仓储管理系统、制造执行系统、产品管理系统等软件进行升级和上云管理,为企业提供面向客户、合作伙伴及员工的数字化SCM系统平台。 SAP SCM系统从设计到运维,全面优化供…...

计算机视觉(CV)技术的优势和挑战。

计算机视觉(CV)技术在许多领域中具有广泛的应用,并且具有一些优势和挑战。 优势: 1. 高效性:CV技术能够快速处理大量的图像和视频数据,以实现实时的分析和决策。 2. 自动化:CV技术可以自动化地…...

数据库MySQL多表设计、查询

目录 1.概述 2.一对多 3.一对一 4.多对多 5.多表查询 5.1内连接 5.2外连接 5.3子查询 1.概述 项目开发中,在进行数据库表结构设计时,会根据业务需求及业务模块之间的关系,分析并设计表结构,由于业务之间相互关联,所以各个…...

基于vue框架的北城招聘管理平台题目7lly3(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能:用户,企业,企业信息,职位类型,职位信息,简历信息,职位应聘,求职意愿,面试信息,录取信息,实习信息,冻结信息,解冻信息 开题报告内容 基于Vue框架的北城招聘管理平台 开题报告 一、引言 随着互联网的飞速发展和企业对人才需求的不断增…...

详讲C#中如何存储当前项目的设置-超级简单省事

我们在编写软件的时候总有一些配置数据需要保存,比如用户选择的偏好设置,又如软件所用到的数据库文件等。我们有很多中方式都可以保存,比如直接保存在某个文本文件,或者ini文件中,其实最简单的办法是保存在项目的资源文…...

【QT文件操作】---xml文件读取

XML(可扩展标记语言,eXtensible Markup Language)是一种用于存储和传输数据的文本格式,广泛用于配置文件、数据交换和文档表示。XML 文件具有明确的结构和标记,这使得它能够描述复杂的层次结构和数据关系。 xml和html…...

科研软件 | Diamond 4.6 安装教程

软件介绍 Diamond一个化学专业软件。它是一款在原子水平实现晶体结构可视化的软件,包括分子和聚合物扩展、多面体、搜索结构数据、自动和批量创建结构图片等功能,支持晶体结构着色和渲染以及批注。 软件下载 https://pan.quark.cn/s/37214b5bec7c 软…...

利用keepalived达成服务高可用

官方网站Keepalived for Linux 1.keepalived简介 vrrp 协议的软件实现,原生设计目的为了 高可用 ipvs 服务 功能: 基于 vrrp 协议完成地址流动 为 vip 地址所在的节点生成 ipvs 规则 ( 在配置文件中预先定义 ) 为 ipvs 集群的各 RS 做健康状态检测 …...

Dumpy:一款针对LSASS数据的动态内存取证工具

关于Dumpy Dumpy是一款针对LSASS数据的动态内存取证工具,该工具专为红队和蓝队研究人员设计,支持重新使用打开的句柄来动态转储 LSASS。 运行机制 Dumpy可以动态调用 MiniDumpWriteDump 来转储 lsass 内存内容。此过程无需打开 lsass 的新进程句柄&…...

TinyEngine是什么?

TinyEngine 是 OpenTiny 项目下的一个开源低代码引擎,旨在帮助开发者快速构建应用程序。它提供了可视化搭建页面的能力,支持在线实时构建和二次开发或集成,适用于多种场景的低代码平台开发,例如资源编排、服务端渲染、模型驱动、移…...

FPGA跨时钟域处理

文章目录 一、为什么要做跨时钟域处理二、单bit信号从慢时钟到快时钟处理2.1 使用同步寄存器链(打两拍)2.2 仿真代码编写2.3 仿真结果观察 三、单bit信号从快时钟域到慢时钟域处理3.1 使用脉冲展宽3.2 仿真代码编写3.3 仿真结果观察 四、在任意时钟域跨单bit信号4.1 使用握手协…...

【Docker深入浅出】Docker镜像

文章目录 一. Docker镜像简介二. Docker镜像详解1. 镜像和容器的关系2. 镜像通常比较小3. 拉取镜像4. 镜像命名4.1. 镜像仓库服务4.2. 官方和非官方镜像仓库4.3. 镜像的命名和标签 5. 为镜像打多个标签6. 过滤镜像内容6.1. 虚空镜像6.2. 删除虚空镜像6.3. 过滤器与格式化输出 7…...

“LOCAL_LISTENER”参数导致业务无法连接数据库,文末附Oracle连接故障检查监听的排查流程

1. 背景及问题 今天在Oracle BCV技术[1]做数据同步,建立生产库的测试库,需要DBA配合同步前后的停库和起库。在同步完起库后,有部门反应同步好的测试库连接不上去。 2. 问题排查 以我当前的知识储备,能想到的可能就是以下几点进…...

Vmware虚拟机接入物理机路由器网络

网络适配器增加至两个,一个选NAT, 另一个选host-only,再加一个桥接,不勾选使用物理网卡,然后重启即可!...

yolov8旋转框+关键点检测

一、Yolov8obb_kpt -----------------------------------现已在v8官方库上更新旋转框分割算法和旋转框关键点检测算法-------------------------- ------------------------------------------- https://github.com/yzqxy/ultralytics-obb_segment---------------------------…...

Qt-QWidget的windowTitle属性(13)

目录 描述 相关API 使用观察 描述 这个我们之前用过很多次了,就不再赘述了,简单说就是可以给那个边框设置标题,但是这里有一个小细节需要我们注意,就是谁的窗口谁设置 相关API 使用观察 我们这样写的话会发现一个问题&#x…...

RCE编码绕过--php://filter妙用

目录 代码 如何绕过 payload构造 代码 <?php $content <?php exit; ?>; $content . $_POST[txt]; file_put_contents($_POST[filename],$content); 当你想要输入代码的时候前面会有<?php exit;?>;&#xff0c;代码没有办法执行下去&#xff0c;所以…...

FactoryBean 与 BeanFactory

首先从字面理解: FactoryBean -->工厂Bean&#xff1b; BeanFactory -->Bean工厂。 即&#xff1a; FacttoryBean 是一个bean&#xff0c; BeanFactory 是bean的工厂。 使用&#xff1a; 1、BeanFactory&#xff1a; 提供获取bean的API。 2、FactoryBean&#xff1a; p…...

【迅为RK3568开发板】OpenHarmony学习开发系列教程(第2期 南向基础篇一)

P1P1_搭建Ubuntu开发环境-8:23 P2P2_获取OpenHarmony源码-10:21 P3P3_初次编译OpenHarmony源码-7:11 P4P4_OpenHarmony镜像简介以及烧写工具配置-9:18 P5P5_优化开发流程-搭建windows开发环境-5:34 P6P6_优化开发流程-搭建ubuntu开发环境-2:09 P7P7_优化开发流程-配置远程访问环…...

编程修炼之Hibernate--- springboot启动初始化ddl过程与如何自定义修改 table 字段长度

文章目录 springboot启动初始化ddl过程如何自定义修改 table springboot启动初始化ddl过程 跟踪Springboot整合hibernate的启动代码&#xff1a; SessionFactoryImpl 的初始化里做了非常多的事情&#xff0c;初始化各种资源&#xff0c;并调用 SchemaManagementToolCoordinat…...

TOMCAT入门到精通

目录 一 WEB技术 1.1 HTTP协议和B/S 结构 1.2 前端三大核心技术 1.2.1 HTML 1.2.2 CSS&#xff08;Cascading Style Sheets&#xff09;层叠样式表 1.2.3 JavaScript 二 WEB框架 2.2后台应用架构 2.2.1单体架构 2.2.2微服务 2.2.3单体架构和微服务比较 三 tomcat的…...

Android笔试面试题AI答之Kotlin(18)

文章目录 86. 阐述Kotlin中性能优化之局部函数 &#xff1f;局部函数的优点间接的性能优化注意事项 87. 简述Kotlin中性能优化之数组使用 &#xff1f;1. 选择合适的数组类型2. 避免不必要的数组创建3. 优化数组访问4. 合理使用数组遍历方式5. 利用Kotlin的集合操作API6. 注意数…...

Linux基础知识学习(五)

1. 用户组管理 每个用户都有一个用户组&#xff0c;系统可以对一个用户组中的所有用户进行集中管理&#xff08;开发、测试、运维、root&#xff09;。不同Linux 系统对用户组的规定有所不同&#xff0c;如Linux下的用户属于与它同名的用户组&#xff0c;这个用户组在创建用户…...

股票买卖的思路与代码

题目 1302&#xff1a;股票买卖 时间限制: 1000 ms 内存限制: 65536 KB 提交数:8660 通过数: 4290 【题目描述】 最近越来越多的人都投身股市&#xff0c;阿福也有点心动了。谨记着“股市有风险&#xff0c;入市需谨慎”&#xff0c;阿福决定先来研究一下简化版的股…...

Eureka Server与Eureka Client详解:服务注册与发现的交互机制

Eureka Server与Eureka Client详解&#xff1a;服务注册与发现的交互机制 Eureka 是 Netflix 开源的一个服务发现框架&#xff0c;它是 Spring Cloud 微服务架构中的核心组件之一。Eureka 主要由两个关键组件构成&#xff1a;Eureka Server 和 Eureka Client。它们之间通过一定…...