免注册,ChatGPT可即时访问了!
AI又有啥进展?一起看看吧
Apple进军个人家用机器人
Apple在放弃自动驾驶汽车项目并推出混合现实头显后,正在进军个人机器人领域,处于开发家用环境机器人的早期阶段
报告中提到了两种可能的机器人设计。一种是移动机器人,可以跟随用户在房子里四处走动。另一种是固定式机器人,配备屏幕,可以在视频通话时模仿人的头部动作。苹果还考虑长期内推出用于家务劳动的机器人

https://the-decoder.com/apple-sets-its-sights-on-personal-robots-as-next-frontier-after-vision-pro-debut/
SWE-agent:93秒内解决GitHub问题的AI编码器
普林斯顿大学的研究人员开发了SWE-agent,能够将诸如GPT-4之类的语言模型转化为自主软件工程代理。SWE-agent能够在93秒内识别并修复真实世界GitHub仓库中的漏洞和问题!它通过与一个专用的终端进行交互来实现这一目标,该终端允许它打开、滚动和搜索文件,使用自动语法检查编辑特定行,编写和执行测试

在SWE-Bench基准测试中,SWE-agent解决了呈现问题的12.29%,几乎与Cognition AI开发的闭源2100万美元商业AI程序员Devin所达到的13.86%相匹配
https://swe-agent.com/
Stability AI的Stable Audio 2.0来了
Stability AI发布了Stable Audio 2.0,这是一款全新的AI模型,能够生成高质量、全长度的音频轨道。基于其前身,最新模型引入了三项突破性功能:
-
能够生成长达3分钟的音轨,具有连贯的音乐结构
-
启用音频到音频的生成功能,允许用户使用自然语言提示转换上传的样本
-
增强音效生成和风格迁移能力,为艺术家提供更大的灵活性和控制力
Stable Audio 2.0的架构结合了高度压缩的自编码器(autoencoder)和扩散转换器(diffusion transformer,DiT),以生成具有连贯结构的完整音轨。自编码器将原始音频波形压缩成更短的表示形式,捕获关键特征,而DiT则擅长在长序列上操作数据


https://stability.ai/news/stable-audio-2-0
马斯克认为AI可能毁灭人类,但值得冒险
在Abundance Summit的AI辩论研讨会上,马斯克分享了他对AI潜在危险的看法,他估计AI可能对人类构成生存威胁的可能性为10-20%
尽管存在风险,但马斯克认为AI的好处超过了潜在的危险。他强调教会AI保持真实和好奇的重要性,尽管没有具体说明他是如何得出风险评估结论的
https://www.indiatoday.in/technology/news/story/elon-musk-says-there-is-around-10-to-20-percent-chances-of-ai-destroying-humanity-2521670-2024-04-01
OpenAI推出即时访问ChatGPT功能
OpenAI 现在允许用户无需创建账户即可使用 ChatGPT。每周的用户超过 1 亿,遍布 185 个国家,现在任何对其功能好奇的人都可以立即访问它

虽然此举使AI更加易于访问,但OpenAI的其他产品,如DALL-E 3,仍然需要用户创建账户。此外,该公司还引入了新的内容保护措施,并允许用户选择不参与模型训练,即使他们没有账户也可以这样做
https://openai.com/blog/start-using-chatgpt-instantly
Siri能理解用户屏幕上的内容
苹果研究人员开发了一个名为ReALM的AI系统,该系统能够让Siri等语音助手理解屏幕上元素的上下文引用。通过将复杂的引用解析任务转化为语言建模问题,ReALM在理解模糊引用和上下文方面甚至超过了GPT-4

这项创新的关键在于使用解析后的屏幕实体及其位置重建屏幕,以生成能够捕捉视觉布局的文本表示。这种方法与专门用于引用解析的语言模型的微调相结合,使ReALM实现了显著的性能提升
https://arxiv.org/pdf/2403.20329.pdf
微软与OpenAI计划斥资1000亿美元打造超级计算机
微软和OpenAI计划建造一台价值高达1000亿美元的超级计算机“星际之门”(Stargate),以快速推进OpenAI的AI模型开发。知情人士透露,该项目将于2028年启动,2030年完成扩展,将成为计算史上最大的投资之一
Stargate的大部分成本将用于采购数百万个专用AI芯片,资金主要来自微软。同时,微软还计划于2026年推出一个规模较小的价值100亿美元的前置项目“第四阶段”。是否继续推进Stargate项目,将在很大程度上取决于OpenAI在AI能力方面取得的显著进步
https://www.theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer
OpenAI最新技术仅需15秒即可克隆你的声音
OpenAI最新技术——Voice Engine已经初露端倪,这款AI模型仅需15秒的音频样本和文本输入,即可生成令人惊叹的逼真声音克隆。这项技术能够复制原始说话者的声音,为改进教育材料提供了可能性

尽管该模型具有多种应用,但公司对其可能的滥用保持警惕,尤其是在敏感时期。他们为合作伙伴制定了严格的规则,包括禁止未经授权的冒充行为、对合成声音进行明确标注,以及采取水印和监控等技术措施
https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices
Cohere推出“企业最强大的LLM”
Cohere宣布推出其迄今为止最强大且可扩展的LLM——Command R+。这款模型专为企业用例设计,拥有几大关键功能:
-
先进的检索增强生成(RAG)功能,能够访问和处理大量信息,提高响应的准确性和可靠性
-
支持十种商业语言,确保在全球组织中的无缝运行
-
通过与各种软件工具的交互实现复杂工作流程的自动化
此外,Command R+在关键指标上表现优于其他可扩展模型,同时以更低的成本提供强大的准确性

该LLM现已通过Cohere的API提供,并可以部署在包括Microsoft Azure和Oracle Cloud Infrastructure在内的各种云平台上
https://txt.cohere.com/command-r-plus-microsoft-azure/
Higgsfield用AI颠覆视频营销
前Snap AI首席Alex Mashrabov推出了名为Higgsfield AI的新创业公司,旨在让创作者和营销人员能够轻松使用AI驱动的视频创作。该公司的首款应用Diffuse允许用户根据文本描述生成原创视频片段,或编辑现有视频以将自己插入场景中
Higgsfield正在与Sora视频生成器竞争,凭借其移动端、用户友好的工具,它的目标受众更为广泛。尽管有关数据使用和滥用可能性的问题仍然存在,但Higgsfield相信,凭借其逼真且易于使用的视频生成功能,它能在社交媒体营销领域开辟一片天地
https://techcrunch.com/2024/04/03/former-snap-ai-chief-launches-higgsfield-to-take-on-openais-sora-video-generator/
相关文章:
免注册,ChatGPT可即时访问了!
AI又有啥进展?一起看看吧 Apple进军个人家用机器人 Apple在放弃自动驾驶汽车项目并推出混合现实头显后,正在进军个人机器人领域,处于开发家用环境机器人的早期阶段 报告中提到了两种可能的机器人设计。一种是移动机器人,可以跟…...
探索未来游戏:生成式人工智能AI如何重塑你的游戏世界?
生成式人工智能(Generative AI)正以前所未有的速度改变着各行各业的运作模式。其中,游戏产业作为科技应用的前沿阵地,正经历着前所未有的变革。本文将探讨生成式人工智能如何重塑游戏产业,以及这一变革背后的深远影响。…...
ubuntu23设置kibana后台启动服务
要在Ubuntu 23系统中设置Kibana作为系统服务,以便能够通过systemd管理其启动、停止、重启以及设置开机自动启动,可以按照以下步骤操作: 1. 创建Kibana systemd服务单元 创建一个名为kibana.service的文件在 /etc/systemd/system/ 目录下&am…...
身份证实名制、C#身份核验代码示例、身份证查询
在以前,企业采用人工审核的方式对线上用户进行身份信息真伪的核验,在用户上传身份信息后,人工进行后台审核,虽能满足企业对用户实名认证的需求,但效率慢、耗时长,且存在一定的人为误差,对高度PS…...
【leetcode面试经典150题】15.分发糖果(C++)
【leetcode面试经典150题】专栏系列将为准备暑期实习生以及秋招的同学们提高在面试时的经典面试算法题的思路和想法。本专栏将以一题多解和精简算法思路为主,题解使用C语言。(若有使用其他语言的同学也可了解题解思路,本质上语法内容一致&…...
Elasticsearch如何选择版本
不同版本的ES差异非常大,包括不局限于ES语法、架构、API、集群搭建等等。这些差异足以导致不同版本是否能满足你的业务场景以及后续开发维护成本等各种问题。 先说结论,以个人实践经验及综合考虑推荐使用 7.x 版本中的 7.10版本 ES版本对比 以下是通过…...
P8749 [蓝桥杯 2021 省 B] 杨辉三角形
[蓝桥杯 2021 省 B] 杨辉三角形 题目描述 下面的图形是著名的杨辉三角形: 如果我们按从上到下、从左到右的顺序把所有数排成一列,可以得到如下数列: 1 , 1 , 1 , 1 , 2 , 1 , 1 , 3 , 3 , 1 , 1 , 4 , 6 , 4 , 1 , … 1,1,1,1,2,1,1,3,3,1,1,4,6,4,1, …...
MySQL数据库——1.创建数据库
在 MySQL 数据库中,要创建一个新的数据库,可以使用 SQL 命令 CREATE DATABASE。创建数据库是管理数据的第一步,它提供了一个容器,用于存储表、视图、存储过程等数据库对象。 示例: CREATE DATABASE my_database; 在…...
计算机视觉研究院 | Drone-YOLO:一种有效的无人机图像目标检测
本文来源公众号“计算机视觉研究院”,仅用于学术分享,侵权删,干货满满。 原文链接:Drone-YOLO:一种有效的无人机图像目标检测 无人机图像中的目标检测是各个研究领域的重要基础。然而,无人机图像带来了独…...
[C#]使用OpencvSharp去除面积较小的连通域
【C介绍】 关于opencv实现有比较好的算法,可以参考这个博客OpenCV去除面积较小的连通域_c#opencv 筛选小面积区域-CSDN博客 但是没有对应opencvsharp实现同类算法,为了照顾懂C#编程同学们,因此将 去除面积较小的连通域算法转成C#代码。 方…...
联邦学习目前面临的挑战以及解决方案
学习目标: 联邦学习目前面临的挑战以及解决方案 学习内容: 联邦学习是一种新兴的人工智能基础技术,它在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的…...
Day60:WEB攻防-XMLXXE安全无回显方案OOB盲注DTD外部实体黑白盒挖掘
目录 XML&XXE-传输-原理&探针&利用&玩法 XXE 黑盒发现 XXE 白盒发现 XXE修复防御方案 有回显 无回显 XML&XXE-黑盒-JSON&黑盒测试&类型修改 XML&XXE-白盒-CMS&PHPSHE&无回显 知识点: 1、XXE&XML-原理-用途&…...
解锁网络安全新境界:雷池WAF社区版让网站防护变得轻而易举!
网站运营者的救星:雷池WAF社区版 ️ 嘿朋友们!今天我超级激动要跟你们分享一个神器——雷池WAF社区版。这个宝贝对我们这帮网站运营者来说,简直就是保护伞! 智能语义分析技术:超级侦探上线 先说说为啥我这么稀饭它。雷…...
RabbitMQ安装详细教程
(一)在Windows系统上安装Erlang的步骤如下: 打开Erlang的官方下载页面,选择适合你的Windows系统的版本进行下载。 下载完成后,双击运行下载的.exe文件,进入Erlang的安装向导。 在安装向导中,按…...
如何快速写出一个完整的测试用例
测试用例是为了验证软件功能或需求而设计的一组测试输入、执行条件和预期结果。编写测试用例的目的是确保测试过程全面高效、有据可查。 一般来说,编写测试用例的流程包括以下几个步骤: 分析需求:阅读需求文档,理解软件的功能和业…...
Docker容器与虚拟化技术:OpenEuler 部署 ES 与 Kibana
目录 一、实验 1.环境 2.OpenEuler 部署 ES (EalasticSearch) 3.OpenEuler 部署 Kibana 4.部署 Elasticvue插件 5.使用cpolar内网穿透 6.使用Elasticvue 一、实验 1.环境 (1)主机 表1 主机 系统架构版本IP备注LinuxopenEuler22.03 LTS SP2 1…...
数学中的各种符号虚数概念
max i∈SA i ≥ ∑ i∈SB i. 这个不等式表达的意思是对于集合 S 中的任意非空子集,子集中的最大的 A_i(A 的元素)的值都大于等于子集中所有 B_i(B 的元素)的值的总和。换句话说,集合 S 中的最大…...
什么是中间件
中间件是指在应用程序与操作系统之间提供服务的软件,它可以隐藏底层操作系统的复杂性,为应用程序提供各种实用的服务,以便应用程序更好地实现业务逻辑。中间件通常提供如下几种服务: 数据库连接:中间件可以为应用程序提…...
RabbitMQ面经 手敲浓缩版
保证可靠性 生产者 本地事务完成和消息发送同时完成 通过事务消息完成 重写confirm在里面做逻辑处理 确保发送成功(不成功就放入到重试队列) MQ 打开持久化确保消息不会丢失 消费者 改成手动回应 不重复消费 生产者 保证不重复发送消息 消费者…...
解锁金融数据中心场景,实现国产化AD替代,宁盾身份域管为信创电脑、应用提供统一管理
随着信创国产化改造持续推进,越来越多的金融机构不断采购信创服务器、PC、办公软件等,其 IT 基础设施逐渐迁移至国产化 IT 架构下。为支撑国产化 IT 基础设施的正常使用和集中管理运维,某金融机构数据中心的微软Active Directory(…...
TL494电源芯片避坑指南:常见设计误区与调试技巧
TL494电源芯片避坑指南:常见设计误区与调试技巧 在电源设计领域,TL494作为一款经典PWM控制芯片,凭借其稳定性和灵活性赢得了工程师的青睐。但就像任何工具一样,只有真正理解它的特性才能发挥最大价值。本文将带您深入TL494的设计细…...
车企携手Tech Soft 3D:基于 HOOPS 工具集打造Web端一体化工程可视化解决方案
随着汽车行业向智能化、电动化转型,整车研发体系正在发生深刻变化。围绕多平台架构、跨区域协同以及供应链一体化,企业对于工程数据的使用方式提出了更高要求——不仅要“能管理”,更要“能流动、能协同”。 为推动核心工程系统向浏览器化、…...
CCC数字钥匙Release 3实战:如何用BLE/UWB实现无钥匙进入(附避坑指南)
CCC数字钥匙Release 3实战:BLE/UWB无钥匙进入系统开发全解析 当你的手机靠近车辆时,车门自动解锁——这种科幻般的体验正通过CCC数字钥匙Release 3标准变为现实。作为汽车电子工程师,我曾用nRF5340开发板搭配UWB模块完整实现了这套系统&#…...
YOLO-v5实战:用预训练模型快速检测图片中的物体
YOLO-v5实战:用预训练模型快速检测图片中的物体 1. 引言:为什么选择YOLO-v5 在计算机视觉领域,物体检测是一项基础而重要的任务。YOLO(You Only Look Once)系列模型因其速度快、精度高的特点,成为工业界和…...
通义千问1.8B-Chat部署教程:Supervisor管理服务,稳定运行不中断
通义千问1.8B-Chat部署教程:Supervisor管理服务,稳定运行不中断 1. 项目概述 通义千问1.5-1.8B-Chat-GPTQ-Int4是阿里云推出的轻量级对话模型,经过GPTQ-Int4量化后,显存需求仅约4GB,非常适合在消费级GPU或边缘设备上…...
Pixel Language Portal效果展示:多轮对话上下文跨语种一致性保持
Pixel Language Portal效果展示:多轮对话上下文跨语种一致性保持 1. 产品概览 **像素语言跨维传送门(Pixel Language Portal)**是一款突破性的多语言交互工具,基于腾讯Hunyuan-MT-7B核心引擎构建。不同于传统翻译工具的机械感,它将语言转换…...
解锁浏览器潜能:用户脚本实用指南
解锁浏览器潜能:用户脚本实用指南 【免费下载链接】greasyfork An online repository of user scripts. 项目地址: https://gitcode.com/gh_mirrors/gr/greasyfork 你是否常常觉得浏览器功能不够用?想让网页自动完成重复操作?希望个性…...
千问3.5-2B在办公提效场景:会议白板照片文字提取+要点总结实战
千问3.5-2B在办公提效场景:会议白板照片文字提取要点总结实战 1. 办公场景的痛点与解决方案 1.1 会议记录的传统困境 每次开完会,最让人头疼的就是整理会议记录了。特别是那些在白板上写满讨论要点的会议,你需要: 对着白板照片…...
Graphormer实战教程:基于ogb库加载PCQM4M数据微调模型示例
Graphormer实战教程:基于ogb库加载PCQM4M数据微调模型示例 1. 引言 Graphormer是一种创新的分子属性预测模型,采用纯Transformer架构的图神经网络设计。它专门针对分子图(原子-键结构)的全局结构建模与属性预测任务,…...
AI辅助开发:让快马AI智能生成自适应Win10镜像下载管理工具
AI辅助开发:让快马AI智能生成自适应Win10镜像下载管理工具 最近在折腾一个Windows系统镜像下载管理工具,发现传统下载方式存在不少痛点:下载源选择困难、网络波动导致中断、版本特性不透明。正好接触到InsCode(快马)平台的AI辅助开发功能&am…...
