当前位置: 首页 > news >正文

实用版ChatBing论文阅读助手教程+新测评

实用版ChatBing论文阅读助手新测评

AI进化(更新)的速度太快了!距离我上次的【Chat嘴硬!基于NewBing的论文调研评测报告】,才四天,它已经进化到快能用的地步了!

这次是我刷B站看到热门推荐,有一个up主,分享了一个教程:新版Bing——科研人的终极解决方案

他介绍了新版的edge dev版本浏览器,可以分栏阅读你的pdf文件。

他视频做了演示,我这篇帖子,做一个详细的教程,以及测评,把上次网页版的Chat嘴硬的问题拿过来再问一次。

另外,我要检测一下,它到底是读取了pdf网页的全文内容,还是只读取了标题,然后去网络上搜索,重新生成。

教程:

  1. newbing排队,点击www.bing.com/new,加入waitlist,把它推荐的那两个优先操作做了,否则时间再长都不行!
  2. 如果你已经排上队了,会给发一个邮件提醒你。听说最近排队周期变长了,之前是四天左右。
  3. 下载dev版本的edge浏览器!网址是:https://www.microsoftedgeinsider.com/zh-cn/download?ch
  4. 安装后,登录你排上队的邮箱

可以网页版本聊天,但这次我们测试的是侧边栏的功能。
5. 用Edge dev浏览器打开本地PDF格式的论文,会看到右上角有一个bing的案件,点开,会看到下面的图片:在这里插入图片描述

  1. 接下来就可以让chatbing来帮你总结文章了。

重现测评:

  1. 根据这篇文章的内容,帮我回答下面的问题:Q1论文试图解决什么问题?Q2这是否是一个新的问题?Q3这篇文章要验证一个什么科学假设?Q4有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?Q5论文中提到的解决方案之关键是什么?
  2. 根据这篇文章的内容,再帮我总结一下下面的问题:Q6论文中的实验是如何设计的?Q7用于定量评估的数据集是什么?代码有没有开源?Q8论文中的实验及结果有没有很好地支持需要验证的科学假设?Q9这篇论文到底有什么贡献?Q10下一步呢?有什么工作可以继续深入?

这两段文字输入进去,它并不能回答:
在这里插入图片描述
我将问题翻译成英文就可以了。

在这里插入图片描述

然后出现了诡异的问答场景:
在这里插入图片描述

我怀疑这次版本更新对中文数据的处理大大削弱了。

下面的提问,我换了一种prompt方式:

用中文回答下面几个问题:“Q5论文中提到的解决方案之关键是什么? Q6论文中的实验是如何设计的?
Q7用于定量评估的数据集是什么?代码有没有开源? Q8论文中的实验及结果有没有很好地支持需要验证的科学假设? Q9这篇论文到底有什么贡献?
Q10下一步呢?有什么工作可以继续深入?”

这次可以正常的回复了:

根据网页和搜索结果,我尝试用中文回答下面几个问题:

Q5论文中提到的解决方案之关键是什么?
A5论文中提到的解决方案之关键是情景自我模仿学习(ESIL),它是一种新颖的自我模仿算法,它结合了轨迹选择模块和自适应损失函数,可以加速强化学习。与原始的自我模仿学习算法不同,它利用了整个情景(无论成功与否)并根据**事后经验重放(HER)**将它们转化为“专家”轨迹。–没什么问题

Q6论文中的实验是如何设计的? A6论文中的实验是基于OpenAI
Fetch环境中的四个机器人操纵任务设计的。这些任务都是目标条件的,并且只提供稀疏奖励。论文将ESIL与PPO结合,并与其他几种基线算法进行比较,包括PPO、SIL+PPO、HER+DDPG、GAIL等。论文还测试了不同的轨迹选择方法对ESIL性能的影响。–没什么问题

Q7用于定量评估的数据集是什么?代码有没有开源? A7用于定量评估的数据集就是OpenAI
Fetch环境中提供的四个任务:FetchReach-v1、FetchPush-v1、FetchSlide-v1和FetchPickAndPlace-v1。这些任务都有一个目标位置和一个抓取物体,机器人需要通过移动物体来达到目标位置。论文在第五节给出了详细的实验设置和评估指标。代码已经开源在这里:https://github.com/TianhongDai/esil-hindsight. --除了Reach任务没有抓取物体之外,其他的比较正常,尤其是链接。

Q8论文中的实验及结果有没有很好地支持需要验证的科学假设?
A8论文中的实验及结果有很好地支持需要验证的科学假设。科学假设是ESIL可以解决连续控制问题,并且在稀疏奖励环境下优于其他算法。从图3和表2可以看出,ESIL在所有四个任务上都达到了最高或接近最高的成功率,并且收敛速度也很快。此外,从图4可以看出,轨迹选择模块对ESIL性能有显著影响,而自适应损失函数也有一定作用。---------其他的没什么问题,我特意去看了图4,轨迹选择模块确实重要。但是图4只是展示了自适应损失函数的变化趋势,没有讨论作用,所以这段表述有待商榷。

Q9这篇论文到底有什么贡献? A9这篇论文主要有以下三个贡献:

提出了一种新颖的情景自我模仿学习(ESIL)算法,它可以利用整个情景进行事后经验重放,并结合轨迹选择模块和自适应损失函数加速强化学习。
实证地回答了[20]提出的一个开放问题:是否可以将SIL应用于连续控制问题,并且在稀疏奖励环境下有效。-----introduction里面的内容,属于重新表述
在四个复杂度不同但具有挑战性和代表性的机器人操纵任务上取得了最佳或接近最佳性能。
Q10下一步呢?有什么工作可以继续深入?
A10根据第六节给出

A10后面没有输出了,这段回答比较长,断掉了。

这段表述还是比较理想的,我把上次的问题重新再问一下:
在这里插入图片描述
这次回答正常了,但偶尔还会出现它把你的中文,翻译成英文的情况,非常诡异。

再次分析这段回答的正确性:

Q1: 论文试图解决的问题是如何用自我模仿学习(SIL)来加速强化学习(RL),并解决连续控制任务中稀疏奖励的挑战。
没问题,但信息量低
Q2: 这不是一个全新的问题,但是现有的自我模仿学习算法在处理连续控制环境和稀疏奖励时表现不佳,因此论文提出了一种新的自我模仿学习算法:情节自我模仿学习(ESIL)。
没问题,但信息量低
Q3:
这篇文章要验证的科学假设是情节自我模仿学习可以利用整个情节中的后见之明(HER)来改进自我模仿学习,并通过引入一个轨迹选择模块来过滤不相关或不良的样本,从而提高在目标导向、稀疏奖励和连续控制任务中的性能。
没问题,信息量稍微高点。

再测试一下论文细节:
在这里插入图片描述

直接提问,会报错,因为新版本,连续对话能力也被削弱了~~~

在这里插入图片描述
看来有点问题,没有结合文章内容回答,我继续尝试用英文直接提问:

在这里插入图片描述

看来也有问题,不知道是不是我提问的方式不对。

探讨是根据pdf内容,还是重新进行网页搜索:

实验设置,我将这个pdf只保留第一页,其他的用别的文章的内容替换掉,我想看看,它会按照谁的来。
第一页是上面那篇文章,第二页到之后都是DHER算法:
在这里插入图片描述

我尝试了几次,获得了下面的截图:
在这里插入图片描述

有点诡异,所以它是有读取PDF的功能,但是提问会经常出问题,也许是用多了,现在直接不给我回复了~~~

放弃测评~~~

相关文章:

实用版ChatBing论文阅读助手教程+新测评

实用版ChatBing论文阅读助手新测评 AI进化(更新)的速度太快了!距离我上次的【Chat嘴硬!基于NewBing的论文调研评测报告】,才四天,它已经进化到快能用的地步了! 这次是我刷B站看到热门推荐&…...

Linux生产者消费模型

1.生产者消费者模型 1.1 为何要使用生产者消费者模型 生产者消费者模式就是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯,而通过阻塞队列来进行通讯,所以生产者生产完数据之后不用等待消费者处理,直接…...

动态网站开发讲课笔记01:网页开发基础

文章目录零、本讲学习目标一、HTML基础&#xff08;一&#xff09;HTML简介1、HTML2、HTML语言的基本格式3、<!DOCTYPE>声明4、html标签5、head标签6、body标签7、编写第一个网页8、关于编写HTML文件的工具9、HTML标签概述&#xff08;1&#xff09;单标签&#xff08;2&…...

互联网新时代要到来了(三)什么是ChatGPT?

什么是ChatGPT? tips&#xff1a;资料来自百度百科、openAi、CSDN博主「琦在江湖飘」、Info写作社区、CSDN博主「夕小瑶」等网页资料。 1.什么是ChatGPT&#xff1f; ChatGPT&#xff08;全名&#xff1a;Chat Generative Pre-trained Transformer&#xff09;&#xff0c;…...

华为OD机试 - 环中最长子串(Python)

环中最长子串 题目 给你一个字符串s,首尾相连成一个环形, 请你在环中找出o字符出现了偶数次最长子字符串的长度. 备注: 1 <= s.lenth <= 5x10^5 s只包含小写英文字母 输入 输入是一个小写字母组成的字符串 输出描述 输出是一个整数 示例一 输入 alolobo输出 6说…...

安全—08day

ApabilitiesapabilitiesLinux Capabilities线程的 capabilitiesPermitted 允许Effective 有效InheritableBoundingAmbient文件的 capabilitiesPermittedInheritableEffective运行 execve() 后 capabilities 的变化案例分析方法一、依次执行如下命令方法二、iptables端口转发方案…...

【看表情包学Linux】进程地址空间 | 区域和页表 | 虚拟地址空间 | 初识写时拷贝

&#x1f923; 爆笑教程 &#x1f449; 《看表情包学Linux》&#x1f448; 猛戳订阅 &#x1f525; &#x1f4ad; 写在前面&#xff1a;本章核心主题为 "进程地址空间"&#xff0c;会通过验证 Linux 进程的地址空间来开头&#xff0c;抛出 "同一个值能有不同内…...

响应式编程(Reactive Programming)介绍

什么是响应式编程? 在互联网上有着一大堆糟糕的解释与定义。Wikipedia 一如既往的空泛与理论化。Stackoverflow 的权威答案明显不适合初学者。Reactive Manifesto 看起来是你展示给你公司的项目经理或者老板们看的东西。微软的 Rx terminology"Rx Observables LINQ S…...

你不知道的美化列表的两种方案-<ul/><ol/>

大家好,我是半夏👴,一个励志更文1000篇沙雕程序员.如果喜欢我的文章,可以关注➕ 点赞 一起学习交流前端,成为更优秀的工程师~ CSS为什么这么难学?一定是你方法不对!!! 只要一杯奶茶,CSS任你学。学透CSS,拒绝切图仔!!! 学透CSS传送门 文章目录 学透CSS传送门前言li…...

2023年浙江理工大学MBA招生考试初试成绩查询及复查的通知

根据往年的情况&#xff0c;2023浙江理工大学MBA考试初试成绩可能将于2月21日下午两点公布&#xff0c;为了广大考生可以及时查询到自己的分数&#xff0c;杭州达立易考教育为大家汇总了信息。 一、成绩查询考生可登录中国研究生招生信息网“全国硕士研究生招生考试初试成绩查询…...

SVNH数据(.mat格式)转为图像(.png)matlab代码

一、获取SVNH数据数据集集地址-http://ufldl.stanford.edu/housenumbers/提供两种格式的数据&#xff1a;1.Format 1&#xff0c;图像形式&#xff0c;压缩包2.Format 2&#xff0c; .mat格式的数据10 classes, 1 for each digit. Digit 1 has label 1, 9 has label 9 and 0 ha…...

【总结】vim教程与详细命令总结,该来的躲不掉啊晕

B站|公众号&#xff1a;啥都会一点的研究生 目录写在前面vim的工作模式普通模式编辑模式命令模式命令大全&#xff0c;最详细&#xff08;建议收藏&#xff09;光标的移动插入模式 - 插入/追加文本编辑文本选择文本&#xff08;可视化模式&#xff09;可视化模式命令剪切, 复制…...

git基础使用

Git安装 去安装>> 正式开始 进入要管理的目录&#xff0c;执行命令 git init 查看管理目录下的状态 git status 注&#xff1a;新增文件和修改过后的文件都是红色 管理指定文件&#xff08;红变绿&#xff09; 指定文件&#xff1a;git add 文件名 当前目录下所有&…...

基于 RANSAC 的地面分割与聚类算法

文章目录 前言 一、算法原理 参考文献 二、代码实现 1.头文件 2.源文件...

JVM内存模型深度剖析与优化

1. Java语言的跨平台特性 2. JVM整体结构及内存模型 堆存放着对象信息每个线程都会分配一块属于自己的内存空间&#xff08;栈空间&#xff09; 每个方法都会分配一块内存空间&#xff08;栈桢&#xff09;&#xff0c;上图 compute()方法 和 main()方法 都会分配到各自的栈桢空…...

软件性能测试定义中文

From Wiki软件性能测试在软件质量保证中&#xff0c;性能测试通常是一种测试实践&#xff0c;用于确定系统在特定工作负载下的响应能力和稳定性方面的表现。它还可以用于调查、测量、验证或验证系统的其他质量 属性&#xff0c;例如可扩展性、可靠性和资源使用。性能测试是性能…...

2023情人节正经性生活调研报告

省时查报告-专业、及时、全面的行研报告库省时查方案-专业、及时、全面的营销策划方案库【免费下载】2023年1月份热门报告合集ChatGPT的发展历程、原理、技术架构及未来方向2023年&#xff0c;如何科学制定年度规划&#xff1f;《底层逻辑》高清配图今天给大家带来丁香医生最新…...

22- 隐马尔科夫HMM (NLP自然语言算法) (算法)

HMM模型 : from hmmlearn.hmm import GaussianHMM model GaussianHMM(n_components3,n_iter100000, covariance_type diag) model.fit(X) 1、马尔科夫链 有向图模型&#xff08;贝叶斯网络&#xff09;&#xff1a;用有向图表示变量间的依赖关系&#xff1b; 无向图模型&…...

gRPC是什么,怎么用

RPC是什么 RPC是指远程过程调用&#xff0c;也就是说两台服务器A&#xff0c;B&#xff0c;一个应用部署在A服务器上&#xff0c;想要调用B服务器上应用提供的函数/方法&#xff0c;由于不在一个内存空间&#xff0c;不能直接调用&#xff0c;需要通过网络来表达调用的语义和传…...

linux基本功系列之fdisk命令实战

文章目录前言一. fdisk命令介绍二. 语法格式及常用选项三. 参考案例3.1 列出每个分区的大小3.2 分区操作3.2.1 添加硬盘3.2.2 开启虚拟机并分区3.3.3 分区完成后进行格式化挂载四 . 设置分区自动挂载前言 大家好&#xff0c;又见面了&#xff0c;我是沐风晓月&#xff0c;本文…...

【OSG学习笔记】Day 18: 碰撞检测与物理交互

物理引擎&#xff08;Physics Engine&#xff09; 物理引擎 是一种通过计算机模拟物理规律&#xff08;如力学、碰撞、重力、流体动力学等&#xff09;的软件工具或库。 它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互&#xff0c;广泛应用于 游戏开发、动画制作、虚…...

Zustand 状态管理库:极简而强大的解决方案

Zustand 是一个轻量级、快速和可扩展的状态管理库&#xff0c;特别适合 React 应用。它以简洁的 API 和高效的性能解决了 Redux 等状态管理方案中的繁琐问题。 核心优势对比 基本使用指南 1. 创建 Store // store.js import create from zustandconst useStore create((set)…...

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件&#xff0c;常用于在两个集合之间进行数据转移&#xff0c;如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。 核心特性与用法 基本属性 v-model&#xff1a;绑定右侧列表的值&…...

前端导出带有合并单元格的列表

// 导出async function exportExcel(fileName "共识调整.xlsx") {// 所有数据const exportData await getAllMainData();// 表头内容let fitstTitleList [];const secondTitleList [];allColumns.value.forEach(column > {if (!column.children) {fitstTitleL…...

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具

文章目录 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染2. 插值表达式{{}}3. 访问数据和修改数据4. vue响应式5. Vue开发者工具--方便调试 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染 准备容器引包创建Vue实例 new Vue()指定配置项 ->渲染数据 准备一个容器,例如: …...

Robots.txt 文件

什么是robots.txt&#xff1f; robots.txt 是一个位于网站根目录下的文本文件&#xff08;如&#xff1a;https://example.com/robots.txt&#xff09;&#xff0c;它用于指导网络爬虫&#xff08;如搜索引擎的蜘蛛程序&#xff09;如何抓取该网站的内容。这个文件遵循 Robots…...

解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错

出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上&#xff0c;所以报错&#xff0c;到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本&#xff0c;cu、torch、cp 的版本一定要对…...

Hive 存储格式深度解析:从 TextFile 到 ORC,如何选对数据存储方案?

在大数据处理领域&#xff0c;Hive 作为 Hadoop 生态中重要的数据仓库工具&#xff0c;其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式&#xff0c;很多开发者常常陷入选择困境。本文将从底…...

华硕a豆14 Air香氛版,美学与科技的馨香融合

在快节奏的现代生活中&#xff0c;我们渴望一个能激发创想、愉悦感官的工作与生活伙伴&#xff0c;它不仅是冰冷的科技工具&#xff0c;更能触动我们内心深处的细腻情感。正是在这样的期许下&#xff0c;华硕a豆14 Air香氛版翩然而至&#xff0c;它以一种前所未有的方式&#x…...

Netty从入门到进阶(二)

二、Netty入门 1. 概述 1.1 Netty是什么 Netty is an asynchronous event-driven network application framework for rapid development of maintainable high performance protocol servers & clients. Netty是一个异步的、基于事件驱动的网络应用框架&#xff0c;用于…...