实用版ChatBing论文阅读助手教程+新测评
实用版ChatBing论文阅读助手新测评
AI进化(更新)的速度太快了!距离我上次的【Chat嘴硬!基于NewBing的论文调研评测报告】,才四天,它已经进化到快能用的地步了!
这次是我刷B站看到热门推荐,有一个up主,分享了一个教程:新版Bing——科研人的终极解决方案
他介绍了新版的edge dev版本浏览器,可以分栏阅读你的pdf文件。
他视频做了演示,我这篇帖子,做一个详细的教程,以及测评,把上次网页版的Chat嘴硬的问题拿过来再问一次。
另外,我要检测一下,它到底是读取了pdf网页的全文内容,还是只读取了标题,然后去网络上搜索,重新生成。
教程:
- newbing排队,点击
www.bing.com/new
,加入waitlist,把它推荐的那两个优先操作做了,否则时间再长都不行! - 如果你已经排上队了,会给发一个邮件提醒你。听说最近排队周期变长了,之前是四天左右。
- 下载dev版本的edge浏览器!网址是:https://www.microsoftedgeinsider.com/zh-cn/download?ch
- 安装后,登录你排上队的邮箱
可以网页版本聊天,但这次我们测试的是侧边栏的功能。
5. 用Edge dev浏览器打开本地PDF格式的论文,会看到右上角有一个bing的案件,点开,会看到下面的图片:
- 接下来就可以让chatbing来帮你总结文章了。
重现测评:
- 根据这篇文章的内容,帮我回答下面的问题:Q1论文试图解决什么问题?Q2这是否是一个新的问题?Q3这篇文章要验证一个什么科学假设?Q4有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?Q5论文中提到的解决方案之关键是什么?
- 根据这篇文章的内容,再帮我总结一下下面的问题:Q6论文中的实验是如何设计的?Q7用于定量评估的数据集是什么?代码有没有开源?Q8论文中的实验及结果有没有很好地支持需要验证的科学假设?Q9这篇论文到底有什么贡献?Q10下一步呢?有什么工作可以继续深入?
这两段文字输入进去,它并不能回答:
我将问题翻译成英文就可以了。
然后出现了诡异的问答场景:
我怀疑这次版本更新对中文数据的处理大大削弱了。
下面的提问,我换了一种prompt方式:
用中文回答下面几个问题:“Q5论文中提到的解决方案之关键是什么? Q6论文中的实验是如何设计的?
Q7用于定量评估的数据集是什么?代码有没有开源? Q8论文中的实验及结果有没有很好地支持需要验证的科学假设? Q9这篇论文到底有什么贡献?
Q10下一步呢?有什么工作可以继续深入?”
这次可以正常的回复了:
根据网页和搜索结果,我尝试用中文回答下面几个问题:
Q5论文中提到的解决方案之关键是什么?
A5论文中提到的解决方案之关键是情景自我模仿学习(ESIL),它是一种新颖的自我模仿算法,它结合了轨迹选择模块和自适应损失函数,可以加速强化学习。与原始的自我模仿学习算法不同,它利用了整个情景(无论成功与否)并根据**事后经验重放(HER)**将它们转化为“专家”轨迹。–没什么问题Q6论文中的实验是如何设计的? A6论文中的实验是基于OpenAI
Fetch环境中的四个机器人操纵任务设计的。这些任务都是目标条件的,并且只提供稀疏奖励。论文将ESIL与PPO结合,并与其他几种基线算法进行比较,包括PPO、SIL+PPO、HER+DDPG、GAIL等。论文还测试了不同的轨迹选择方法对ESIL性能的影响。–没什么问题Q7用于定量评估的数据集是什么?代码有没有开源? A7用于定量评估的数据集就是OpenAI
Fetch环境中提供的四个任务:FetchReach-v1、FetchPush-v1、FetchSlide-v1和FetchPickAndPlace-v1。这些任务都有一个目标位置和一个抓取物体,机器人需要通过移动物体来达到目标位置。论文在第五节给出了详细的实验设置和评估指标。代码已经开源在这里:https://github.com/TianhongDai/esil-hindsight. --除了Reach任务没有抓取物体之外,其他的比较正常,尤其是链接。Q8论文中的实验及结果有没有很好地支持需要验证的科学假设?
A8论文中的实验及结果有很好地支持需要验证的科学假设。科学假设是ESIL可以解决连续控制问题,并且在稀疏奖励环境下优于其他算法。从图3和表2可以看出,ESIL在所有四个任务上都达到了最高或接近最高的成功率,并且收敛速度也很快。此外,从图4可以看出,轨迹选择模块对ESIL性能有显著影响,而自适应损失函数也有一定作用。---------其他的没什么问题,我特意去看了图4,轨迹选择模块确实重要。但是图4只是展示了自适应损失函数的变化趋势,没有讨论作用,所以这段表述有待商榷。Q9这篇论文到底有什么贡献? A9这篇论文主要有以下三个贡献:
提出了一种新颖的情景自我模仿学习(ESIL)算法,它可以利用整个情景进行事后经验重放,并结合轨迹选择模块和自适应损失函数加速强化学习。
实证地回答了[20]提出的一个开放问题:是否可以将SIL应用于连续控制问题,并且在稀疏奖励环境下有效。-----introduction里面的内容,属于重新表述
在四个复杂度不同但具有挑战性和代表性的机器人操纵任务上取得了最佳或接近最佳性能。
Q10下一步呢?有什么工作可以继续深入?
A10根据第六节给出
A10后面没有输出了,这段回答比较长,断掉了。
这段表述还是比较理想的,我把上次的问题重新再问一下:
这次回答正常了,但偶尔还会出现它把你的中文,翻译成英文的情况,非常诡异。
再次分析这段回答的正确性:
Q1: 论文试图解决的问题是如何用自我模仿学习(SIL)来加速强化学习(RL),并解决连续控制任务中稀疏奖励的挑战。
没问题,但信息量低
Q2: 这不是一个全新的问题,但是现有的自我模仿学习算法在处理连续控制环境和稀疏奖励时表现不佳,因此论文提出了一种新的自我模仿学习算法:情节自我模仿学习(ESIL)。
没问题,但信息量低
Q3:
这篇文章要验证的科学假设是情节自我模仿学习可以利用整个情节中的后见之明(HER)来改进自我模仿学习,并通过引入一个轨迹选择模块来过滤不相关或不良的样本,从而提高在目标导向、稀疏奖励和连续控制任务中的性能。
没问题,信息量稍微高点。
再测试一下论文细节:
直接提问,会报错,因为新版本,连续对话能力也被削弱了~~~
看来有点问题,没有结合文章内容回答,我继续尝试用英文直接提问:
看来也有问题,不知道是不是我提问的方式不对。
探讨是根据pdf内容,还是重新进行网页搜索:
实验设置,我将这个pdf只保留第一页,其他的用别的文章的内容替换掉,我想看看,它会按照谁的来。
第一页是上面那篇文章,第二页到之后都是DHER算法:
我尝试了几次,获得了下面的截图:
有点诡异,所以它是有读取PDF的功能,但是提问会经常出问题,也许是用多了,现在直接不给我回复了~~~
放弃测评~~~
相关文章:

实用版ChatBing论文阅读助手教程+新测评
实用版ChatBing论文阅读助手新测评 AI进化(更新)的速度太快了!距离我上次的【Chat嘴硬!基于NewBing的论文调研评测报告】,才四天,它已经进化到快能用的地步了! 这次是我刷B站看到热门推荐&…...

Linux生产者消费模型
1.生产者消费者模型 1.1 为何要使用生产者消费者模型 生产者消费者模式就是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯,而通过阻塞队列来进行通讯,所以生产者生产完数据之后不用等待消费者处理,直接…...

动态网站开发讲课笔记01:网页开发基础
文章目录零、本讲学习目标一、HTML基础(一)HTML简介1、HTML2、HTML语言的基本格式3、<!DOCTYPE>声明4、html标签5、head标签6、body标签7、编写第一个网页8、关于编写HTML文件的工具9、HTML标签概述(1)单标签(2&…...

互联网新时代要到来了(三)什么是ChatGPT?
什么是ChatGPT? tips:资料来自百度百科、openAi、CSDN博主「琦在江湖飘」、Info写作社区、CSDN博主「夕小瑶」等网页资料。 1.什么是ChatGPT? ChatGPT(全名:Chat Generative Pre-trained Transformer),…...
华为OD机试 - 环中最长子串(Python)
环中最长子串 题目 给你一个字符串s,首尾相连成一个环形, 请你在环中找出o字符出现了偶数次最长子字符串的长度. 备注: 1 <= s.lenth <= 5x10^5 s只包含小写英文字母 输入 输入是一个小写字母组成的字符串 输出描述 输出是一个整数 示例一 输入 alolobo输出 6说…...

安全—08day
ApabilitiesapabilitiesLinux Capabilities线程的 capabilitiesPermitted 允许Effective 有效InheritableBoundingAmbient文件的 capabilitiesPermittedInheritableEffective运行 execve() 后 capabilities 的变化案例分析方法一、依次执行如下命令方法二、iptables端口转发方案…...

【看表情包学Linux】进程地址空间 | 区域和页表 | 虚拟地址空间 | 初识写时拷贝
🤣 爆笑教程 👉 《看表情包学Linux》👈 猛戳订阅 🔥 💭 写在前面:本章核心主题为 "进程地址空间",会通过验证 Linux 进程的地址空间来开头,抛出 "同一个值能有不同内…...

响应式编程(Reactive Programming)介绍
什么是响应式编程? 在互联网上有着一大堆糟糕的解释与定义。Wikipedia 一如既往的空泛与理论化。Stackoverflow 的权威答案明显不适合初学者。Reactive Manifesto 看起来是你展示给你公司的项目经理或者老板们看的东西。微软的 Rx terminology"Rx Observables LINQ S…...
你不知道的美化列表的两种方案-<ul/><ol/>
大家好,我是半夏👴,一个励志更文1000篇沙雕程序员.如果喜欢我的文章,可以关注➕ 点赞 一起学习交流前端,成为更优秀的工程师~ CSS为什么这么难学?一定是你方法不对!!! 只要一杯奶茶,CSS任你学。学透CSS,拒绝切图仔!!! 学透CSS传送门 文章目录 学透CSS传送门前言li…...

2023年浙江理工大学MBA招生考试初试成绩查询及复查的通知
根据往年的情况,2023浙江理工大学MBA考试初试成绩可能将于2月21日下午两点公布,为了广大考生可以及时查询到自己的分数,杭州达立易考教育为大家汇总了信息。 一、成绩查询考生可登录中国研究生招生信息网“全国硕士研究生招生考试初试成绩查询…...

SVNH数据(.mat格式)转为图像(.png)matlab代码
一、获取SVNH数据数据集集地址-http://ufldl.stanford.edu/housenumbers/提供两种格式的数据:1.Format 1,图像形式,压缩包2.Format 2, .mat格式的数据10 classes, 1 for each digit. Digit 1 has label 1, 9 has label 9 and 0 ha…...

【总结】vim教程与详细命令总结,该来的躲不掉啊晕
B站|公众号:啥都会一点的研究生 目录写在前面vim的工作模式普通模式编辑模式命令模式命令大全,最详细(建议收藏)光标的移动插入模式 - 插入/追加文本编辑文本选择文本(可视化模式)可视化模式命令剪切, 复制…...

git基础使用
Git安装 去安装>> 正式开始 进入要管理的目录,执行命令 git init 查看管理目录下的状态 git status 注:新增文件和修改过后的文件都是红色 管理指定文件(红变绿) 指定文件:git add 文件名 当前目录下所有&…...
基于 RANSAC 的地面分割与聚类算法
文章目录 前言 一、算法原理 参考文献 二、代码实现 1.头文件 2.源文件...

JVM内存模型深度剖析与优化
1. Java语言的跨平台特性 2. JVM整体结构及内存模型 堆存放着对象信息每个线程都会分配一块属于自己的内存空间(栈空间) 每个方法都会分配一块内存空间(栈桢),上图 compute()方法 和 main()方法 都会分配到各自的栈桢空…...
软件性能测试定义中文
From Wiki软件性能测试在软件质量保证中,性能测试通常是一种测试实践,用于确定系统在特定工作负载下的响应能力和稳定性方面的表现。它还可以用于调查、测量、验证或验证系统的其他质量 属性,例如可扩展性、可靠性和资源使用。性能测试是性能…...

2023情人节正经性生活调研报告
省时查报告-专业、及时、全面的行研报告库省时查方案-专业、及时、全面的营销策划方案库【免费下载】2023年1月份热门报告合集ChatGPT的发展历程、原理、技术架构及未来方向2023年,如何科学制定年度规划?《底层逻辑》高清配图今天给大家带来丁香医生最新…...

22- 隐马尔科夫HMM (NLP自然语言算法) (算法)
HMM模型 : from hmmlearn.hmm import GaussianHMM model GaussianHMM(n_components3,n_iter100000, covariance_type diag) model.fit(X) 1、马尔科夫链 有向图模型(贝叶斯网络):用有向图表示变量间的依赖关系; 无向图模型&…...
gRPC是什么,怎么用
RPC是什么 RPC是指远程过程调用,也就是说两台服务器A,B,一个应用部署在A服务器上,想要调用B服务器上应用提供的函数/方法,由于不在一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传…...

linux基本功系列之fdisk命令实战
文章目录前言一. fdisk命令介绍二. 语法格式及常用选项三. 参考案例3.1 列出每个分区的大小3.2 分区操作3.2.1 添加硬盘3.2.2 开启虚拟机并分区3.3.3 分区完成后进行格式化挂载四 . 设置分区自动挂载前言 大家好,又见面了,我是沐风晓月,本文…...
零门槛NAS搭建:WinNAS如何让普通电脑秒变私有云?
一、核心优势:专为Windows用户设计的极简NAS WinNAS由深圳耘想存储科技开发,是一款收费低廉但功能全面的Windows NAS工具,主打“无学习成本部署” 。与其他NAS软件相比,其优势在于: 无需硬件改造:将任意W…...
【Linux】shell脚本忽略错误继续执行
在 shell 脚本中,可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行,可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令,并忽略错误 rm somefile…...

大话软工笔记—需求分析概述
需求分析,就是要对需求调研收集到的资料信息逐个地进行拆分、研究,从大量的不确定“需求”中确定出哪些需求最终要转换为确定的“功能需求”。 需求分析的作用非常重要,后续设计的依据主要来自于需求分析的成果,包括: 项目的目的…...
DockerHub与私有镜像仓库在容器化中的应用与管理
哈喽,大家好,我是左手python! Docker Hub的应用与管理 Docker Hub的基本概念与使用方法 Docker Hub是Docker官方提供的一个公共镜像仓库,用户可以在其中找到各种操作系统、软件和应用的镜像。开发者可以通过Docker Hub轻松获取所…...
【位运算】消失的两个数字(hard)
消失的两个数字(hard) 题⽬描述:解法(位运算):Java 算法代码:更简便代码 题⽬链接:⾯试题 17.19. 消失的两个数字 题⽬描述: 给定⼀个数组,包含从 1 到 N 所有…...

CentOS下的分布式内存计算Spark环境部署
一、Spark 核心架构与应用场景 1.1 分布式计算引擎的核心优势 Spark 是基于内存的分布式计算框架,相比 MapReduce 具有以下核心优势: 内存计算:数据可常驻内存,迭代计算性能提升 10-100 倍(文档段落:3-79…...

相机从app启动流程
一、流程框架图 二、具体流程分析 1、得到cameralist和对应的静态信息 目录如下: 重点代码分析: 启动相机前,先要通过getCameraIdList获取camera的个数以及id,然后可以通过getCameraCharacteristics获取对应id camera的capabilities(静态信息)进行一些openCamera前的…...
精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南
精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南 在数字化营销时代,邮件列表效度、用户参与度和网站性能等指标往往决定着创业公司的增长成败。今天,我们将深入解析邮件打开率、网站可用性、页面参与时…...

Unity | AmplifyShaderEditor插件基础(第七集:平面波动shader)
目录 一、👋🏻前言 二、😈sinx波动的基本原理 三、😈波动起来 1.sinx节点介绍 2.vertexPosition 3.集成Vector3 a.节点Append b.连起来 4.波动起来 a.波动的原理 b.时间节点 c.sinx的处理 四、🌊波动优化…...
docker 部署发现spring.profiles.active 问题
报错: org.springframework.boot.context.config.InvalidConfigDataPropertyException: Property spring.profiles.active imported from location class path resource [application-test.yml] is invalid in a profile specific resource [origin: class path re…...