当前位置: 首页 > news >正文

2023-02-16:干活小计

数学公式表示学习:

大约耗时:2 hours

在做了一些工作后重读论文:MathBERT: A Pre-Trained Model for Mathematical Formula Understanding

这是本篇论文最重要的idea:Current pre-trained models neglect the structural features and the semantic correspondence between formula and its context.(其中很fancy的一点是注重每个数学公式的strctural features,即关注数学公式的结构
用三个下游任务验证,并且效果很好:
mathematical information retrieval
formula topic classifification
formula headline generation
三个预训练任务
Masked Language Modeling (MLM) :text representations
模仿BERT的MLM,其中三个字段即公式latex、context、OPT的信息可以互补。
Context Correspondence Prediction (CCP):latentrelationshipbetweenformula and context
模仿BERT的NSP,二分类任务。
Masked Substructure Prediction (MSP):semantic-levelstructureofformula
预训练任务数据集:
We build a large dataset containing more than 8.7 million formula-context pairs which are extracted from scientifific articles published on arXiv.org1 and train MathBERT on it.
Arxiv bulk data available from Amazon S32 is the complete set of arxiv documents which contains source TEX fifiles and processed PDF fifiles. “\begin{equation} . . .\end{equation}” is used as the matching pattern to extract single-line display formulas from LATEX source in these TEX files.
toolkit LATEX tokenizer in im2markup to tokenize separately formulas
OPT translator in TangentS4 to convert LATEX codes into OPTs
模型的backbone:
An enhanced multi-layer bidirectional Transformer [Vaswani et al., 2017] is built as the backbone of MathBERT, which is modifified from vanilla BERT.
MathBERT的输入:we concatenate the formula LATEX tokens, context and operators together as the input of MathBERT.
attention 机制的细节:the attention mechanism in Transformer is modifified based on the structure of OPT to enhance its ability of capturing structural information
具体的细节看原文,这里上个图

 

architecture:
思政知识图谱:
大约耗时3~5hours
我们要理清当前的任务:
1.爬取彰显政治精神的case:爬取的网站?学习爬虫?
2.对case的分类:学学学
3.对case的挂载:学学学
学习爬虫:
将一段文本打上NER的标签的方法:人工;百度打标;(jieba、hanNLP准确率不太行)
MRE:
今天开了分享会,没时间做这个了,只能路上想想idea
自学:
回家看看花书,芜湖

         

相关文章:

2023-02-16:干活小计

数学公式表示学习: 大约耗时:2 hours 在做了一些工作后重读论文:MathBERT: A Pre-Trained Model for Mathematical Formula Understanding 这是本篇论文最重要的idea:Current pre-trained models neglect the structural featu…...

Linux上安装LaTeX

Linux上安装LaTeX1. 安装1.1 下载安装texlive1.2 配置中文1.3 安装XeLatex1.4 安装编辑器1.5 设置默认支持中文编译1.6 配置环境路径2. latex配置2.1 latex自动安装宏包2.2 latex手动安装宏包2.2.1. 查找包2.2.2. 生成.sty文件2.2.3. 复制到配置文件夹3. 更新包3. 卸载参考链接…...

webpack -- 无法将“webpack”项识别为 cmdlet

webpack : 无法将“webpack”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正确,然后再试一次。 1.检测是否是版本太高而只能使用脚手架进行打包 webpack4.x的打包已经不能用webpack 文件a …...

对齐与非对齐访问

对齐与非对齐访问 什么是非对齐访问 在机器指令层面,当尝试从不能被 N 整除 (addr % N ! 0) 的起始地址读取 N 字节的数据时即发生了非对齐内存访问。举例而言,从地址 0x10004 读取 4 字节是可以的,然而从地址 0x10005 读取 4 字节数据将会…...

基于感知动作循环的层次推理用于视觉问答

title:Hierarchical Reasoning Based on Perception Action Cycle for Visual Question Answering 基于感知动作循环的层次推理用于视觉问答 文章目录title:[Hierarchical Reasoning Based on Perception Action Cycle for Visual Question Answering](…...

python中的.nc文件处理 | 05 NetCDF数据的进一步分析

​ NetCDF数据的进一步分析 比较不同数据集、不同季节的气候数据 import os import numpy as np import pandas as pd import matplotlib.pyplot as plt import cartopy.crs as ccrs import cartopy.feature as cfeature import seaborn as sns import geopandas as gpd import…...

GGX发布全新路线图,揭示具备 Layer0 特性且可编程的跨链基建生态

据彭博社报道,具备跨链通信且可编程的 Layer0 基础设施协议 Golden Gate (GGX) 已进行了 两年的线下开发,于近日公开发布了最新的路线图,该路线图不仅显示了该生态在过去两年的发展历程,也披露了 2023 年即将实现的重要里程碑。 G…...

taro+vue3 搭建一套框架,适用于微信小程序和H5

这里写tarovue3 搭建一套框架,适用于微信小程序和H5TaroVue3 搭建适用于微信小程序和 H5 的框架的大致步骤:TaroVue3 搭建适用于微信小程序和 H5 的框架的大致步骤: 安装 Taro。可以在终端输入以下命令进行安装: npm install -g…...

C++:模板初阶(泛型编程、函数模板、类模板)

文章目录1 泛型编程2 函数模板2.1 函数模板概念2.2 函数模板格式2.3 函数模板的原理2.4 函数模板的实例化2.5 模板参数的匹配原则3 类模板3.1 类模板的定义格式3.2 类模板的实例化1 泛型编程 所谓泛型,也就是通用型的意思。 在以往编写代码时,我们常常…...

把数组排成最小的数 AcWing(JAVA)

输入一个正整数数组,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个。 例如输入数组 [3,32,321][3,32,321],则打印出这 33 个数字能排成的最小数字 321323321323。 数据范围 数组长度 [0,500][0,500]。 样例&#x…...

4.3 PBR

1. 实验目的 熟悉PBR的应用场景掌握PBR的配置方法2. 实验拓扑 PBR实验拓扑如图4-8所示: 图4-8:PBR 3. 实验步骤 (1) IP地址的配置 R1的配置 <Huawei>system-view...

hmac — 加密消息签名和验证

hmac — 加密消息签名和验证 1.概述 它的全称叫做Hash-based Message Authentication Code: 哈希消息认证码&#xff0c;从名字中就可以看出来这个hmac基于哈希函数的&#xff0c;并且还得提供一个秘钥key&#xff0c;它的作用就是用来保证消息的完整性&#xff0c;不可篡改。…...

AWS攻略——使用ACL限制访问

文章目录确定出口IP修改ACL修改主网络ACL修改入站规则修改子网ACL创建子网ACL新增入站规则新增出站规则关联子网假如我们希望限制只有公司内部的IP可以SSH登录到EC2&#xff0c;则可以考虑使用ACL来实现。 我们延续使用《AWS攻略——创建VPC》的案例&#xff0c;在它的基础上做…...

【已解决】关于 luckysheet 设置纯文本,解决日期格式回显错误的办法

目录 一、现象 二、分析 三、思考过程 五、解决 六、参考链接 一、现象 在excel里面输入内容&#xff0c;如 2023-2-17 12:00 保存后&#xff0c;传回后端的数据被转化成了 数值类型&#xff0c;这显然是一种困扰。 如图所示 二、分析 查阅了文档和一些博客发现 Lucky…...

Jackson

first you need to add dependence: gradle: implementation com.fasterxml.jackson.core:jackson-databind:2.13.1 implementation com.fasterxml.jackson.datatype:jackson-datatype-jsr310:2.13.1原生Jackson的使用示例: /*** 原生Jackson的使用示例*/ public class Jacks…...

字节软件测试岗:惨不忍睹的三面,幸好做足了准备,月薪19k,已拿offer

我今年25岁&#xff0c;专业是电子信息工程本科&#xff0c;19年年末的时候去面试&#xff0c;统一投了测试的岗位&#xff0c;软件硬件都有&#xff0c;那时候面试的两家公司都是做培训的&#xff0c;当初没啥钱&#xff0c;他们以面试为谎言再推荐去培训这点让我特别难受。后…...

vue使用axios发送post请求携带json body参数,后端使用@RequestBody进行接收

前言 最近在做自己项目中&#xff0c;做一个非常简单的新增用户场景&#xff0c;但是使用原生axios发送post请求的时候&#xff0c;还是踩了不少坑的。 唉&#xff0c;说多了都是泪&#xff0c;小小一个新增业务&#xff0c;在自己前后端一起开发的时候&#xff0c;硬是搞了好…...

【python百炼成魔】python之列表详解

文章目录一. 列表的概念1.1 列表是什么&#xff1f;1.2 为什么要使用列表&#xff1f;1.3 列表的定义二. 列表的增删改查操作2.1 列表的读取2.2 列表的切片2.3 列表的查询操作2.3.1 not in ,in 表达式2.3.2 列表元素遍历2.4 列表元素的增加操作2.4.1 append()的相关用法2.4.2 e…...

如何学习 Web3

在本文中&#xff0c;我将总结您可以采取的步骤来学习 Web3。从哪儿开始&#xff1f;当我们想要开始新事物时&#xff0c;我们需要一些指导&#xff0c;以免在一开始就卡住。但我们都是不同的&#xff0c;我们有不同的学习方式。这篇文章基于我学习 Web3 的非常个人的经验。路线…...

大数据框架之Hadoop:MapReduce(一)MapReduce概述

1.1MapReduce定义 MapReduce是一个分布式计算框架&#xff0c;用于编写批处理应用程序&#xff0c;是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序&#xff0c;并发运行在一…...

认知神经科学研究报告【20260055】

文章目录VAR 平稳向量自回归任务&#xff1a;L3 自适应涌现与 L4 经验迁移实验报告一、实验目标二、实验设计三、核心成果3.1 自主模型发现3.2 L4 跨任务经验迁移3.3 自主因果推断四、涌现层级评估六、结论VAR 平稳向量自回归任务&#xff1a;L3 自适应涌现与 L4 经验迁移实验报…...

BUUCTF:[网鼎杯 2018]Fakebook 漏洞链深度剖析:从SQL注入到SSRF的实战利用

1. 初探Fakebook&#xff1a;信息收集与源码泄露 打开题目链接后&#xff0c;我习惯性地在URL后添加/robots.txt进行探测。这个文件就像网站的"藏宝图"&#xff0c;经常能发现开发者不想被公开的路径。果然&#xff0c;在这里发现了/user.php.bak这个备份文件。下载后…...

别再只调分辨率了!手把手教你用VESA时序搞定1080P显示器驱动(附Verilog代码)

从VESA标准到FPGA实战&#xff1a;构建1080P显示驱动的完整逻辑链 在数字显示技术领域&#xff0c;驱动一块19201080分辨率的屏幕远不止是配置几个参数那么简单。当我第一次尝试用FPGA驱动高清显示器时&#xff0c;发现大多数教程都停留在"设置分辨率"的层面&#xf…...

当AI学会“看”画质:用Python和PyTorch动手实现一个无参考图像质量评估模型

用Python和PyTorch构建无参考图像质量评估模型&#xff1a;从理论到实践 在数字图像爆炸式增长的时代&#xff0c;图像质量评估(IQA)技术正成为计算机视觉领域不可或缺的一环。无论是社交媒体平台的内容审核、医疗影像的自动分析&#xff0c;还是监控系统的实时画面处理&#x…...

GitLab实战指南:从零到一的团队协作与项目管理

1. GitLab入门&#xff1a;从注册到组织搭建 第一次接触GitLab时&#xff0c;很多人会被它丰富的功能搞得晕头转向。作为一个长期使用GitLab管理技术团队的老鸟&#xff0c;我想分享一套真正实用的入门方法。GitLab本质上是一个集代码托管、项目管理、CI/CD于一体的DevOps平台&…...

【最新v2.7.1 版本安装包】OpenClaw 新手部署全攻略,无需命令零代码一键安装保姆级

Windows 一键部署 OpenClaw 教程&#xff5c;5 分钟搞定本地 AI 智能体&#xff0c;告别复杂配置 核心亮点 零代码门槛&#xff5c;全程可视化&#xff5c;无需手动配置运行环境&#xff5c;内置全部运行依赖&#xff5c;28 万 Tokens 额度 前言 2026 年开源圈热度居高不下…...

如何快速提取B站视频素材:新手必备的DownKyi音画分离指南

如何快速提取B站视频素材&#xff1a;新手必备的DownKyi音画分离指南 【免费下载链接】downkyi 哔哩下载姬downkyi&#xff0c;哔哩哔哩网站视频下载工具&#xff0c;支持批量下载&#xff0c;支持8K、HDR、杜比视界&#xff0c;提供工具箱&#xff08;音视频提取、去水印等&am…...

从零到一:深入拆解 I/O 多路复用的前世今生与实战选型

1. 从单线程阻塞到多路复用&#xff1a;I/O模型的进化史 第一次写网络程序时&#xff0c;你可能遇到过这样的场景&#xff1a;服务器在accept()一个客户端连接后&#xff0c;整个程序就像被冻住一样&#xff0c;直到这个客户端发送数据才能继续运行。这就是最原始的阻塞I/O模型…...

从零构建现代桌面应用导航:PyQt-Fluent-Widgets导航组件实战指南

从零构建现代桌面应用导航&#xff1a;PyQt-Fluent-Widgets导航组件实战指南 【免费下载链接】PyQt-Fluent-Widgets A fluent design widgets library based on C Qt/PyQt/PySide. Make Qt Great Again. 项目地址: https://gitcode.com/gh_mirrors/py/PyQt-Fluent-Widgets …...

RK3368安卓9.0升级后卡Recovery?手把手教你分析串口日志定位NAND/EMMC分区问题

RK3368安卓9.0升级卡Recovery&#xff1f;串口日志深度分析与NAND/EMMC分区修复实战 当RK3368平台设备在升级Android 9.0固件后卡在Recovery界面时&#xff0c;这往往意味着底层存储设备的分区加载机制出现了问题。作为一名嵌入式开发者&#xff0c;能够从串口日志中抽丝剥茧定…...