当前位置: 首页 > article >正文

Explosion公司2019年NLP技术盘点与突破

一月1月15日联合创始人接受了NLP Highlights播客采访讨论了Prodigy工具、训练语料来源以及NLP系统数据标注面临的挑战并分享了简化这一流程的思路。1月16日联合创始人出现在德国巴伐利亚广播公司的纪录片《问问你的冰箱》中展示了spaCy、Prodigy以及团队的日常工作。1月28日在瑞士洛桑的应用机器学习日活动中联合创始人发表了题为《使用spaCy和Prodigy进行NLP的实用迁移学习》的演讲重点讨论了使用大型原始文本语料库信息初始化模型的趋势以及如何在spaCy和Prodigy中应用此类技术。二月2月1日构建了一个针对新斯坦福NLP库的封装器使其最先进的通用依赖模型可直接在spaCy流程中使用。2月1日合并了Sofie Van Landeghem提交的重要PR通过重构正则表达式并用re模块替换原有实现在不影响准确率的前提下将各语言的tokenization速度提升了2-3倍。2月6日发布了一段FAQ视频其中分享了针对NLP标注和训练的实用技巧与建议。2月18日Prodigy v1.7.0发布该版本支持在单实例中设置多用户会话引入了为Prodigy Teams开发的多人协作功能并增加了即时提交设置及对所有界面自定义CSS和JavaScript的支持。三月3月9日联合创始人在TalkPython播客中讨论了如何构建软件业务分享了Explosion背后的故事。3月18日spaCy v2.1正式发布修复了大量待处理问题大幅优化文档提升了速度与准确率简化了安装流程并增加了ULMFit/BERT/ELMo风格的语言模型预训练等新功能。3月20日Prodigy升级至v1.8以支持spaCy v2.1新增了预训练支持、用于审核标注和解决冲突的Recipe、多项选择文本分类、便捷的数据集合并等功能。3月25日联合创始人在波兹南的WiDS活动上分享了NLP中的实用迁移学习。四月4月17日发布了广受欢迎的免费课程《使用spaCy进行高级NLP》该交互式应用旨在帮助任何想学习spaCy的人。五月5月7日联合创始人在TWiML播客中探讨了spaCy对工业级用例的关注以及开源生态。5月12日spaCy v2.1.4发布改进了训练命令并修复了常规错误。六月6月3日联合创始人在Data Hack Radio播客中回顾了spaCy的早期发展、指导库开发的核心思想并将机器学习与Web开发进行类比。6月24日Sofie Van Landeghem加入团队。她拥有12年机器学习与NLP工程经验现为spaCy核心开发者主要负责spaCy的新实体链接组件并参与了Hugging Face Neuralcoref组件的开发。七月7月4-6日在柏林举办了首届大型会议spaCy IRL活动吸引了200名与会者13位演讲者包括Yoav Goldberg和Sebastian Ruder的主旨演讲同时举办了培训课程。7月18日联合创始人在Python Bytes播客中讨论了fast.ai的NLP新课程以及使用Polyaxon进行模型训练和实验管理。7月29日联合创始人被Mouse vs. Python博客评为本周PyDev并在采访中分享了编程经历、与Python的结缘及当前项目。八月8月2日发布spacy-transformers库通过新开发的接口库连接spaCy与Hugging Face的实现支持在spaCy中使用BERT、GPT-2、XLNet等大型Transformer模型。8月21日推出新视频系列《使用spaCy进行NLP入门》由Vincent Warmerdam主讲。8月29日联合创始人在BR.de的文章中讨论了过度寄望于人工智能的潜在陷阱。九月9月2日Walter Henry加入团队主要负责协助团队进行各类运营工作。9月4日spacy-transformers v0.4.0发布增加了对Hugging Face DistilBERT的支持并提供了预打包的DistilBERT模型。9月15日计算语言学家Adriane Boyd加入团队拥有自2005年以来的研究经验2012年获得博士学位。她先参与社区贡献后全职加入致力于内部数据集与评估系统并对库进行了大量改进。9月19日为感谢社区向超过1100人发送了第二轮贴纸。9月24日Vincent在《使用spaCy进行NLP入门 #2》中演示了如何构建基于规则的匹配器来引导NER流程。十月10月1日FastAPI作者Sebastián Ramírez加入团队从哥伦比亚迁至柏林参与即将推出的Prodigy Teams及其他项目开发。10月2日spaCy v2.2发布主要新特性包括新增挪威语和立陶宛语核心模型、荷兰语NER增加更多标签、磁盘占用减少5-10倍、短语匹配速度提升10倍、高效序列化Doc对象集合、以及用于文本分类训练和数据调试的CLI。10月10日在布鲁塞尔META-FORUM 2019上与某中心一同荣获META杰出技术认可奖。10月12-15日在印度PyCon大会上团队成员演示了如何通过spacy-transformers在spaCy中使用BERT等大型Transformer模型并发表了题为《让他们写代码》的主旨演讲。10月31日spaCy v2.2.2发布新增nlp.pipe的多进程支持、简化GPU安装与设置、初步支持卢森堡语、模型修复及对未来API的前向兼容支持。十一月11月1日联合创始人接受德国杂志Kulturnews采访。11月8日在慕尼黑的Hacking Machine Learning聚会上联合创始人分享了关于spacy-transformers的内容。11月9日在Zündfunk Netzkongress上联合创始人发表了题为《人工智能超越炒作》的演讲探讨了盲目相信技术的危险以及对过去浪漫化的问题。11月9日联合创始人就其在Zündfunk的演讲接受了德国巴伐利亚广播电视台的简短采访。11月22日sense2vec项目更新发布了新库、模型和演示应用基于Reddit评论数十亿词训练的词向量对比了2015年至2019年的语言变化。11月22日开始开源部分数据集和NLP示例项目每个项目包含1000个标注示例、训练/评估脚本、结果、数据可视化工具以及在Reddit上训练的强大tok2vec权重。11月28日联合创始人登上SourceSort平台讨论如何用商业开发者工具Prodigy来补充拥有超过15000颗星的开源项目spaCy。十二月12月7日Vincent在《使用spaCy进行NLP入门 #3》中讲解了如何将基于规则的原型过渡到NER模型以获得更快的实验结果并建立机器学习基线。12月9日联合创始人总结了2019年AI领域的关键趋势并展望了2020年的发展。12月9日团队成员在Practical AI播客中讲述了spaCy的历史并探讨了NLP的最新趋势。12月18日Prodigy v1.9发布包含全新网站、大量新文档、新的训练和数据转换Recipe、用于组合界面的“块”UI、自由文本输入UI以及众多其他功能。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

相关文章:

Explosion公司2019年NLP技术盘点与突破

一月 1月15日:联合创始人接受了NLP Highlights播客采访,讨论了Prodigy工具、训练语料来源以及NLP系统数据标注面临的挑战,并分享了简化这一流程的思路。1月16日:联合创始人出现在德国巴伐利亚广播公司的纪录片《问问你的冰箱》中…...

AgentAi视频模型开发对接部署使用

一、整体方案设计思路 要制作一个基于 ComfyUI Dify Python Web LangChain 的视频生成网站并部署到服务器,核心逻辑是: LangChain:处理用户文本输入,进行意图解析、文案生成、关键词提取(如视频主题/风格/时长&am…...

2026.3.14总结

今日天气很好,和同事一起去了科技馆,在科技馆看到了物理上上的很多原理,模型,以及一些实验器材。逛完科技馆后,一起去附近的台球室打球,2h花了32元,虽然不是很喜欢打台球,但这种娱乐…...

快递成本对比程序,输入重量目的地,对比多家快递价格,选最省钱,时效合适的

快递成本对比程序一、实际应用场景描述在电商蓬勃发展的今天,无论是个人寄件还是商家发货,都面临着快递选择的难题。同一件包裹,不同快递公司的价格可能相差数倍,而时效和服务质量也各有差异。比如,寄一个3公斤的包裹从…...

喷水织机卷取机构设计(SolidWorks+CAD)

喷水织机卷取机构作为织造系统的核心模块,承担着控制织物下机张力、调节卷取密度及维持织物平整度的重要功能。其设计精度直接影响织物质量与设备运行稳定性,需通过机械结构与运动逻辑的协同优化实现高效传动。卷取机构通过齿轮组、卷取辊及张力调节装置…...

通达信【反弹低吸寻机】副图与反弹低吸寻机指标公式CJM99分享源码

通达信【反弹低吸寻机】副图与反弹低吸寻机指标公式CJM99分享源码 【反弹低吸寻机副图】 G1:CLOSE; G2:LOW; G3:OPEN; G4:HIGH; CJM01:(G4G2G1)/3; CJM02:VOL/IF(G4G2,4,G4-G2); CJM03:IF(CAPITAL0,CJM02*(CJM01-MIN(G1,G3)),CJM02*IF(G4G2,1,MIN(G3,G1)-G2)); CJM04:IF(CAPITA…...

盘式电机:电动车驱动的未来之星

车用轴向磁通双转子电机设计(盘式电机) 为了满足车用驱动电机 AFDRSRM 设计要求,引入了 AFDRSRM “重合度”的概念,以 12/8 极与 8/6 极 AFDRSRM 为例,进行了重合度比较。 推导了 AFDRSRM 输出功率和平均转矩表达式。 …...

XlsxWriter,一款强大的Python Excel处理库

我用Python处理Excel使用最多的库是XlsxWriter和Pandas,Pandas不用多说,很适合将Excel转为DataFrame格式来处理数据。这里重点讲讲XlsxWriter,非常擅长写入Excel。它在github上有近4K的star,在众多Excel库中可能也是最好用最容易上…...

收藏!使用Python读写Excel大数据文件的3种有效方式

有人问Python怎么处理大数据的Excel文件?Python处理Excel大数据有很多方式,不过Excel撑死才104万行,能有多大的数据,一般用pandas读取就可以,pandas有专门的分块读取模式,比如说每次只读取1万行用于处理&am…...

高并发40问学习笔记

1.缓存穿透缓存穿透是指大量访问不能在缓存中命中,需要去数据库访问,但数据库能支持的访问量是有限的,如果缓存命中率可能下降1%都会影响数据库的可用性。解决缓存穿透最简单的方式是限制请求的数量,然后对于一个具体的问题&#…...

基于时间约束的CAN网络管理一致性测试方法复现与实现

基于时间约束的CAN网络管理一致性测试方法复现与实现 摘要 随着智能网联汽车的快速发展,车载电子控制单元(ECU)数量激增,对车载网络系统的安全性和稳定性提出了更高要求。AUTOSAR CAN网络管理作为汽车网络的基础功能,其一致性测试是保障系统可靠性的关键。本文复现了张建…...

windows用户有哪些必备的小工具软件能大幅提高效率而且占用资源低?

Windows用户,你是否也遇到过这些痛点?软件占用大、效率不高、甚至广告多?本文整理13款经过网友高口碑的工具,涵盖截图标注、文件管理、系统优化等场景,全部免费无广告且占用资源极低,助你打造丝滑流畅的办公…...

百考通精准贴合不同学历层次的学术需求,实现了从选题到成文的全流程赋能

开题报告,作为学术研究的“蓝图”,是决定论文成败的关键一步。它不仅需要清晰阐述研究背景、意义与方法,更要精准锚定创新方向,让导师与评审专家一眼看到研究的价值与可行性。然而,从选题构思到框架搭建,从…...

百考通AI:让文献综述从繁琐的体力劳动,转变为高效的学术洞察过程

在学术研究的起步阶段,文献综述是每一位研究者都必须跨越的门槛。它不仅是对已有研究的系统梳理,更是确立研究价值、搭建理论框架的基石。然而,从海量文献中筛选核心观点、梳理研究脉络、提炼学术洞见,往往需要耗费大量时间与精力…...

守住学术原创底线!百考通AIGC检测,筑牢学术原创防线,为论文合规性保驾护航

随着AIGC技术融入学术写作场景,便捷高效的辅助创作模式,让无数学子在毕业论文撰写中事半功倍。但与此同时,学术领域对AI生成内容的审核愈发严格,隐性的AI痕迹若未及时排查,极易引发学术合规性质疑,成为毕业…...

告别学术焦虑:百考通AI,覆盖从“降AI痕迹”到“降重复率”的全场景需求

在学术写作的最后一公里,每一位学子都曾面临过相似的困境:呕心沥血完成的论文,却因重复率过高卡在查重关口;借助AI辅助创作的内容,又因AI生成痕迹明显而面临学术不端的质疑。在毕业与学位的压力之下,如何高…...

百考通精准贴合学生写作痛点,打造“一站式”毕业论文服务体系

在高等教育普及化的今天,毕业论文早已成为每一位学子学术生涯中绕不开的关键节点。从专科到本科,从选题构思到终稿定稿,无数学生在文献检索、框架搭建、内容撰写中耗费大量精力,却仍面临思路卡顿、格式混乱、查重率高等难题。而百…...

阅读进度管理程序,设定目标自动计算每日页数,提醒打卡,提高读完率,不半途而废。

阅读进度管理程序一、实际应用场景描述在知识爆炸的时代,很多人都有阅读计划,比如"今年读50本书"、"每月精读2本专业书"。然而,现实往往是:买书如山倒,读书如抽丝。读者常常因为工作忙碌、缺乏明确…...

java+vue+SpringBoot火车票订票系统(程序+数据库+报告+部署教程+答辩指导)

源代码数据库LW文档(1万字以上)开题报告答辩稿ppt部署教程代码讲解代码时间修改工具 技术实现 开发语言:后端:Java 前端:vue框架:springboot数据库:mysql 开发工具 JDK版本:JDK1.8 数…...

java+vue+SpringBoot学生用品采购系统(程序+数据库+报告+部署教程+答辩指导)

源代码数据库LW文档(1万字以上)开题报告答辩稿ppt部署教程代码讲解代码时间修改工具 技术实现 开发语言:后端:Java 前端:vue框架:springboot数据库:mysql 开发工具 JDK版本:JDK1.8 数…...

java+vue+SpringBoot校园外卖服务系统(程序+数据库+报告+部署教程+答辩指导)

源代码数据库LW文档(1万字以上)开题报告答辩稿ppt部署教程代码讲解代码时间修改工具 技术实现 开发语言:后端:Java 前端:vue框架:springboot数据库:mysql 开发工具 JDK版本:JDK1.8 数…...

当SEM图像遇上有限元:一场颗粒流动的数字化探险

颗粒流动本案例首先基于图像处理方法将SEM二维扫描图像的孔隙模型进行了提取,如图1所示。 将提取的孔隙网络模型导入有限元软件中进行渗流模拟,模拟结果如图2所示。 2.5x.显微镜下的SEM二维扫描图像就像一幅抽象画,密密麻麻的颗粒堆叠中藏着无…...

直接上结论:10个AI论文网站测评!继续教育毕业论文写作必备工具推荐

随着人工智能技术的不断发展,学术写作工具正逐渐成为科研工作者不可或缺的助手。尤其是在继续教育领域,面对繁重的论文写作任务,如何高效、高质量地完成毕业论文成为众多学员关注的焦点。为了帮助用户更好地选择适合自己的AI写作工具&#xf…...

建议收藏|全行业通用降AIGC平台 千笔 VS 锐智 AI

在AI技术迅速发展的今天,越来越多的学生和研究人员开始依赖AI工具辅助论文写作,以提升效率、优化内容。然而,随着学术审查标准的不断升级,AI生成内容的痕迹越来越容易被检测出来,导致论文AI率超标成为困扰无数人的难题…...

科研党收藏!AI论文工具 千笔 VS PaperRed,全场景通用写作首选

随着人工智能技术的迅猛迭代与普及,AI辅助写作工具已逐步渗透到高校学术写作场景中,成为专科生、本科生、研究生完成毕业论文不可或缺的辅助手段。越来越多面临毕业论文压力的学生,开始依赖各类AI工具简化写作流程、提升创作效率。但与此同时…...

看完就会:专科生专用降AI率软件 千笔·专业降AIGC智能体 VS 万方智搜AI

在AI技术迅速发展的今天,越来越多的学生开始借助AI工具辅助论文写作,提升效率、优化内容。然而,随着学术查重系统对AI生成内容的识别能力不断增强,论文中的“AI痕迹”问题日益凸显,成为影响毕业和论文质量的关键隐患。…...

用 JSON 列存储扩展字段后,如何优雅地支持高频查询?MySQL 虚拟列 + 联合索引实战指南

文章目录1. 引言:当业务需要“无限”扩展字段2. 方案回顾:JSON 列存储的优点与痛点2.1 为什么选 JSON 列?2.2 痛点:JSON 内部字段无法直接使用索引3. 虚拟列:把 JSON 字段“抽”出来变成真实列3.1 创建虚拟列提取 JSON…...

【太奶学IT】80岁太奶都能学会:计算机到底是怎么算加法的?从开关到CPU全讲透

文章目录一、别被术语吓住:计算机只会做一件事——通电与断电1.1 计算机不比算盘高级多少,只是做得特别快1.2 为什么不用我们平时的 0-9,非要用 0 和 1?二、二进制怎么记?太奶教你用“灯泡法”一秒学会2.1 别背公式&am…...

GESP六级

2026年3月,何意味?今年五级“有史以来最简单的一次”,六级“很难”。还不如直接考五级跳七级了呢……我旁边考五级的,只花了一个小时:“差不多了!走人!”就走了。我愣是坐满了两个小时。T1选数D…...

导师推荐 8个降AIGC工具:多场景适配+降AI率全测评

在当前学术写作和论文撰写中,AI生成内容的痕迹越来越明显,许多学生和研究者都面临着AIGC率过高、查重率不达标的问题。如何在保持原文语义和逻辑的同时,有效降低AI痕迹,成为了一个亟待解决的难题。而AI降重工具的出现,…...