当前位置: 首页 > article >正文

对话式AI与信息抽取技术探索

“帮助人们可靠地获取信息……这是我的动力”某机构学者Heng Ji领导UIUC的Blender实验室她的使命是将真正有价值的信息与噪声区分开来。作者Sean O’Neill2023年8月2日阅读时长6分钟曾经我们可以自信地抓住周围的信息线索将它们编织成有用的知识因为质量较高的线索往往更突出。如今当我们被信息海啸裹挟时很难知道该获取什么、该信任哪些信息。某机构学者Heng Ji伊利诺伊大学厄巴纳-香槟分校UIUC的计算机科学教授毕生致力于帮助我们区分信号与噪声。某机构学者Heng Ji领导Blender实验室致力于构建一个未来计算机能够辨别精确、简洁且可靠的知识。“这是一个挑战但如果我们不解决它这将成为一个严重的社会问题”Ji说她也是某机构-UIUC交互式对话体验人工智能中心AICE的主任。“帮助人们可靠地获取信息以便他们做出正确的选择这是我的动力。”为此Ji领导UIUC的Blender实验室致力于构建一个信息可及的未来计算机能够从信息海啸中辨别出精确、简洁、可靠的知识。不仅如此她表示我们还将能够通过自然语言与计算机对话来获取这些可靠知识。“我们想知道谁对谁做了什么、在哪里、何时实体、事件和行动主张与反主张它们之间的相互联系然后理解这一切”Ji说。Ji应对这一挑战的关键方法是自然语言处理NLP以及她在信息抽取IE方面的开创性工作。态势报告信息抽取的根源可以追溯到信息理解会议MUC这是美国国防高级研究计划局在20世纪80年代末启动的一系列活动。该计划由Ralph Grishman共同领导他后来成为Ji的博士导师。如今Ji正将信息抽取带回其本源她的团队在三月份展示了一项名为SmartBook的技术该项目得到了美国国防高级研究计划局DARPA和美国国家科学基金会的支持。在灾难时期如全球大流行病或持续冲突中如俄罗斯入侵乌克兰良好的决策需要收集关于地面现实的全面情报。在冲突中这种情报被称为态势报告sitreps。分析师和人道主义工作者必须每天收集并消化大量最新文件然后将其与广泛的本地和文化知识以及灾难的更广泛动态相结合。只有这样分析师才能创建有用的态势报告供军事领导人或政治家用于制定战略决策。这是一个难以自动化的过程。2022年Ji遇到了非营利组织Data Friendly Space该组织每两周制作一次乌克兰危机的态势分析报告。“我想通过自动化他们的态势报告初稿来帮助这个团队这样他们就可以把时间花在自己真正擅长的事情上——利用他们的专业知识来完善该初稿添加具有战略重要性的信息并提出建议。”Ji和她的合作者由美国陆军研究实验室的Clare Voss领导提出的方案是SmartBook框架。以乌克兰危机为案例研究SmartBook消化来自互联网的大量新闻数据自动提取包括事件、地点、人物、武器和军事行动在内的信息并将所有这些整合起来生成态势报告。这些报告以时间线结构呈现将重大事件作为章节相关的战略问题作为章节标题并在相应摘要下附上信息来源链接。一切都是自动化的。图1SmartBook中关于俄乌冲突态势报告的嵌套信息示例。跟随粉色部分查看一个为期两周的时间线如何被分章节为一系列关键事件每个事件又分支为与战略问题相关的章节标题。每个战略问题又链接到相关的主张每个主张都有事实证据和相关的知识元素实体和事件支持。虽然SmartBook使用大语言模型LLMs根据从新闻来源提取的主张生成摘要图1右下角但它只是SmartBook框架中的众多组件之一。例如仅靠ChatGPT无法生成结构化的态势报告尤其是因为它没有基于最新信息进行训练。而且大语言模型容易产生幻觉生成的信息或“答案”不基于源新闻数据导致输出可能不准确、误导或完全虚构。当一位专家分析师被要求编辑SmartBook生成的态势报告时他们在文档中添加了更多细节但只删除了约2%的内容。“这表明SmartBook可以作为分析师扩展生成态势报告的良好起点”Ji说。这个早期版本的SmartBook依赖于英文新闻报道但Ji的团队目前正在增加信息源和语言的多样性以生成更全面的图景。药物发现Ji的另一个热情是将她的技能应用于支持药物发现。Ji设想了一个未来医生可以写几个句子描述治疗特定患者的定制药物然后收到具有所需特性的药物精确结构进而可以按需测试和合成。目前单一新药的开发可能需要十多年时间成本超过十亿美元。Ji和她的团队开发了一种新颖的学习框架能够联合表示分子和语言并实现两者之间的转换。“我接受的是计算语言学家的训练所以我倾向于将一切视为外语包括分子、图像或视频”她说。该框架名为MolT5——一个自监督学习框架用于在大量未标记的自然语言文本和分子字符串表示分子结构的符号系统上预训练模型。给定一个分子字符串Ji和她的团队报告称MolT5将提供包含该分子药物、原子和化学特性的文本描述。反过来向MolT5提供所需分子特性的描述它将生成最符合该描述的分子字符串。其思路是MolT5或其后续版本将允许化学家利用人工智能技术通过自然语言描述发现新药物。人机交互今年三月Ji通过成为AICE的创始主任加强了某机构与UIUC之间的关系。AICE旨在开发新的对话式人工智能系统这些系统能够自动学习、推理、更新自身知识并以更多模态进行交互。“如果你的数字助手也能阅读你喜欢的书籍、观看你喜欢的电影它们就能与你进行更有知识、更丰富、更有趣的对话”Ji说。“这将使与它们的互动更加自然——更加人性化。”AICE的另一个重点是提高对话式人工智能系统的真实性、公平性和透明度。现代信息海啸真的能被驯服吗“创造力和真实性之间有一个权衡”Ji说“但我相信我们可以设计新颖的算法来实现这两个目标。”对话式人工智能热潮Ji的整个职业生涯都在从事自然语言处理工作对于正在考虑将其作为研究领域的学生特别是考虑到大语言模型的繁荣她会告诉他们什么“首先保持乐观这个大语言模型浪潮令人兴奋尽管它给很多学生带来了冲击尤其是那些已经处于论文中期阶段的学生”Ji说。“虽然大语言模型似乎关闭了一些研究途径但它们开辟了重要的新途径例如结构化预测、跨文档推理、大语言模型的理论理解、事实错误纠正等等。”Ji还提到中国谚语“树挪死人挪活”并建议将学术和行业研究相结合。自三月份以来Ji本人作为某机构学者与Alexa组织合作。“我选择了某机构因为它提供了解决实际问题的机会”她说。例如Ji正在与某机构的大语言模型团队合作开发系统以减少和防止幻觉。“通过某机构我希望我所贡献的想法能成为下一代人工智能系统的一部分让众多客户感受到其益处。这是一种与学术界截然不同的衡量成功的方式令人耳目一新。”研究领域对话式人工智能标签自然语言处理、大语言模型、学术合作、伊利诺伊大学厄巴纳-香槟分校FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

相关文章:

对话式AI与信息抽取技术探索

“帮助人们可靠地获取信息……这是我的动力” 某机构学者Heng Ji,领导UIUC的Blender实验室,她的使命是将真正有价值的信息与噪声区分开来。 作者:Sean O’Neill,2023年8月2日,阅读时长6分钟 曾经,我们可以自…...

AI智能体架构:更复杂不一定更好

为什么更智能的智能体架构并不总能提升效果 我对智能体将给知识工作带来的影响依然持乐观态度。正如我在之前的文章中所指出的,那些由明确规则和成熟系统塑造的领域(包括会计和合同管理)已经看起来非常适合这种自动化。但即使机遇真实存在&am…...

解锁数码影像的胶片灵魂:t3mujinpack开源胶片模拟方案全解析

解锁数码影像的胶片灵魂:t3mujinpack开源胶片模拟方案全解析 【免费下载链接】t3mujinpack Collection of film emulation presets for open-source RAW developer software Darktable. 项目地址: https://gitcode.com/gh_mirrors/t3/t3mujinpack 在数字摄影…...

如何让JSON数据在前端项目中优雅可视化和交互?

如何让JSON数据在前端项目中优雅可视化和交互? 【免费下载链接】json-formatter-js Render JSON objects in beautiful HTML (pure JavaScript) 项目地址: https://gitcode.com/gh_mirrors/js/json-formatter-js 在复杂的前端开发场景中,JSON数据…...

从零开始:5个必知的图像篡改检测数据集下载与使用指南(附避坑提醒)

从零开始:5个必知的图像篡改检测数据集下载与使用指南(附避坑提醒) 当你第一次接触图像篡改检测领域时,最令人头疼的往往不是算法本身,而是如何找到合适的数据集。我曾见过不少研究生花费数周时间在各大论坛和GitHub仓…...

别再手动整理了!用这个Python脚本,一键把TMM刮的演员图灌进Jellyfin

解放双手!Python自动化脚本实现TMM演员图无缝迁移至Jellyfin 每次打开Jellyfin看到那些缺失的演员头像,是不是总有种美中不足的感觉?作为影视库管理员,我们都希望自己的媒体库尽善尽美。但现实是,Jellyfin默认的演员图…...

Windows窗口截图+OpenCV实战:用Python做个自动寻路导航系统

Windows窗口截图OpenCV实战:构建智能寻路导航系统 从游戏自动化到智能导航的技术实现 在数字时代,我们经常需要处理各种界面自动化任务,从游戏辅助到软件测试,再到智能导航系统。想象一下,如果能让你编写的程序像人类一…...

Rufus技术转型中的兼容性管理:从Windows 7支持终止看开源项目的演进策略

Rufus技术转型中的兼容性管理:从Windows 7支持终止看开源项目的演进策略 【免费下载链接】rufus The Reliable USB Formatting Utility 项目地址: https://gitcode.com/GitHub_Trending/ru/rufus 技术变革背景:软件生命周期与系统迭代的必然冲突 …...

为什么你的音乐收藏需要一个智能歌词管家?163MusicLyrics全攻略

为什么你的音乐收藏需要一个智能歌词管家?163MusicLyrics全攻略 【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 作为一名音乐爱好者,你是否曾经历…...

3步实现微信聊天记录永久管理,让珍贵对话不再流失

3步实现微信聊天记录永久管理,让珍贵对话不再流失 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeChatMsg…...

如何用Depressurizer拯救混乱的Steam游戏库?3个高效管理技巧

如何用Depressurizer拯救混乱的Steam游戏库?3个高效管理技巧 【免费下载链接】Depressurizer A Steam library categorizing tool. 项目地址: https://gitcode.com/gh_mirrors/de/Depressurizer 你是否也曾面对Steam库里上百款游戏却找不到想玩的那一款&…...

零基础入门:星图平台私有化部署Qwen3-VL:30B,Clawdbot飞书接入完整指南

零基础入门:星图平台私有化部署Qwen3-VL:30B,Clawdbot飞书接入完整指南 1. 项目概述与准备工作 1.1 为什么选择Qwen3-VL:30B? Qwen3-VL:30B是目前最强的多模态大模型之一,具备以下核心优势: 强大的视觉理解能力&am…...

银河麒麟系统下VSCode安装全攻略:从下载到桌面图标配置(附QT开发环境搭建)

银河麒麟系统下VSCode与QT开发环境深度配置指南 在国产操作系统逐渐普及的今天,银河麒麟作为一款基于Linux的国产操作系统,正受到越来越多开发者的关注。对于习惯使用VSCode进行开发的程序员来说,如何在银河麒麟系统上高效配置开发环境成为一…...

终极指南:如何在5分钟内免费制作专业级LRC歌词文件

终极指南:如何在5分钟内免费制作专业级LRC歌词文件 【免费下载链接】lrc-maker 歌词滚动姬|可能是你所能见到的最好用的歌词制作工具 项目地址: https://gitcode.com/gh_mirrors/lr/lrc-maker 你是否曾经为了给心爱的歌曲添加歌词而花费数小时手动…...

YimMenu全面指南:从零开始掌握GTA V菜单工具

YimMenu全面指南:从零开始掌握GTA V菜单工具 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu …...

ECU-TEST实战:如何用TCF文件高效管理DBC、A2L、ODX等测试描述文件?

ECU-TEST实战:TCF文件高效管理DBC、A2L、ODX的工程化实践 当测试用例从实验室走向产线,从单一车型扩展到多平台变体,DBC、A2L、ODX等描述文件的版本管理往往成为效率瓶颈。某新能源车企的测试团队曾统计,工程师平均每天要切换7次不…...

Ollama拉取模型遇EOF重试上限?从网络到缓存的深度排错指南

1. 遇到EOF重试上限错误时的心态调整 第一次看到"Error: max retries exceeded: EOF"这个报错时,我正坐在电脑前准备测试一个新的大语言模型。说实话,这个错误信息让我有点懵——它既没有明确告诉我哪里出了问题,也没给出具体的解决…...

如何高效提取Unity游戏资源:AssetStudio的完整实战指南

如何高效提取Unity游戏资源:AssetStudio的完整实战指南 【免费下载链接】AssetStudio AssetStudio - Based on the archived Perfares AssetStudio, I continue Perfares work to keep AssetStudio up-to-date, with support for new Unity versions and additional…...

猫抓插件终极指南:5分钟掌握网页视频下载神器

猫抓插件终极指南:5分钟掌握网页视频下载神器 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否经常遇到心仪的视频只能在网页播放…...

如何将B站碎片化缓存视频合并为完整MP4?这个Android工具给你答案

如何将B站碎片化缓存视频合并为完整MP4?这个Android工具给你答案 【免费下载链接】BilibiliCacheVideoMerge 项目地址: https://gitcode.com/gh_mirrors/bi/BilibiliCacheVideoMerge 想象一下这样的场景:你在地铁上打开手机,准备观看…...

一站式高效图像矢量化解决方案:从位图到无限缩放的矢量转换

一站式高效图像矢量化解决方案:从位图到无限缩放的矢量转换 【免费下载链接】vectorizer Potrace based multi-colored raster to vector tracer. Inputs PNG/JPG returns SVG 项目地址: https://gitcode.com/gh_mirrors/ve/vectorizer 图像矢量化是现代数字…...

手柄优化与跨平台适配:DS4Windows让PS手柄在PC上焕发新生

手柄优化与跨平台适配:DS4Windows让PS手柄在PC上焕发新生 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows 在PC游戏世界中,找到一款得心应手的控制器配置工具往往比…...

新手福音:无需下载安装,在快马平台直接上手体验wsl开发

作为一个刚接触WSL的新手,最头疼的就是漫长的下载安装过程。记得我第一次尝试在Windows上安装WSL时,光是等待wsl --install命令完成就花了近一个小时,中间还因为网络问题失败了好几次。这种体验对初学者来说真的很劝退。 后来我发现了一个更简…...

告别激活烦恼:用快马AI一键生成文件自动分类工具提升工作效率

最近工作中经常遇到文件杂乱无章的问题,特别是从不同渠道收集的资料散落在各个文件夹里。作为一个追求效率的程序员,我决定用Python写个自动分类工具。没想到在InsCode(快马)平台上,只用几句话描述需求就生成了完整可用的代码,整个…...

快马平台十分钟搭建vmware虚拟机web管理原型,告别环境配置烦恼

最近在做一个虚拟化相关的项目,需要快速搭建一个VMware虚拟机管理工具的原型。传统方式需要本地安装各种软件,配置环境特别麻烦。后来发现用InsCode(快马)平台可以十分钟搞定,分享下我的实现过程。 项目规划 首先明确原型需要实现的核心功能&…...

ai辅助开发:让快马智能体为你规划与优化openclaw本地部署方案

AI辅助开发:让快马智能体为你规划与优化OpenClaw本地部署方案 最近在尝试本地部署OpenClaw项目时,发现这个任务远比想象中复杂。作为一个资源有限的小型开发者,如何在有限的GPU内存环境下运行这个项目成了大难题。好在发现了InsCode(快马)平…...

FactoryBluePrints:戴森球计划工厂蓝图系统的架构设计与技术实现

FactoryBluePrints:戴森球计划工厂蓝图系统的架构设计与技术实现 【免费下载链接】FactoryBluePrints 游戏戴森球计划的**工厂**蓝图仓库 项目地址: https://gitcode.com/GitHub_Trending/fa/FactoryBluePrints FactoryBluePrints是一个针对《戴森球计划》游…...

开源串流方案实现跨设备游戏:Sunshine自建串流服务器全指南

开源串流方案实现跨设备游戏:Sunshine自建串流服务器全指南 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 当你想在平板上畅玩PC端3A大作,或在客厅电视上体…...

高效部署全能屏幕工具:eSearch实战安装与配置指南

高效部署全能屏幕工具:eSearch实战安装与配置指南 【免费下载链接】eSearch 截屏 离线OCR 搜索翻译 以图搜图 贴图 录屏 万向滚动截屏 屏幕翻译 Screenshot Offline OCR Search Translate Search for picture Paste the picture on the screen Screen recorder Omni…...

5步激活群晖设备AI人脸识别功能

5步激活群晖设备AI人脸识别功能 【免费下载链接】Synology_Photos_Face_Patch Synology Photos Facial Recognition Patch 项目地址: https://gitcode.com/gh_mirrors/sy/Synology_Photos_Face_Patch 一、诊断被锁定的AI能力 许多群晖用户在使用Synology Photos时会遇到…...