当前位置: 首页 > news >正文

故事可视化AI

i68,爱六八,链接你我他

StoryWeaver故事可视化

  • 通过知识增强的角色定制技术,实现高质量的故事可视化
  • 论文链接:https://arxiv.org/pdf/2412.07375
  • 项目仓库:https://github.com/Aria-Zhangjl/StoryWeaver
  • 由厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室联合推出
主要功能
  • 角色定制与可视化:根据文本叙述和角色图像生成一系列视觉化的故事图像,精确定制给定角色的形象。
  • 语义对齐:系统能确保生成的图像序列与文本提示在语义上保持一致,即图像内容与文本描述相匹配。
  • 知识图谱应用:系统能理解和表示故事中角色的详细属性和角色间的关系。
  • 多角色互动:StoryWeaver 能处理多角色故事场景,保持每个角色的身份清晰,展现角色间的自然互动。
  • 跨注意力分配:优化多角色故事中的注意力分配,避免身份混合问题。
相关文章
  • StoryWeaver:故事可视化生成模型,快速生成故事绘本,支持处理单角色和多角色的故事可视化任务
  • 开源StoryWeaver为你生成完美的童话故事

StoryTeller长视频描述生成系统

StoryTeller简要
  • 全自动的长视频描述生成系统
  • 字节跳动、上交、北大开源
  • 论文链接:https://arxiv.org/pdf/2411.07076
  • 项目仓库:https://github.com/hyc2026/StoryTeller
  • StoryTeller 在 MovieQA 上超越了所有开源和闭源基线模型,特别是,StoryTeller 的准确率比最强的基线 Gemini-1.5-pro 高出 9.5%
StoryTeller亮点直击
  • 引入音画角色识别任务:提出了音画角色识别任务,通过整合视觉、音频和文本信息,实现对白与角色的精准匹配,从而解决长视频描述中的一致性挑战,包括角色描述和故事逻辑连贯性。
  • StoryTeller系统创新: 开发了StoryTeller系统,包含视频分割模块、音画角色识别模块和身份感知的描述生成模块,生成密集且一致性高的长视频描述,兼顾基础视觉概念和高级剧情信息。
  • 高质量数据集与自动评估方法: 构建了MovieStory101数据集,包含密集标注的三分钟电影片段和对白角色身份标签,同时引入MovieQA自动评估方法,通过GPT-4回答多选问题,以准确率衡量描述质量。
  • 显著性能提升: StoryTeller在MovieQA任务中比最强基线Gemini-1.5-pro提升9.5%准确率,在人类对比评估中表现出+15.56%的优势。同时,将音画角色识别结果输入其他模型也显著提升了它们的长视频描述能力,分别提升5.5%和13.0%的准确率。
StoryTeller相关文章
  • 超Gemini-1.5-pro 9.5%!字节&上交&北大开源StoryTeller:生成一致性高的长视频描述

Story-Adapter长故事可视化

  • 自动生成100帧漫画或动画的分镜图,故事的语义一致性比较好
  • 图片间逻辑清晰,人物场景能保持一致
  • 不需要额外训练可以直接使用
  • 论文链接:https://arxiv.org/abs/2410.06244
  • 官方网站:Story-Adapter
  • 项目仓库:https://github.com/jwmao1/story-adapter

原文链接:https://i68.ltd/notes/posts/20250102-llm-story/

相关文章:

故事可视化AI

i68,爱六八,链接你我他 StoryWeaver故事可视化 通过知识增强的角色定制技术,实现高质量的故事可视化论文链接:https://arxiv.org/pdf/2412.07375项目仓库:https://github.com/Aria-Zhangjl/StoryWeaver由厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏…...

【机器学习篇】从新手探寻到算法初窥:数据智慧的开启之门

文章目录 【机器学习篇】从新手探寻到算法初窥:数据智慧的开启之门前言一、什么是机器学习?二、机器学习的基本类型1. 监督学习(Supervised Learning)2. 无监督学习(Unsupervised Learning)3. 半监督学习&a…...

ffmpeg八大开发库

‌FFmpeg八大库‌是指FFmpeg项目中最重要的八个库,它们各自承担不同的功能,共同构成了FFmpeg的强大功能。以下是这八大库的详细介绍: ‌libavcodec‌:负责音频和视频的编解码。它支持多种编解码器,如H.264、AAC、MP3、…...

【ArcGISPro/GeoScenePro】解决常见的空间参考和投影问题

修复空间参考缺失的图像 数据 https://arcgis.com/sharing/rest/content/items/535efce0e3a04c8790ed7cc7ea96d02d/data 查看属性坐标 查看属性范围 范围值并不是零或接近于零。 这意味着栅格具有范围,因此其已正确进行...

Linux上安装配置单节点zookeeper

直接先去官网下载安装包, https://downloads.apache.org/zookeeper/ 选择合适的版本,然后上传至服务器 解压: tar -zxvf apache-zookeeper-3.9.3-bin.tar.gz创建data和logs目录 mkdir data mkdir logs配置环境变量: vim /etc/p…...

现代光学基础-1

总结自老师的讲义 yt1 目录 光纤通信系统 组成部分三大里程碑技术实例分析 激光器 定义自振荡器的特性组成输出特性应用领域 受激辐射、自然辐射与吸收 LASER的定义受激辐射的特点光与物质的相互作用能量守恒与材料特性净增益条件 谐振器 定义组成部分性能描述 F-P谐振器&am…...

pytorch中nn.Conv2d详解及参数设置原则

文章目录 基础参数1. in_channels (输入通道数)2. out_channels (输出通道数)3. kernel_size (卷积核大小)4. stride (步幅)5. padding (填充)6. dilation (膨胀)7. groups (分组卷积)8. bias (偏置) 如何设置参数?1. **in_channels 和 out_channels(输入…...

T-SQL语言的正则表达式

T-SQL语言的正则表达式 在现代数据库管理系统中,SQL(结构化查询语言)被广泛用于数据的操作与管理。对数据的查询、插入、更新和删除几乎是每一个数据库管理系统中的基本功能。T-SQL(Transact-SQL)是微软对SQL的扩展&a…...

UDP_TCP

目录 1. 回顾端口号2. UDP协议2.1 理解报头2.2 UDP的特点2.3 UDP的缓冲区及注意事项 3. TCP协议3.1 报头3.2 流量控制2.3 数据发送模式3.4 捎带应答3.5 URG && 紧急指针3.6 PSH3.7 RES 1. 回顾端口号 在 TCP/IP 协议中,用 “源IP”, “源端口号”…...

Python 中常见的数据结构之二推导式

Python 中常见的数据结构之二推导式 使用推异式列表推导式字典推导式集合推导式 使用推异式 推导式是一种从已存在的序列中快速构建列表(list)、集合(set) 和 字典(dictionary)方式。Python 支持 3 种不同类型的推导式: 列表推导式;字典推导式&#xf…...

STM32 拓展 低功耗案例3:待机模式 (hal)

配置PA0的两种方式: 第一种 第二种 复制寄存器代码然后对其进行修改 mian.c /* USER CODE BEGIN Header */ /********************************************************************************* file : main.c* brief : Main program body…...

【开源社区openEuler实践】探索 Yocto-Meta-OpenEuler:嵌入式开发的强大基石

title: 探索 Yocto-Meta-OpenEuler:嵌入式开发的强大基石 date: ‘2024-11-19’ category: blog tags: Yocto-Meta-OpenEuler嵌入式系统开源项目定制化开发 sig: EmbeddedTech archives: ‘2024-12’ author:way_back summary: Yocto-Meta-OpenEuler 为嵌入式系统开…...

C++ hashtable

文章目录 1. 基本概念2. 哈希函数3. 哈希冲突及解决方法开放定址法链地址法再哈希法建立公共溢出区4. 哈希表的操作实现5. 内存管理及优化 时间复杂度理想情况(无哈希冲突或冲突极少)一般情况(考虑哈希冲突及解决方法)综合来看 以…...

JS (node) 的 ACM 模式 + debug方法 (01背包为例)

文章目录 JS 的 ACM 模式输入处理 JS dubug (01背包为例)动态输入在本地通过 Node.js 运行和调试 硬编码 Hard CodingVS Code JS 的 ACM 模式 在 JavaScript 中,ACM 模式一般通过 Node.js 的 readline 模块实现。 输入处理 使用 readline 模块监听输入。 将每行输…...

vue设计与实现-框架设计

权衡的艺术 命令式和声明式 视图层框架通常分为命令式和声明式,各有优缺。jquery是一种命令式框架。命令式框架关注过程,而声明式框架关注结果。对于vue来说,过程被vue封装了,所以vue内部是命令式的,但vue暴露给用户…...

Stable Diffusion和Midjourney有什么区别?

Stable Diffusion 和 Midjourney 主要有以下区别: 目录 费用与可访问性 设备要求 安装与使用 学习成本 图像生成效果 可控性与定制性 私密性 费用与可访问性 Stable Diffusion:开源免费,任何人都可以免费下载并自行部署使用&#xf…...

即插即用,无痛增强模型生成美感!字节跳动提出VMix:细粒度美学控制,光影、色彩全搞定

文章链接:https://arxiv.org/pdf/2412.20800 代码地址:https://github.com/fenfenfenfan/VMix 项目地址:https://vmix-diffusion.github.io/VMix/ 亮点直击 分析并探索现有模型在光影、色彩等细粒度美学维度上生成图像的差异,提出…...

面向对象分析和设计OOA/D,UML,GRASP

目录 什么是分析和设计? 什么是面向对象的分析和设计? 迭代开发 UML 用例图 交互图 基于职责驱动设计 GRASP 常见设计原则 什么是分析和设计? 分析,强调是对问题和需求的调查研究,不是解决方案。例如&#x…...

【每日学点鸿蒙知识】广告ID、NFC手机充值、CSS支持语法、PC与模拟器交互、SO热更新等

1、HamonyOS 样机获取成功返回Oaid为00000000-0000-0000-0000-000000000000? 请求授权时需要触发动态授权弹窗,看一下是不是没有触发授权弹窗。 可以参考以下代码以及文档: // ets import identifier from ohos.identifier.oaid; import hilog from oh…...

30分钟学会HTML

HTML 基本语法 HTML(HyperText Markup Language)是构成网页内容的基础。它使用一系列的标签来描述网页的结构,包括文本、图片、链接等元素。浏览器会解析这些标签并渲染成我们看到的网页。 在线体验一下 CodePen (在线 HTML 编辑器)。 千万不…...

从零到一:用CH32V103和逐飞库搞定智能车循迹(附完整代码和避坑指南)

从零到一:基于CH32V103的智能车循迹系统全流程实战 第一次接触智能车循迹项目时,面对琳琅满目的硬件和复杂的控制算法,很多初学者都会感到无从下手。本文将带你完整走一遍从硬件选型到PID调参的全过程,使用CH32V103R8T6作为主控芯…...

别再只调学习率了!YOLOv11训练技巧全解析:从数据增强到损失函数优化

别再只调学习率了!YOLOv11训练技巧全解析:从数据增强到损失函数优化 在目标检测领域,YOLO系列模型一直以其速度和精度的平衡著称。但很多开发者在训练YOLOv11时,往往把注意力局限在学习率调整上,忽略了训练流程中其他关…...

网络拓扑发现实战:从LLDP数据采集到D3.js可视化前端全链路解析

网络拓扑发现实战:从LLDP数据采集到D3.js可视化全链路解析 现代网络架构正变得越来越复杂,从传统的三层架构到如今的云原生网络,设备之间的连接关系呈现出动态化、多样化的特征。对于网络运维团队而言,如何快速准确地掌握全网拓扑…...

SAP资产批量导入实战:手把手教你用BAPI_FIXEDASSET_OVRTAKE_CREATE搞定历史资产与当年折旧

SAP资产批量导入实战:BAPI_FIXEDASSET_OVRTAKE_CREATE深度解析 当企业面临系统切换或数据迁移时,历史资产与当年折旧的批量导入往往成为财务模块最棘手的挑战之一。不同于常规资产创建,这类场景需要同时处理跨年度的价值累积与当期折旧计算&a…...

sql_exporter配置避坑指南:手把手教你处理多表关联查询和动态标签(以用户订单分析为例)

SQL Exporter高级配置实战:多表关联查询与动态标签优化指南 当业务监控需求从简单的单表统计升级到跨多表的复杂分析时,很多使用sql_exporter的工程师会遇到指标映射混乱、查询性能低下等问题。本文将聚焦三个典型痛点场景:多表JOIN时的指标设…...

如何免费解锁VMware的macOS虚拟化限制:完整技术解析与实践指南

如何免费解锁VMware的macOS虚拟化限制:完整技术解析与实践指南 【免费下载链接】unlocker VMware Workstation macOS 项目地址: https://gitcode.com/gh_mirrors/un/unlocker 引言:跨越平台壁垒的技术桥梁 在虚拟化技术日益成熟的今天&#xff…...

Dell Fans Controller:戴尔服务器散热调控的终极解决方案

Dell Fans Controller:戴尔服务器散热调控的终极解决方案 【免费下载链接】dell_fans_controller A tool for control the Dell server fans speed, it sends the control instruction by ipmitool over LAN for Windows, it is a GUI application which is built b…...

终极指南:如何快速定位Windows热键冲突问题的罪魁祸首

终极指南:如何快速定位Windows热键冲突问题的罪魁祸首 【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否曾…...

如何用Python实现剪映自动化:10倍提升视频剪辑效率的完整指南

如何用Python实现剪映自动化:10倍提升视频剪辑效率的完整指南 【免费下载链接】JianYingApi Third Party JianYing Api. 第三方剪映Api 项目地址: https://gitcode.com/gh_mirrors/ji/JianYingApi 还在为重复的视频剪辑工作烦恼吗?每天手动添加水…...

Translumo终极指南:免费实时屏幕翻译工具,打破语言壁垒的完整解决方案

Translumo终极指南:免费实时屏幕翻译工具,打破语言壁垒的完整解决方案 【免费下载链接】Translumo Advanced real-time screen translator for games, hardcoded subtitles in videos, static text and etc. 项目地址: https://gitcode.com/gh_mirrors…...