VALSE 2024 Workshop报告分享┆面向实际场景体验的多模态大模型DeepSeek VL

2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

本文主要对于来自浙江大学的张博研究员所做的报告《面向实际场景体验的多模态大模型DeepSeek VL》进行总结和分享。

1.报告人简介

张博,浙江大学计算机学院CAD&CG国家重点实验室“百人计划”研究员,博士生导师。研究领域包括计算机视觉、深度内容生成、多模态模型、具身智能等。

2.报告概览

报告首先总结了张博研究员及其团队近期的主要工作,随后详细介绍了以用户实际体验为核心,围绕数据构建、模型架构和训练策略进行的系统设计的DeepSeek-VL项目。DeepSeek-VL系列的多模态模型在现实世界应用中展现出卓越的用户体验,在相同规模的各种视觉语言基准测试中展示了具有竞争力的性能,同时在语言中心的基准测试中也保持了优异的表现。

3.内容整理

图1 “DeepSeek-VL”的可视化结果

图 1展示了“DeepSeek-VL”的可视化结果。DeepSeek-VL能够捕获微小的物体并给出有组织的解释。以下内容是根据刘禹良教授的汇报及其关于“DeepSeek-VL”模型的研究论文整理得出。相关论文和DeepSeek-VL demo链接已附在文章末尾。

(1)主要工作

主要工作1:高质量图像生成

1)2021年,张博研究员及其团队基于生成对抗网络技术推出了领先的图像生成技术StyleSwin。

2)张博研究员及其团队业界首次提出基于扩散模型的文生图模型VQ-Diffusion。

3)生成质量上超越了行业标杆英伟达的StyleGAN,并显著超过OpenAI的DALLE v1,速度提升达到15倍。

4)张博研究员及其团队的通用图像翻译工作(题为"Pretraining is all you need for image-to-image translation")发表于ICCV 2023,比最佳论文得主ControlNet早七个月提出,该工作首次提出于2022年5月(ControlNet提出于2023年2月)。

主要工作2:三维生成扩散模型

张博研究员及其团队开发了首个基于扩散模型的虚拟人生成模型,该工作被选为CVPR 2023的Highlight,名为Rodin模型。

主要工作3:多模态基础模型

张博研究员及其团队推出了先进的70亿参数的开源多模态大模型DeepSeek-VL,该模型在各种视觉语言基准测试中展示出竞争力的性能,同时在以语言为中心的基准测试中也保持出色的表现。

(2)DeepSeek-VL详细介绍

1)数据构建

张博研究员及其团队努力确保数据多样化、可扩展并广泛覆盖真实世界场景,包括网页截图、PDF文档、OCR、图表以及基于知识的内容(专家知识、教科书),目标是全面呈现实际情境。此外,张博研究员及其团队根据真实用户场景创建用例分类,并据此构建指令调整数据集。使用这个数据集的微调显著提高了模型在实际应用中的用户体验。

2)模型架构

考虑到效率和大多数现实世界场景的需求,DeepSeek-VL整合了一个混合视觉编码器,该编码器能够在固定的令牌预算内高效处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这种设计选择确保了模型在各种视觉任务中捕获关键语义和详细信息的能力。

3)训练策略

张博研究员及其团队认为,一个熟练的视觉-语言模型首先应具备强大的语言能力。为了确保在预训练期间保留LLM的能力,张博研究员及其团队通过从一开始就整合LLM训练并仔细管理视觉和语言模态之间观察到的竞争动态来探索有效的VL预训练策略。从关注文本开始,逐渐调整比例以促进两种模态的平衡整合。

DeepSeek-VL系列(包括1.3B和7B模型)在现实世界应用中作为视觉-语言聊天机器人展示了卓越的用户体验,在相同模型大小下在广泛的视觉-语言基准测试中实现了最先进或具有竞争力的性能,同时保持了在以语言为中心的基准测试上的稳健性能。张博研究员及其团队已经使1.3B和7B两个模型公开可访问,以促进基于此基础模型的创新。

DeepSeek-VL demo链接:https://huggingface.co/spaces/deepseek-ai/DeepSeek-VL-7B。

DeepSeek-VL论文下载链接:https://arxiv.org/abs/2403.05525。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/604347.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++笔试强训day15

目录 1.平方数 2.分组 Check函数的具体实现&#xff1a; 3.拓扑排序 1.平方数 链接 数学找规律&#xff0c;找离 x 最近的完全平方数 y。 先开平方根再利用四舍五入进位即可。 详细代码&#xff1a; #include <cmath> #include <iostream> using namespac…

设备通过海康ehome5.0接入视频汇聚平台EasyCVR,语音对讲一直断开是什么原因?

视频汇聚综合管理平台EasyCVR视频监控系统支持多协议接入、兼容多类型设备&#xff0c;平台能在复杂的网络环境中&#xff08;专网、局域网、广域网、VPN、公网等&#xff09;将前端海量的设备进行统一集中接入与视频汇聚管理。视频监控/集中存储系统EasyCVR平台可支持国标GB28…

Bugku Crypto 部分题目简单题解

抄错的字符 题目描述&#xff1a; 老师让小明抄写一段话&#xff0c;结果粗心的小明把部分数字抄成了字母&#xff0c;还因为强迫症把所有字母都换成大写。你能帮小明恢复并解开答案吗&#xff1a; QWIHBLGZZXJSXZNVBZW 观察疑似base64解码&#xff0c;尝试使用cyberchef解码…

CentOs9编译C指令报错的一种解决方案

今天使用centos9编译c代码时&#xff0c;显示bash: gcc: command not found... 下图是我的报错页面&#xff0c;依据提示信息安装gcc之后依旧显示失败 找到其中一种解决方式&#xff0c;完美解决&#xff0c;供参考 输入以下指令更新软件包列表&#xff0c;这里需要等待几分…

Springboot 单体thymeleaf极简门户网站

企业门户网站&#xff0c;基于Springboot和layui 1、原介绍 使用技术&#xff1a;后端框架&#xff1a;SpringBoot&#xff0c;Mybatisplus ### 数据库&#xff1a;MySQL,redis ## 前端框架&#xff1a;Layui ## 权限框架&#xff1a;shiro ## 网页模板引擎&#xff1a;thyme…

【MATLAB源码-第205期】基于matlab的LDPC译码算法仿真,对比BF算法,最小和算法,对数BP和概率BP四种算法。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 LDPC 码简介 LDPC码是一种通过稀疏奇偶校验矩阵定义的线性分组码&#xff0c;1962年由Gallager首次提出。这种码具有高效的解码性能&#xff0c;尤其在接近香农极限的情况下&#xff0c;其性能表现尤为突出。LDPC码的核心特…

MATLAB 基于规则格网的点云抽稀方法(自定义实现)(65)

MATLAB 基于规则格网的点云抽稀方法(自定义实现)(65) 一、算法介绍二、算法实现1.代码2.结果一、算法介绍 海量点云的处理,需要提前进行抽稀预处理,相比MATLAB预先给出的抽稀方法,这里提供一种基于规则格网的自定义抽稀方法,步骤清晰,便于理解抽稀内涵, 主要涉及到使…

新火种AI|马斯克聘用OpenAI泄密者,他们的梁子着实越结越深...

作者&#xff1a;小岩 编辑&#xff1a;彩云 就在最近&#xff0c;昔日就职于OpenAI的工程师Pavel Izmailov正式加入了马斯克的AI团队&#xff0c;他还在自己的推特上大张旗鼓的做着宣传&#xff1a;研究院xai。 AI工程师的跳槽本不值得惊讶&#xff0c;但Pavel的跳槽却在行…

VS2019下使用MFC完成科技项目管理系统

背景&#xff1a; &#xff08;一&#xff09;实验目的 通过该实验&#xff0c;使学生掌握windows程序设计的基本方法。了解科技项目组织管理的主要内容和管理方面的基本常识&#xff0c;熟练应用数据库知识&#xff0c;通过处理过程对计算机软件系统工作原理的进一步理解&…

Linux进程——Linux进程间切换与命令行参数

前言&#xff1a;在上一篇了解完进程状态后&#xff0c;我们简单了解了进程优先级&#xff0c;然后遗留了一点内容&#xff0c;本篇我们就来研究进程间的切换&#xff0c;来理解上篇提到的并发。如果对进程优先级还有没理解的地方可以先阅读&#xff1a; Linux进程优先级 本篇…

【JAVA基础之时间API】自定义时间格式

&#x1f525;作者主页&#xff1a;小林同学的学习笔录 &#x1f525;mysql专栏&#xff1a;小林同学的专栏 目录 1.Date类 1.1 概述 1.2 构造方法 1.3 常用方法 2.SimpleDateFormat类 2.1 概述 2.2 构造方法 2.3 格式规则 2.4 常用方法 3.Calendar类 3.1 概述…

【算法】滑动窗口——将x减到0的最小操作数

本节博客主要是讲的我解“将x减到0的最小操作数”这道题的思路历程&#xff0c;从最开始的想法到代码提交的详细记录&#xff0c;有需要借鉴即可。 目录 1.题目2.代码示例3.细节3.1left越界3.2特殊情况 4.总结 1.题目 题目链接&#xff1a;LINK 看题目意思是就是给你一个数X&…

C++贪心算法

关于string的系统函数&#xff01; &#xff08;注&#xff1a;以下函数只可用于string&#xff0c;不适用其他类型的变量&#xff09; ① a.size(); 这个系统函数是用来获取这个string变量的长度的&#xff0c;我们通常会新建一个变量来保存他&#xff0c;以便之后使用。 …

在java类前添加上文档注释

第一步&#xff1a; 第二步 第三步 将下面代码粘上 /** *Author Lnn *Date ${DATE}/${TIME} *ClassName ${NAME} *Description */

ios苹果App上架到应用商店的操作流程

哈喽&#xff0c;大家好呀&#xff0c;淼淼又来和大家见面啦&#xff0c;发现最近有许多想要上架App的小伙伴&#xff0c;但是又不知道要怎么操作&#xff0c;对于开发者而言&#xff0c;将精心打造的iOS应用程序成功上架到苹果的 App Store 是向全球用户展示咱们的产品和服务的…

《动手学深度学习》预备知识和安装环境

哈喽&#xff0c;欢迎来到自学深度学习小白的文章&#xff0c;本文将介绍anacoda是什么和有什么用&#xff0c;以及在win10环境下如何安装运行环境。 关于anaconda 1.环境 准备开始写代码了&#xff0c;教材总是先叫你配好环境&#xff0c;环境可以堪称一栋房子&#xff0c;…

MindSponge分子动力学模拟——软件架构

技术背景 在前面一篇文章中&#xff0c;我们介绍了MindSponge的两种不同的安装与使用方法&#xff0c;让大家能够上手使用。这篇文章主要讲解MindSponge的软件架构&#xff0c;并且协同mindscience仓库讲解一下二者的区别。 整体架构 首先我们来了解一下MindSponge独立仓库的…

Baidu Comate智能编码助手:提升软件生产力的高效工具使用教程

目录 一、前言 二、Comate助手概览 三、核心功能详解 智能推荐与自动补全 生成单元测试 代码注释生成 四、使用场景与优势 五、总结与展望 一、前言 随着信息技术的飞速发展&#xff0c;编程已经成为许多行业不可或缺的一部分。然而&#xff0c;编程过程中的繁琐和重复…

基于51单片机交通灯设计—汇编语言

基于51单片机的交通灯设计 &#xff08;仿真&#xff0b;程序设计报告&#xff09; 功能介绍 具体功能&#xff1a; 1.南北方向绿灯20s&#xff08;最后3s闪烁&#xff09;后转黄灯常亮5s&#xff0c;同时东西方向红灯25秒&#xff1b;东西方向绿灯20s&#xff08;最后3s闪烁…

【三】DRF序列化进阶

序列化器的定义与使用 多表关联序列化 【1】准备工作 # settings.py DATABASES {default: {# 数据库引擎选择使用MySQLENGINE: django.db.backends.mysql,# 指定数据库名字&#xff0c;需提前创建NAME: books,# 指定数据库用户名USER: root,# 指定数据库用户密码PASSWORD: …
最新文章