人工智能大数据,工作效率生产力
Ctrl + D 收藏本站,更多好用AI工具
当前位置:首页 » 最新消息

3月12日 工作记录 DeepSeek-VL阅读笔记

2025-03-04 25

昨天考完试,晚上把那个讨人厌的项目做了阶段结果给合作者展示去了,然后就看到deepseek发布了vision language的技术报告,于是打算今天上午看看。

DeepSeek VL

很多内容直接翻译自其 DeepSeek-VL,下面的我们指的的是deepseek vl的作者。

数据构建

预训练数据

我们努力确保我们的数据是多样化的,可扩展的,并广泛覆盖现实世界的场景,包括web截图,pdf, OCR,图表和基于知识的内容(专家知识,教科书),旨在全面表示实际环境。

此外,我们从真实用户场景中创建用例分类法,并相应地构建指令调优数据集。使用该数据集进行的微调实质上改善了模型在实际应用中的用户体验。
在这里插入图片描述

  • Interleaved image-text:交错的图像-文本数据使模型具有更好的上下文处理能力学习多模态输入,我们利用了三个公共数据集MMC4 (Zhu等人,2024)、Wiki (Burns等人,2023)、Wikihow (Yang等人,2021)和Epub教科书。
  • Image capture:图像说明数据来自三个高质量的图像-文本配对数据集:Capsfusion (Yu等人,2023a)、TaiSu (Liu等人,2022b)和Detailed caption (echo840, 2024)。表格和图表数据使模型能够学习通用表格和图表图像理解的能力。它包含了各种各样的公共数据源,包括Chart2text(Kantharaj 等人,2022)、Geo170K(Gao 等人,2023)、Unichart(Masry 等人,2023)、Ureader (Ye et al., 2023)、M-paper (Hu et al., 2023)、ScienceQA (Lu et al., 2022b)、Scre

原文链接:https://blog.csdn.net/Hagtaril/article/details/136644739?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522c1e1a4775035b5bf06250c6bda01e089%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=c1e1a4775035b5bf06250c6bda01e089&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-30-136644739-null-null.nonecase&utm_term=deepseek%E4%BD%BF%E7%94%A8

相关推荐

阅读榜

hellenandjeckett@outlook.com

加入QQ群:849112589

回顶部