想基于ai做个图文知识库，有啥好的方案吗

马猴肥宅 · 发表于 2025-2-7 10:13

如题，手头有一大堆资料，包括文字、夹杂图片的长文、含图片和文字的pdf、逐页拍照导出的pdf（内有图片及表格）、图纸性质的图片、照片性质的图片……
现在想借着ds或qwen的风，搭一个自己的知识库……但查了一下好像没有能同时处理这些信息的embedding模型？（不知是否表达准确）。在下确实是外行，不知道有没有好的解决方案了，希望有大佬指个方向。这边给大家拜个晚年，新年生活美满。谢谢各位了

xibeijian · 发表于 2025-2-7 11:26

感觉你需要的是首相要将手头的文件归一处理，即处理成纯文本 + 图像链接，之后考虑使用文本嵌入模型做RAG，图片仅仅是文本中的链接，在找一个本地的 llm ui + SAAS 的LLM API 基本就满足使用了。不过前半部分的归一处理会耗费你很大精力。
ds-r1/v3 目前不支持多模态，他单独的多模态模型 Janus-Pro 目前识图看图生图是支持的。
其他的最简单方案就是用文本大模型强大的上下文长度了。

马猴肥宅 · 发表于 2025-2-7 12:00

xibeijian 发表于 2025-2-7 11:26
感觉你需要的是首相要将手头的文件归一处理，即处理成纯文本 + 图像链接，之后考虑使用文本嵌入模型做RAG， ...

原来只需要能理解文本的嵌入模型就可以了啊，还以为需要给图像做标签写描述什么的……既然这样似乎技术上比较好实现，就是工作量偏大。。。这样会不会难以保证识图的模型对于照片和图纸的理解能力？倒是不一定需要输出图片，能输出文字描述就很满足了。既然技术路线不复杂，我想可以先试试一小部分

御坂MKII · 发表于 2025-2-7 12:12

目前通用方案就是 rag 了，rag 的开源框架很多了

还以为需要给图像做标签写描述什么的

把图片和文本捆一起也是给图片打标的一种形式.jpg

马猴肥宅 · 发表于 2025-2-7 12:17

御坂MKII 发表于 2025-2-7 12:12
目前通用方案就是 rag 了，rag 的开源框架很多了

是这样啊，那应该可以试试看

马猴肥宅 · 发表于 2025-2-7 12:18

那扫描的实体书获得的pdf文件需要先ocr了再处理吗，还有一些零散的图片没有文字的

mimighost · 发表于 2025-2-7 12:20

目前并没有什么特别厉害的开源多模态模型

就算是oai和a社，其实也不是完全以来模型本身来处理文字的

所以你现在的情况还是先做ocr，保留文字

图纸是没戏的，deepseek目前不支持

马猴肥宅 · 发表于 2025-2-7 12:40

mimighost 发表于 2025-2-7 12:20
目前并没有什么特别厉害的开源多模态模型

就算是oai和a社，其实也不是完全以来模型本身来处理文字的

好的好的。就先用文字内容试试看吧。

scstriker · 发表于 2025-2-7 12:42

本帖最后由 scstriker 于 2025-2-7 12:44 编辑

fastgpt或者ragflow，知识库开源方案就这两家堪用，前者应该已经支持ds的api接入了；

或者可以用Google的NotebookLLM，效果应该是最好的；

---

---
至于图片，我觉得还真不如用一些本地的管理方式，现在不会有很好的解决方案。

scstriker · 发表于 2025-2-7 13:01

本帖最后由 scstriker 于 2025-2-7 15:35 编辑

我一直以来有个疑惑，正好借这个帖我也想讨论下。

多模态数据到底是怎么组织管理使用呢？

文字：markdown；

文档：pdf通过ocr变成markdown；

音频：转文字的手段很成熟了，最后也是markdwon；

图片：这是我最困惑的部分，长文字截图（需要图片的语义），摄影图片（比如我从flicker找到的摄影师照片，我希望llm协助让我拍的照片修图成这位摄影师的风格；比如我希望能用一句话找出我知识库中某一类全部的照片）、表情包（这我就不知道怎么用了）；更有一种图片：比如一篇文章的配图（研究报告中的一个折线图，那它离开这个报告也没意义）；所以应该怎么组织管理使用图片呢？

视频：多帧图片+音频，解决图片的问题也就解决视频的问题了。

比如楼主主贴提到的，也有若干类图片的有不同的需求，这是我现在最困惑的点。

马猴肥宅 · 发表于 2025-2-7 13:07

scstriker 发表于 2025-2-7 13:01
我一直以来有个疑惑，正好借这个帖我也想讨论下。

多模态数据到底是怎么组织管理使用呢？

对对，图片的类型不同是真让我头大。。有的图表我保存下来是因为在文章中有信息，有的图表保存下来纯粹是因为绘制风格好、值得参考。有的照片是因为拍摄风格好看，有的照片保存下来只是因为它描述了一个重要的细节（比如窗户的样式）。不过好像janus的读图能力还可以，我过两天要试试看

scstriker · 发表于 2025-2-7 14:30

本帖最后由 scstriker 于 2025-2-7 14:31 编辑

马猴肥宅发表于 2025-2-7 13:07
对对，图片的类型不同是真让我头大。。有的图表我保存下来是因为在文章中有信息，有的图表保存下来纯粹是 ...

才意识到我还是想简单了， pdf其实是【图+文】，那pdf中的图片是作为文字表述的一个附件（比如语文课本中的配图），还是需要专门抽取的知识（比如你说的【窗户的样式】）；

这些我真的觉得都是需要HandCraft的事情。

seizan · 发表于 2025-2-7 14:48

图片处理可以试试看用能理解图片的模型比如DALL·E 2先把图片用文字表达？
我试了下豆包和智谱现在也能做到。

马猴肥宅 · 发表于 2025-2-7 15:18

本帖最后由马猴肥宅于 2025-2-7 15:20 编辑

seizan 发表于 2025-2-7 14:48
图片处理可以试试看用能理解图片的模型比如DALL·E 2先把图片用文字表达？
我试了下豆包和智谱现在也能做到 ...

暂时准备过两天整理下试试，估计零散的图片照片直接上是没戏的，整本带图的pdf倒是好弄

scstriker · 发表于 2025-2-7 15:33

马猴肥宅发表于 2025-2-7 15:18
暂时准备过两天整理下试试，估计零散的图片照片直接上是没戏的，整本带图的pdf倒是好弄 ...

翻收藏夹发现浦江实验室2023年做的一个多模态数据集，供参考。

https://opendatalab.com/OpenDataLab/WanJuan1_dot_0

马猴肥宅 · 发表于 2025-2-7 16:29

scstriker 发表于 2025-2-7 15:33
翻收藏夹发现浦江实验室2023年做的一个多模态数据集，供参考。

https://opendatalab.com/OpenDataLab/Wa ...

谢谢你让我知道这个网站和数据集这种东西，不过我作为外行人可能不太需要这种通用的（？），只是想搞个工作中需要的知识库，我会再查查看有没有相关数据集的，也会试试把这个导进模型看看会不会让它更聪明一点～感谢

SmterC · 发表于 2025-2-7 16:30

刚好看到个相关的视频
【【知识科普】【纯本地化搭建】【不本地也行】DeepSeek + RAGFlow 构建个人知识库-哔哩哔哩】 https://b23.tv/ShYwAcR

—— 来自鹅球 v3.3.96

马猴肥宅 · 发表于 2025-2-7 16:31

本帖最后由马猴肥宅于 2025-2-7 16:35 编辑

.

scstriker · 发表于 2025-2-7 16:49

马猴肥宅发表于 2025-2-7 16:29
谢谢你让我知道这个网站和数据集这种东西，不过我作为外行人可能不太需要这种通用的（？），只是想搞个工 ...

我只是觉得他的方法论可以参考，同样的你也可以去搜一搜Devonthink

马猴肥宅 · 发表于 2025-2-7 18:53

scstriker 发表于 2025-2-7 16:49
我只是觉得他的方法论可以参考，同样的你也可以去搜一搜Devonthink

谢谢，分类处理确实是不错的办法，图片附上原文的上下文也可以辅助理解

马猴肥宅 · 发表于 2025-2-8 09:40

scstriker 发表于 2025-2-7 14:30
才意识到我还是想简单了， pdf其实是【图+文】，那pdf中的图片是作为文字表述的一个附件（比如语文课本中 ...

你好，我试了一下多模态的模型和ragflow的嵌入功能，发现可能是自己想多了。多模态的模型对图片能读得不错，无论是偏技术的图纸还是随意拍摄的照片都能讲明白图里表达的内容，这样给图片做标注或者等janus出来后使用应该也不难？（可能）……ragflow识别PDF更是非常简便，自带ocr和图片分析，能很方便地让deepseek掌握内容，几乎不需要做额外的操作。

moody032 · 发表于 2025-2-19 16:44

你的东西大吗，如果知识库所有文件加起来小于1g（企鹅就是这么小气，估计放着等以后开会员）可以试试腾讯的ima，用的满血ds，目前免费
直接上传识别

Kensnow · 发表于 2025-2-21 09:41

moody032 发表于 2025-2-19 16:44
你的东西大吗，如果知识库所有文件加起来小于1g（企鹅就是这么小气，估计放着等以后开会员）可以试试腾讯的 ...

我现在就在尝试ima，还没有图片，知识库里只有纯文本的来源。但有个问题就是比如我知识库里放了10个知识来源的文件，里面都带“iPad”这个关键词和相关信息，但我提问“请概括有关iPad的产品介绍”时，它只引用其中的6个来源回答，另外4个文件里也有有效信息，但会被它忽略掉。

不光ima，我也尝试过秘塔AI的知识库功能，一样的问题。不知道有没有坛友也遇到过这种情况？有解决方案吗？

fat · 发表于 2025-2-21 09:49

最近工作也考虑搭建类似的。

目前方案是，软件界面用dify，资料建rag库，d老师做问答。
pdf等图文并茂的资料，考虑用多模态的模型提取为纯文本信息，再嵌入到rag库。例如用kimi，“请分析上述pdf，整理输出故障发生时间，设备，发生原因，临时处理，永久对策”，效果还不错。dify也支持搭建这样的转换自动化工作流。

目前主要困难是，因为资料保密要本地运行。48G卡只能跑个70b的r1，效果还是差一截。
以及多模态分析pdf没有好的开源模型搞，只能用线上的，保密又成问题…

ZinGer_KyoN · 发表于 2025-2-21 09:58

蹲一个，我之前也尝试过fastgpt/ragflow想让它帮我梳理实验数据，发现并不能直接把pdf报告喂给他，还是需要手动处理打标，最后工作量还不如我手动处理报告

—— 来自鹅球 v3.3.96-alpha

心头小鹿撞 · 发表于 2025-2-21 10:05

除非学习目的或者大公司内部上产品，不然别自己从头搭建了。市面上 rag service 很多选一个就行。

dify、阿里云、腾讯云都有 rag service。搜搜 get started 文档先跑起来。

moody032 · 发表于 2025-2-21 11:24

Kensnow 发表于 2025-2-21 09:41
我现在就在尝试ima，还没有图片，知识库里只有纯文本的来源。但有个问题就是比如我知识库里放了10个知识 ...

我暂时还没遇到这个问题（我自己扔了几百个文件进去，有时候见他还多搜出一堆没关联的，还好最后输出的是正常的），不行你就尽量问题问得再仔细些，要求他尽量多引用相关文件试试吧

Kensnow · 发表于 2025-2-21 13:24

moody032 发表于 2025-2-21 11:24
我暂时还没遇到这个问题（我自己扔了几百个文件进去，有时候见他还多搜出一堆没关联的，还好最后输出的是 ...

我还以为现在的AI跨文档能力不够强，没想到你几百个文件它都能搜。那可能是我这里设置出了啥问题… 我再调试一下看看。谢谢！

chaoliu · 发表于 2025-2-21 15:01

借楼想问下同样是搭建知识库，也是想rag+dify+dsr1问答，线上部署的话是不是腾讯云阿里云找相关产品就完事了

具体文件的定位、打标怎么搞？各个模型之间的联系怎么弄？纯纯小白一点这方面的知识都没有

马猴肥宅 · 发表于 2025-2-21 15:12

chaoliu 发表于 2025-2-21 15:01
借楼想问下同样是搭建知识库，也是想rag+dify+dsr1问答，线上部署的话是不是腾讯云阿里云找相关产品就完事 ...

标签啥的嵌入模型自己会生成一些

moody032 · 发表于 2025-2-21 16:12

本帖最后由 moody032 于 2025-2-21 16:42 编辑

Kensnow 发表于 2025-2-21 13:24
我还以为现在的AI跨文档能力不够强，没想到你几百个文件它都能搜。那可能是我这里设置出了啥问题… 我再 ...

我今天试了下，直接上传喂一份几千行表格的数据（转PDF）来问的话，他只会给我识别出前面几百行的数据

还是有一定的局限性

		自动登录	找回密码
密码			立即注册

[求助] 想基于ai做个图文知识库，有啥好的方案吗

评分

评分

评分

评分