服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

在文档内容搜索这件事情上,它能比 ChatGPT 做的更好

日期: 来源:GitHubDaily收集编辑:小 G

公众号关注 “GitHubDaily”

设为 “星标”,每天带你逛 GitHub!

自 OpenAI 开放 GPT3.5/4 的 API 接口以来,不少人开始基于它来搭建本地知识库,并尝试用 AI 训练自己的客服系统、智能助理、法律或金融顾问等等。

但是,这里面有一个问题,就是通过 ChatGPT 返回的答案,并不一定 100% 真实可信,这对于一些对内容比较严谨的论文、行业分析报告、法律合同文件来说,用 ChatGPT 就不是最优解了。

那么,怎么做到数据真实可信,在保证隐私安全的前提下,快速提升文档检索效率呢?

这里给大家推荐一个我最近在 GitHub 看到的开源解决方案:Semantra,一款方便人们进行语义搜索的开源工具。

与传统的文本匹配方式不同的是,它能够直接使用语义查询。

GitHub:https://github.com/freedmand/semantra

使用命令行即可快速运行,快速处理本地的文本和 PDF 文件。在任务完成后,它会在本地搭建一个 Web 搜索页面,让你能在界面上对文档进行查询。

Semantra 的设计目的是方便易用,可定制,并且注重隐私。适合需要在大量文档中进行精确搜索的个人或团体,例如新闻从业者、研究员、学生或教师等。

下面说下怎么安装和使用。

安装 & 使用

首先,你需要确认电脑当前的 Python 版本 >= 3.9。

最简单的安装方式是使用 pipx。如果你还没有安装 pipx,可以运行如下命令:

python3 -m pip install --user pipx 
python3 -m pipx ensurepath

打开一个新的命令行终端窗口,让 pipx 设置的新路径设置生效。然后运行:

pipx install semantra

这个命令会将 Semantra 安装到你的电脑上,并添加到环境变量中。

这时,你可以在终端中输入 semantra --help 命令,看看有没有对应的输出结果。

Semantra 的主要作用,是对存储在本地计算机上的文档(文本或 PDF 文件)进行操作,你可以选择处理单个或多个文档。

PS:所有文档在第一次运行处理时,花费的时间会比较长,但是第二次处理会快很多,按作者的说法,基本上能做到瞬间完成处理。

使用 semantra 命令,对单个文档进行处理:

semantra doc.pdf

同时处理多个文档:

semantra report.pdf book.txt

文档处理成功后,将在本地启动一个 Web 服务器。默认情况下,链接指向 localhost:8080

打开该链接后,便可以开始在此网页上对文档进行语义查询,并根据返回的结果,使用 +- 给结果打标签,优化下一次查找。

也即是说,你用的越多,它查找的结果就越准确。

该项目对文档的处理有两种方式:「内嵌模型」和调用「OpenAI API」。默认是用的 MPNet 语言模型。

如果你电脑配置还过得去,或者想离线处理文档,可以优先选择下载大语言模型,这种方式可以最大程度保证你的隐私安全。

如果想用 OpenAI API,项目也提供了相对应的方案,不过所产生的 Token 消耗,你需要自行承担。

针对这两种方案,作者都在 GitHub 中给出了详细文档,这里便不再赘述。

具体选用哪个,我个人建议是,在这个需求上,没必要用 OpenAI,因为语义理解,大部分语言模型已经做的很不错了。

ChatGPT 的主要能力,是基于它原有知识,帮你发散思维,给你提供多种解决方案。在文档查询这件事情上,只需要 AI 能够清晰理解我们的表达,并给出明确指向即可。

自 ChatGPT 火了之后,很多人都想着把所有工作交给它来处理,但面对一些需要保证数据真实性、操作严谨性的工作,强行让 ChatGPT 来处理, 反而是一种舍本逐末的行为。

这也是 semantra 项目本次给我的最大启发。

如果你想了解更多有趣、实用的 AI 技术,以及 ChatGPT 新进展,欢迎点击下方链接,加入我们社群进一步交流探讨。

相关阅读

  • 微软开源AI语义内核:从句法向语义的转变

  • 【CSDN 编者按】由于 AI 的兴起,编程的方向正在从句法转向语义,而微软最近的这款产品恰恰印证了这一点。作者 | 陈静琳 责编 | 屠敏出品 | CSDN(ID:CSDNnews)微软最近开源
  • 一个建议:变现400多万

  • 村里的二楼我打算装修一下,搞个茶室,再打一整面墙的书柜。准备藏点书,什么书?我在淘宝找以前天涯论坛的神贴,打印出来,一个一个读。无论是KK大神的三部曲,还是温骏轩的《地缘看世界
  • 【北魏】进厂岁月

  • 昨晚刚忙完手头上的事,准备回家,看着路上零散有着几个孤单的背影,就像游荡的灵魂。路边卖馄炖的阿姨还在辛勤劳作,小吃摊亮着忽明忽暗的灯光,我坐定来上了那么一碗馄炖。吃着吃着
  • LangChain:为你定制一个专属的GPT

  • 导语:用户可以利用LangChain的模块来改善大语言模型的使用,通过输入自己的知识库来“定制化”自己的大语言模型。LLM(大语言模型) 是一项变革性的技术,它将人类的各类知识和逻辑
  • “内容为王”的时代之后,接下来是什么?

  • 编者按:对一个品牌来讲,以前是内容为王,因为你输出的内容(Content)越多,你的品牌就越能在消费者心中占据“第一”的位置,并引导用户进行“转换”。但如今内容越来越泛滥,人们很容易
  • Scalers:怎样一边搞学习,一边搞钱?

  • 持续力公众号ID:scalerstalk个人微信号:fscalers (可加Scalers个人微信交流)关注ScalersTalk 成长会 2023年开放报名,参见《大量读写,持续改变——S成长会2023报名启动》。昨天的
  • 搞钱与搞学习有什么区别?

  • 持续力公众号ID:scalerstalk个人微信号:fscalers (可加Scalers个人微信交流)关注ScalersTalk 成长会 2023年开放报名,参见《大量读写,持续改变——S成长会2023报名启动》。我的社
  • 俄罗斯全球网络战争计划被泄露

  • 聚焦源代码安全,网罗国内外最新资讯!编译:代码卫士承包商 NTC Vulkan 公开数千页机密文档,泄漏俄罗斯军队和情报机构利用自身在虚假消息活动、入侵行动、基础设施破坏和互联网

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四
  • 美国对华2000亿关税清单,到底影响有多大?

  • 1 今天A股大跌,上证最大跌幅超过2%。直接导火索是美国证实计划对华2000亿美元产品加征25%关税。 听起来,2000亿美元数目巨大,我们来算笔账。 2000亿美元,按现在人民币汇率

最新文章

  • 从 0 到 1:入门论文写作!

  • 今天来跟大家聊下论文写作这件事。众所周知,科研论文写作不单单只是论文的书写,更是有一套完整的流程,整个流程一般分为 5 部分:投稿前的准备 + 理论论文 + 实践论文 + 投稿期间
  • 陈先达:实践检验和逻辑证明

  • (点击上方【昆仑策研究院】可关注)【本文配音由电脑自动合成,难免差错,仅作辅助阅览用。】【专家简介】陈先达,1930年生,江西鄱阳人,当代马克思主义哲学家、教育家,中国人民大学一级
  • 细思极恐!使用 AI 控制你的浏览器

  • 本期推荐开源项目目录:1. 使用 AI 控制你的浏览器2. Facebook力作:分割一切3. 在 Mac 上运行 Stable Diffusion4. ChatGPT 学术助手5. 开源的 ChatGPT 桌面客户端6. 微信公众
  • 逊敬:抱薪入海的争议——《戍边拾趣》之三

  • (点击上方【昆仑策研究院】可关注)【本文配音由电脑自动合成,难免差错,仅作辅助阅览用。】【编者按】祖国的边海防,辽阔而绵长,既有着奇光异彩的地形地貌,也有着珍稀亮眼的动物植物