想在公司里找一件事,你得先想清楚它到底躺在哪:聊天记录翻 Slack,文档翻 Google Drive,wiki 翻 Confluence,工单翻 Jira,代码和讨论又得去 GitHub。一件事分头搜五六个系统,还各登各的。有个开源项目叫 Onyx,想干的就是让你一句话问下去,它替你把这几摊东西一起搜了,答案还给你标出处。
公司的知识从来不缺,缺的是它散在十几个抽屉里,每个抽屉各上一把锁。你要找的东西可能就在隔壁部门两个月前的一条 Slack 消息里,但你根本不知道有这条,也搜不到。Onyx 这类东西想解决的,就是这个「东西都在,就是找不齐」的麻烦。
它跟很多「把文档传上去做问答」的工具不太一样,差别值得说清楚。那种工具是你手动把一堆 PDF、Word 丢进去建个库,资料是死的,传进去什么样就什么样。Onyx 的主轴是另一回事:它直接连上你公司正在用的那些系统,把活的数据接过来。
第一,它能连的东西,是公司真在用的那一堆。
Onyx 自带40多个连接器(connector,就是对接各家系统的接口),点名能接的有 Slack、Google Drive、Confluence、Jira、GitHub、SharePoint、Salesforce、Notion、Zendesk、HubSpot、Gmail,还有二十多个其他的。意思就是,你团队平时在哪干活、东西存在哪,它基本都能接进来,然后所有这些源的内容汇到一个搜索框里。你不用再想「这事是在 Slack 说的还是写进 Confluence 了」,问一句,它一起给你捞。
这一条听着简单,落到实处却不小。大部分团队的尴尬不在于资料少,而在于资料分家:销售把客户情况记在 Salesforce,产品把需求写在 Notion,工程把 bug 讨论留在 GitHub 的 issue 里,客服的历史问题压在 Zendesk。这些系统彼此不通气,你想拼出一件事的全貌,得自己当人肉搬运工,一个个翻、一段段对。Onyx 把这些源接到一起之后,它们才第一次像「一个公司的知识」,而不是十几摊各管各的数据。
第二,它连的是活数据,会自己在后台跟着更新。
这点是它和「上传静态文件」的工具拉开距离的地方。你传一份 PDF 进去,那份 PDF 就定在那了,文档后来改了它也不知道。Onyx 是在后台持续同步,各个系统里的内容有更新,它跟着把索引刷新一遍。你提问的时候,它查的是这份一直在更新的索引,所以回答能跟上最新的状态,而不是停留在「某次导入那一刻」。对一个内容天天在变的团队来说,这个差别其实挺关键:你昨天刚在 Confluence 改了流程,今天有人问,它给出的就该是新流程,而不是把旧版本翻出来误导人。
第三,它认权限——你能搜到什么,看你本来有权看什么。
这是企业用的东西和个人知识库最大的分水岭。同一个问题,工程的同事和财务的同事问下去,搜到的结果可能不一样:每个人只能搜到自己在原系统里本来就有权限看的内容。它的做法是把各个源系统的访问权限一起同步过来,谁能看哪份资料,跟着原系统的设置走。这样一来,把全公司的知识汇到一处,又不至于让 A 部门的人顺手就翻到 B 部门的机密。
这里要老实说一句:这个「权限自动同步」是 Onyx 企业版(付费)的功能,不是社区版白送的。我没拿企业版实测过,能说的就是它官方明确把这条放在企业版里,覆盖 Confluence、Jira、GitHub、Google Drive、Gmail、Slack、Salesforce、SharePoint 这些源。看重这条的团队,得把版本边界先弄清楚。
第四,模型随你接,部署也能放进自己机房。
Onyx 自己不产模型,背后接谁都行:商用的 Anthropic、OpenAI、Gemini,自己机器上跑的 Ollama、vLLM 这些也都支持。想用 DeepSeek、Qwen 这类开源模型,按它的 OpenAI 兼容接口或 LiteLLM 那一套配进去也能接,具体以你的配置为准。它能用 Docker 或者 K8s 自部署,整套放在自己服务器或私有云里——这样索引和文档存在哪、归谁管,是你自己说了算。要提醒一句:自部署只保证存储这一层可控,你的提问和检索出来的片段会不会发到模型那边,得看你接的是谁。接本地或私有部署的模型,才真接近数据不出门;接的是云端 API,这些内容仍然要往外走。对存着合同、客户资料、内部讨论的团队,这条边界值得先掰清楚。
第五,它不只是「搜出来给你看」,还能往下做一步。
底层是一套检索增强(RAG,简单说就是 AI 回答前先翻一遍你的资料、照着资料说,不容易瞎编)的框架,给的答案都带出处,你能点回去核对,不是凭空一段话。除了搜,它还能建自定义的 AI 助手——给它配上特定的指令、知识和能做的动作,让它专门盯某一类活;遇到复杂问题,它还能自己分几步去查、出一份长一点的报告,也能联网取最新信息。
事实交代一下。这项目在 GitHub 上攒了约3万颗 star,2023年就开始做了(早先叫 Danswer,后来改名 Onyx),最近这几天还在提交代码,不是放上去没人管的。开源这块要说准:它的社区版是 MIT 协议,自己部署免费用没问题;但仓库里专门有一块企业版的代码是另一套许可(前面说的权限自动同步就在里头),不是整个项目都随便拿去商用。想商用的,先把这条边界看清楚,别把社区版当成全功能免费版去规划。
它不是装上就万事大吉。它是给有点技术底子的团队用的,自部署、配各个连接器的授权、接模型的钥匙,这些第一次弄都得花点功夫,纯小白上手有门槛(嫌麻烦的也有官方云托管版可以直接用)。还有,答得准不准,最后还是看你接的是什么模型、各个源里的资料本身干不干净。平台能帮你把知识汇齐、搜出来,但替不了你把资料本身理顺,源头乱的,搜出来还是乱。
对一个被七八个系统的搜索框折腾够呛、又想把公司知识握在自己手里的团队来说,以前要把这么多源接到一起、还带上权限,得自己啃不少东西;现在有人把这条线打包好放那了,你省下的是从零搭起的那部分力气。
它叫 Onyx,开源的,在 GitHub 上叫 onyx-dot-app/onyx。
#马力的AI知识分享#
#马力的AI开源项目分享#
发布于 北京
