Onyx搜遍公司系统|onyx|统一搜索|权限同步|自部署

想在公司里找一件事，你得先想清楚它到底躺在哪：聊天记录翻 Slack，文档翻 Google Drive，wiki 翻 Confluence，工单翻 Jira，代码和讨论又得去 GitHub。一件事分头搜五六个系统，还各登各的。有个开源项目叫 Onyx，想干的就是让你一句话问下去，它替你把这几摊东西一起搜了，答案还给你标出处。

公司的知识从来不缺，缺的是它散在十几个抽屉里，每个抽屉各上一把锁。你要找的东西可能就在隔壁部门两个月前的一条 Slack 消息里，但你根本不知道有这条，也搜不到。Onyx 这类东西想解决的，就是这个「东西都在，就是找不齐」的麻烦。

它跟很多「把文档传上去做问答」的工具不太一样，差别值得说清楚。那种工具是你手动把一堆 PDF、Word 丢进去建个库，资料是死的，传进去什么样就什么样。Onyx 的主轴是另一回事：它直接连上你公司正在用的那些系统，把活的数据接过来。

第一，它能连的东西，是公司真在用的那一堆。

Onyx 自带40多个连接器（connector，就是对接各家系统的接口），点名能接的有 Slack、Google Drive、Confluence、Jira、GitHub、SharePoint、Salesforce、Notion、Zendesk、HubSpot、Gmail，还有二十多个其他的。意思就是，你团队平时在哪干活、东西存在哪，它基本都能接进来，然后所有这些源的内容汇到一个搜索框里。你不用再想「这事是在 Slack 说的还是写进 Confluence 了」，问一句，它一起给你捞。

这一条听着简单，落到实处却不小。大部分团队的尴尬不在于资料少，而在于资料分家：销售把客户情况记在 Salesforce，产品把需求写在 Notion，工程把 bug 讨论留在 GitHub 的 issue 里，客服的历史问题压在 Zendesk。这些系统彼此不通气，你想拼出一件事的全貌，得自己当人肉搬运工，一个个翻、一段段对。Onyx 把这些源接到一起之后，它们才第一次像「一个公司的知识」，而不是十几摊各管各的数据。

第二，它连的是活数据，会自己在后台跟着更新。

这点是它和「上传静态文件」的工具拉开距离的地方。你传一份 PDF 进去，那份 PDF 就定在那了，文档后来改了它也不知道。Onyx 是在后台持续同步，各个系统里的内容有更新，它跟着把索引刷新一遍。你提问的时候，它查的是这份一直在更新的索引，所以回答能跟上最新的状态，而不是停留在「某次导入那一刻」。对一个内容天天在变的团队来说，这个差别其实挺关键：你昨天刚在 Confluence 改了流程，今天有人问，它给出的就该是新流程，而不是把旧版本翻出来误导人。

第三，它认权限——你能搜到什么，看你本来有权看什么。

这是企业用的东西和个人知识库最大的分水岭。同一个问题，工程的同事和财务的同事问下去，搜到的结果可能不一样：每个人只能搜到自己在原系统里本来就有权限看的内容。它的做法是把各个源系统的访问权限一起同步过来，谁能看哪份资料，跟着原系统的设置走。这样一来，把全公司的知识汇到一处，又不至于让 A 部门的人顺手就翻到 B 部门的机密。

这里要老实说一句：这个「权限自动同步」是 Onyx 企业版（付费）的功能，不是社区版白送的。我没拿企业版实测过，能说的就是它官方明确把这条放在企业版里，覆盖 Confluence、Jira、GitHub、Google Drive、Gmail、Slack、Salesforce、SharePoint 这些源。看重这条的团队，得把版本边界先弄清楚。

第四，模型随你接，部署也能放进自己机房。

Onyx 自己不产模型，背后接谁都行：商用的 Anthropic、OpenAI、Gemini，自己机器上跑的 Ollama、vLLM 这些也都支持。想用 DeepSeek、Qwen 这类开源模型，按它的 OpenAI 兼容接口或 LiteLLM 那一套配进去也能接，具体以你的配置为准。它能用 Docker 或者 K8s 自部署，整套放在自己服务器或私有云里——这样索引和文档存在哪、归谁管，是你自己说了算。要提醒一句：自部署只保证存储这一层可控，你的提问和检索出来的片段会不会发到模型那边，得看你接的是谁。接本地或私有部署的模型，才真接近数据不出门；接的是云端 API，这些内容仍然要往外走。对存着合同、客户资料、内部讨论的团队，这条边界值得先掰清楚。

第五，它不只是「搜出来给你看」，还能往下做一步。

底层是一套检索增强（RAG，简单说就是 AI 回答前先翻一遍你的资料、照着资料说，不容易瞎编）的框架，给的答案都带出处，你能点回去核对，不是凭空一段话。除了搜，它还能建自定义的 AI 助手——给它配上特定的指令、知识和能做的动作，让它专门盯某一类活；遇到复杂问题，它还能自己分几步去查、出一份长一点的报告，也能联网取最新信息。

事实交代一下。这项目在 GitHub 上攒了约3万颗 star，2023年就开始做了（早先叫 Danswer，后来改名 Onyx），最近这几天还在提交代码，不是放上去没人管的。开源这块要说准：它的社区版是 MIT 协议，自己部署免费用没问题；但仓库里专门有一块企业版的代码是另一套许可（前面说的权限自动同步就在里头），不是整个项目都随便拿去商用。想商用的，先把这条边界看清楚，别把社区版当成全功能免费版去规划。

它不是装上就万事大吉。它是给有点技术底子的团队用的，自部署、配各个连接器的授权、接模型的钥匙，这些第一次弄都得花点功夫，纯小白上手有门槛（嫌麻烦的也有官方云托管版可以直接用）。还有，答得准不准，最后还是看你接的是什么模型、各个源里的资料本身干不干净。平台能帮你把知识汇齐、搜出来，但替不了你把资料本身理顺，源头乱的，搜出来还是乱。

对一个被七八个系统的搜索框折腾够呛、又想把公司知识握在自己手里的团队来说，以前要把这么多源接到一起、还带上权限，得自己啃不少东西；现在有人把这条线打包好放那了，你省下的是从零搭起的那部分力气。

它叫 Onyx，开源的，在 GitHub 上叫 onyx-dot-app/onyx。

#马力的AI知识分享#
#马力的AI开源项目分享#

发布于北京