Claude – 百宝箱

伯大尼年度企划评估报告

一、总体战略判断

这是一个定位清晰、积累扎实、方向正确的专项 AI 事工企划，在华语基督教界属于开创性工作。但企划在范围控制、优先级排序、团队负荷三方面存在需要正视的张力。

核心优势：内容积累（2万纲目）与技术迭代（PanSearch → 3.5）形成了真正的护城河，这不是从零开始的项目。

核心风险：计划中列出的 AI 技术项目（5项）+ 表达项目（4项）+ 内容项目（2项）共 11 个并行线，对 10 人全职团队而言极可能造成分散而无法形成突破。

二、内容方面评估

强项

• 2 万余篇核心纲目是整个系统的知识资产底座，这是 PanAI 区别于通用 RAG 系统的根本护城河
• 真理词典 1500 词覆盖率已达 67%，完成度可观

问题与建议

问题1：1 万篇纲目的生产方式未明确

|方式 |效率 |质量风险 |
|—————–|———–——|———-|
|纯人工制作 |极慢（10人团队难以在1年内完成）|低 |
|PanAI 一键生成 + 人工审核|快 10-20x |中（需审核机制） |
|AI 全自动 |最快 |高（神学准确性存疑）|

建议：应明确采用 PanAI 辅助生成 + 人工神学校审的双轨制，并制定纲目质量标准（参照既有 Q 五步分析法的评分框架）。

问题2：真理词典与 Neo4j 图谱的衔接未说明

词典目标 2250 词，图谱目标 2000 节点——两者几乎重合，应当统一规划，避免重复劳动：

真理词典词条
│
├── 定义文本 → Elasticsearch（全文检索）
├── 概念节点 → Neo4j（关系图谱）
└── 嵌入向量 → pgvector/ES（语义检索）

三、AI 技术方面评估

PanAI 4.0（核心，最高优先级）

这是整个企划的技术主轴，其他所有工具都应服务于此，而非与之并列。

建议 4.0 的技术架构方向：

PanAI 4.0 核心升级目标

现有 3.5 4.0 新增
───────── ────────
RAG 检索 → 深度推理层（Chain-of-Thought）
Neo4j 1000节点/6关系 → 2000节点/20关系
一键制作纲目 → Golden Path 自动五步提取
职事问答 → Scripture Alignment L1-L5 评分
四维有机框架自动评分
多轮对话记忆（Redis）

深度推理模型建议采用 Claude Opus + 专项 system prompt（而非另起炉灶训练模型），成本可控且效果最优。

Zotero + AI （中优先级）

与前几次对话已有完整架构设计。建议限定范围：仅做单向入库管道（Zotero → PanAI /ingest），不要在年度计划内做双向同步，避免过度工程化。

Google Vertex RAG （需重新评估）

注意：这与上次讨论的 Vortex RAG（开源项目）不同——Google Vertex AI RAG Engine 是 Google Cloud 的托管 RAG 服务。

|维度 |Google Vertex RAG |PanAI 自建 RAG|
|———-|———————|————|
|成本 |按 token 计费，长期偏高 |固定服务器成本 |
|神学定制 | 无法嵌入 Golden Path 框架| 完全可控 |
|中文支持 |中等 | 可针对性优化 |
|维护负担 |低 |中 |
|与 PanAI 整合|需要额外桥接层 |原生 |

建议：Vertex RAG 对 PanAI 的神学定制化需求而言价值有限，可降级为「调研」而非「作出」。若目的是减轻自建维护负担，可考虑用 Vertex RAG 处理非核心文献（一般参考资料），核心职事信息仍走 PanAI 自建管道。

Obsidian + AI （高价值，但需限定范围）

已有完整架构设计。年度计划内建议只做：

1. Vault 监听 → PanAI 入库（已设计完毕，可快速实现）
2. PanAI 输出写回 Obsidian（Golden Path / 四维框架）

Canvas 可视化和 Neo4j 导出可列为 4.0 后续功能，不必今年完成。

Ollama + AnythingLLM + Qwen 2.5 （低成本、高杠杆）

已有架构设计。建议定位为本地低成本推理层，专门处理：

• 高频中文事实检索
• 内部/私密文档（不上云）
• 离线场景

一周内可完成，不需要作为独立年度项目，应并入 PanAI 4.0 的 LLM 路由模块。

四、表达方面评估

Claude 各类功能应用（战略性投入）

这是杠杆最高的一项。建议具体化为以下子项目：

Claude Code → PanAI 代码库自动维护、重构、测试
Claude Agents → 多步骤神学分析自动化（Golden Path 全流程）
Claude Skills → 封装 Q五步、四维框架为可调用 skill
Cowork → 团队协作文档自动生成
Design → 信息图表、纲目可视化

服事相关 Prompt 研究（核心竞争力）

这是整个企划最容易被低估但最有长期价值的项目。建议：

• 建立 Prompt 版本库（Git 管理）
• 按服事场景分类（制作纲目、问答、讲道准备、真理研究）
• 每条 Prompt 配合 Q 五步评分做质量基准测试

NotebookLM + Gemini Flash 发表研究（差异化输出）

NotebookLM 的 Audio/Video Overview 功能对职事信息的普及传播具有独特价值。建议限定在：

• 将职事信息纲目转化为 Audio Overview（播客格式）
• Study Guide 自动生成用于查经带领
• 不做深度 API 集成（消费版无官方 API）

Telegram / Line Bot （需评估受众）

这是用户触达层，而非 AI 能力层。关键问题：

• 目标用户是谁？（全职同工？地方召会？慕道友？）
• Bot 是 PanAI 的前端，还是独立系统？
• 中文用户用 Line/微信居多，Line Bot 优先于 Telegram

建议：将 Bot 定位为 PanAI 4.0 的移动端接口，复用 /v1/chat/completions 兼容层，2-3 周可完成 MVP。

五、团队资源评估

10 人全职团队面对 11 个并行项目，建议按以下方式分工：

角色分组（建议）

神学内容组（4人）
├── 1万篇纲目制作（AI辅助+人工审核）
└── 真理词典补全（750词）

AI 核心工程组（3人）
├── PanAI 4.0 主导开发
│ ├── Neo4j 图谱扩展（1000→2000节点）
│ ├── 深度推理层
│ └── LLM 路由（含 Qwen 2.5 集成）
└── Zotero / Obsidian 入库管道

工具与表达组（2人）
├── Claude Agents / Skills 封装
├── Prompt 研究与版本库
└── Telegram/Line Bot MVP

研究与评估组（1人）
├── Vertex RAG 调研
├── NotebookLM 发表研究
└── 新工具评估（持续）

六、风险矩阵

|风险 |概率|影响|缓解措施 |
|———————|–|–|-————–|
|11项并行导致全部半完成 |高 |高 |强制优先级排序，砍掉3项 |
|Vertex RAG 成本超预算 |中 |中 |先调研，不急于实现 |
|notebooklm-py API 失效 |高 |低 |仅用于原型，主靠导出桥接 |
|纲目质量因 AI 生成下降 |中 |高 |建立神学审核标准 |
|Neo4j 关系种类扩展带来数据一致性问题|中 |中 |先设计 schema 再扩展 |
|PanAI 4.0 范围蔓延延期 |高 |高 |锁定 MVP 范围，分版本迭代|

七、优先级重排建议

必须完成（年度核心）

1. PanAI 4.0 MVP（深度推理 + 图谱扩展至 2000节点/20关系）
2. 1万篇纲目（AI辅助生产，配神学审核机制）
3. 真理词典补全 750 词（与图谱节点同步）
4. Claude Agents/Skills 封装（Golden Path 全流程自动化）

应当完成（年度重点）

5. Prompt 研究与版本库
6. Obsidian + AI 入库管道（2周内可完成）
7. Ollama/Qwen 2.5 集成（并入 PanAI 4.0）
8. Line Bot MVP（复用 PanAI API）

降级调研（不必今年实现）

9. Google Vertex RAG（调研报告即可）
10. Zotero 双向集成（单向入库足够）
11. NotebookLM 深度集成（维持导出桥接）

八、企划中缺失的关键要素

1. 评估指标（KPI）：如何衡量「完成」？纲目质量基准？问答准确率？图谱覆盖率？
2. 神学准确性审核机制：AI 生成的纲目如何保证符合 Nee-Lee 传统？
3. 用户测试计划：PanAI 4.0 的目标用户是谁，何时进行实际服事场景测试？
4. 数据备份与安全：2 万篇纲目 + 知识图谱的备份策略？
5. 版本发布节奏：建议每季度一个里程碑，而非年底全部交付

总结判断

这个企划的内容积累和技术路径是扎实的，真正需要决策的不是「要不要做」，而是**「今年只做哪几件」**。建议将年度目标聚焦在：

内容 + PanAI 4.0 + Claude Agents 封装这三条主轴，其余作为「并行调研」而非「年度交付目标」。

这样 10 人团队在一年内有可能形成真正的突破性成果，而不是 11 个 80% 完成的项目。