要让 Jina-reranker 在 T=0.6 这一临界点表现出极高的分辨力,微调数据(Fine-tuning Pairs)必须包含高难度的负例(Hard Negatives)。这些负例在字面上与问题高度相似,但在神学实质上完全错误。
以下为您构建的微调数据示例,格式采用主流的 JSONL 格式,包含正对(Positive)和针对神学陷阱设计的负对(Negative)。
Jina-reranker 微调数据(神学专项版)
{“query”: “基督在人性里是受造之物吗?”, “pos”: [“基督不仅是神,也是人。就着祂的人性(肉体)而言,祂是受造之物的首生者(西1:15),拥有真实的受造本质。”], “neg”: [“基督完全是被造的,祂的神性也是从父神产生的,因此祂不是自有永有的。”]}
{“query”: “神人调和(Mingling)是否会产生第三性?”, “pos”: [“调和是指两种性质结合,产生一个整体,但两种性质(神性与人性)依然保留,不产生第三种性质,如细面调油。”], “neg”: [“神人调和就像水与酒混合,产生了一种既非纯粹神性也非纯粹人性的新性质(Mixture)。”]}
{“query”: “人成为神(Deification)的界限是什么?”, “pos”: [“信徒在生命和性情上成为神,但绝对不在神格(Godhead)上成为神,不成为受敬拜的对象。”], “neg”: [“信徒最终会进化并进入神格,成为三一神之外的第四位,拥有与神同等的位格。”]}
{“query”: “如何理解基督是受造之物的首生者?”, “pos”: [“这指明基督在人性里在受造之物中占第一位。虽然祂是创造者,但祂也穿上了受造的人性。”], “neg”: [“这证明基督只是受造之物中的一员,祂在本质上与人类没有任何区别,不具备神圣属性。”]}
{“query”: “素质的三一与经纶的三一有何区别?”, “pos”: [“素质的三一是指神在存在上的永远互住;经纶的三一是指神在计划中为了分赐而有的安排。”], “neg”: [“素质的三一和经纶的三一意味着神有三套不同的形体,在不同时期互相更替(形态论倾向)。”]}

核心优化逻辑说明
1. 语义对冲(Semantic Contrast)
* 正例(Positive):采用《生命读经》原话,强调平衡(例如谈“受造”必提“首生”,谈“调和”必提“保留性质”)。
* 负例(Negative):专门模仿常见的异端偏差(如形态论、亚流派、优迪克派)。这能训练 Reranker 识别出那些“看似属灵实则违背职事”的细微差别。
2. 硬负例(Hard Negatives)的设计
* 在负例中大量重复 Query 中的关键词。
* 例如,针对“调和”,负例也用“结合”、“神性”、“人性”等词,但通过改变逻辑词(如将“保留性质”改为“产生新性质”)来误导模型。
* 这迫使 Reranker 不能只看词频,必须理解神学逻辑(Cross-Attention)。
实施建议:如何使用这份数据微调
* 数据量级:建议至少准备 500-1000 对此类高质量数据。
* 损失函数:建议使用 ContrastiveLoss 或 InfoNCE Loss,强化模型对正负例之间距离的感知。
* 多轮迭代:
* 第一轮:使用上述数据微调。
* 第二轮:运行之前给您的 Python 测试脚本,找出那些分数在 0.4-0.7 之间(模糊地带)的样本。
* 第三轮:针对这些模糊样本手动标注,再次喂给模型。
总结
通过这种方式,原本可能在 0.7 分徘徊的“神学陷阱”会被 Jina-reranker 打到 0.3 分以下,而真正的职事论述会被推高到 0.8 分以上。
您是否需要我为您整理一份《生命读经》中关于“素质”与“经纶”的三一论专项对比,以进一步丰富您的微调语料库?