在生物医学研究领域,知识图谱(Knowledge Graph)已经成为组织复杂知识网络的核心工具。它通过节点和边的方式,将药物、蛋白质、疾病等实体及其相互关系进行结构化表示。传统的知识图谱问答系统(KGQA)主要关注于检索已知且高度相关的答案,这种"安全"的策略虽然保证了结果的准确性,却可能错失那些具有突破性价值的意外发现。
想象一下药物研发的历史:青霉素的发现源于培养皿中意外的霉菌污染,伟哥最初是作为心血管药物开发的。这些改变医学进程的突破,往往来自于研究者对意外现象的敏锐洞察。这正是"意外发现"(Serendipity)的价值——那些既相关又新颖且令人惊讶的知识关联,能够开辟全新的研究方向。
现有的KGQA评估体系存在三个主要缺陷:
我们提出的RNS框架通过三个正交维度量化意外发现:
计算现有答案集Ae和意外答案集As在图嵌入空间中的平均归一化欧氏距离:
code复制R(Ae, As) = -Σd(ni,nj)/(|As|·|Ae|)
其中ni和nj分别代表As和Ae中实体的图卷积网络嵌入。距离越小,表明两者在知识图谱中的上下文关联越紧密。
基于互信息理论,衡量As提供的新信息量:
code复制N(Ae, As) = 1 - MI(Ae, As)
MI = ΣP(i)ΣP(j|i)log[P(j|i)/P(j)]
高新颖性得分表示答案集As与Ae的信息冗余度低。
通过Jensen-Shannon散度量化分布差异:
code复制S(Ae, As) = 1/2[DKL(Ps∥PMix) + DKL(Pe∥PMix)]
其中Ps和Pe分别是As和Ae的概率分布,PMix是其混合分布。高意外性意味着答案难以从现有知识中直接推导。
实际应用中,三个维度的权重可根据领域需求调整,生物医学场景推荐设置为α=0.5, β=0.3, γ=0.2。
基于Santos等人2022年发布的ClinicalKG,我们:
构建1,529个药物重定位问题,覆盖四种模式:
| 查询类型 | 示例 | 占比 |
|---|---|---|
| 单跳查询 | "列出靶向EGFR蛋白的药物" | 15.4% |
| 两跳查询 | "哪些药物通过影响IL6来治疗类风湿关节炎" | 15.9% |
| 多跳查询 | "哪些药物通过调控TNF-α→NF-κB通路影响炎症反应" | 27.0% |
| 交集查询 | "既抑制COX-2又调节5-HT受体的止痛药" | 41.7% |
采用三级验证体系:
测试LLM将自然语言问题转换为Cypher查询的能力。关键发现:
评估LLM对检索结果的解释能力。有趣现象:
采用波束搜索(宽度30,深度3)评估发现能力:
| 模型 | 相关性(1-5) | 类型匹配率 | 意外命中率 |
|---|---|---|---|
| GPT-4o | 2.49 | 0.46 | 0.06 |
| DeepSeek-V3 | 2.54 | 0.48 | 0.08 |
| Llama-3-70B | 2.59 | 0.48 | 0.11 |
| Qwen-7B | 1.72 | 0.23 | 0.03 |
知识检索优化:
意外发现增强:
评估注意事项:
药物研发史上那些改变游戏规则的发现提醒我们:真正的突破往往来自预期之外的关联。这套评估体系不仅衡量LLM的"已知"能力,更重要的是指引它们帮助我们发现那些"未知的未知"。在精准医学时代,这种意外发现能力可能成为加速科研突破的关键催化剂。