在药物研发领域,ADMET(吸收、分布、代谢、排泄和毒性)性质的准确预测一直是决定候选化合物成败的关键因素。最近,ExpansionRx与OpenADMET合作推出的盲测挑战赛,为计算化学和药物发现社区提供了一个难得的实战平台。这个挑战赛不仅提供了超过7000个小分子的高质量实验数据集,更通过九项关键ADMET指标的预测任务,直击药物研发中最具挑战性的环节。
尽管生物制剂和基因疗法近年来发展迅速,小分子药物仍然是现代药物发现的基石——过去十年中,FDA批准的药物中约75%属于小分子药物。这类化合物具有合成简便、性质可调等优势,但其在体内的行为预测却异常复杂。一个候选化合物能否成为成功药物,往往取决于其ADMET性质是否满足要求。
业内经验表明,约40%的候选药物在临床前阶段因ADMET问题被淘汰,这也是药物研发失败率居高不下的主要原因之一。
OpenADMET作为开放科学倡议,通过整合结构生物学、高通量实验和计算建模来改进ADMET预测。其核心策略之一就是组织盲测挑战,在真实、高质量数据集上对预测模型进行基准测试。这种社区驱动的方法有三大优势:
挑战赛提供的数据集包含7000多个小分子在多个ADMET实验中的测量结果,分为:
数据集特别注重以下几点质量保证:
LogD(pH7.4):表征化合物在生理pH下的脂水分配系数,直接影响化合物的膜渗透性和分布
动力学溶解度(KSOL):模拟药物在胃肠道中的溶解行为
人肝微粒体清除率(HLM CLint):预测体内肝脏代谢速度
小鼠肝微粒体稳定性(MLM):跨物种代谢比较的重要指标
Caco-2渗透性(Papp A>B):模拟肠道吸收
Caco-2外排比:评估转运体(如P-gp)对吸收的影响
7-9. 组织蛋白结合率:
python复制from datasets import load_dataset
# 下载清洗后的训练集
ds_clean = load_dataset("openadmet/openadmet-expansionrx-challenge-train-data")
df_clean = ds_clean["train"].to_pandas()
# 下载原始训练集(含超出测量范围的数据)
ds_raw = load_dataset("openadmet/openadmet-expansionrx-challenge-train-data", name="raw")
df_raw = ds_raw["train"].to_pandas()
# 下载盲测试集
ds_test = load_dataset("openadmet/openadmet-expansionrx-challenge-test-data-blinded")
df_test = ds_test["test"].to_pandas()
SMILES标准化:
缺失值处理:
特征工程:
| 模型类型 | 适用场景 | 优点 | 注意事项 |
|---|---|---|---|
| 传统机器学习(RF, SVM等) | 数据量中等,特征明确 | 训练快,解释性强 | 依赖特征工程 |
| 图神经网络(GNN) | 直接处理分子图结构 | 自动学习分子特征 | 需要更多计算资源 |
| 多任务学习 | 多个端点间存在相关性 | 数据利用效率高 | 需平衡不同任务权重 |
| 集成方法 | 提升预测稳定性 | 减少过拟合风险 | 增加计算复杂度 |
不同ADMET端点应采用合适的评估指标:
实际药物研发中,模型在特定数值区间的准确度往往比整体指标更重要。例如,对于LogD在2-4范围内的化合物预测需要格外精确。
预测结果格式:
评估时间线:
评分标准:
问题1:某些端点数据分布极度不平衡
例如蛋白结合率大多集中在<1%或>99%,中间值罕见。
解决方案:
问题2:不同实验批次间的系统偏差
解决方案:
问题3:分子表征选择困难
决策树:
问题4:多任务学习的负迁移
解决方案:
问题5:模型在化学空间边缘表现差
缓解策略:
问题6:计算效率与精度平衡
优化建议:
参与这类盲测挑战时,保持实验记录的完整性至关重要。建议使用工具如Weights & Biases或MLflow跟踪所有实验参数和结果。这不仅有助于后期分析,也是研究可重复性的关键。
在药物发现领域,ADMET预测模型的真正价值在于能否减少实验迭代次数。我们开发模型时,应该时刻思考:这个预测能否帮助化学家做出更好的分子设计决策?这种问题导向的思维往往能产生最具实用价值的解决方案。