ADMET预测模型挑战赛：药物研发中的关键技术与实战

sched yield

1. 社区驱动的ADMET预测模型挑战赛：ExpansionRx-OpenADMET盲测解析

在药物研发领域，ADMET（吸收、分布、代谢、排泄和毒性）性质的准确预测一直是决定候选化合物成败的关键因素。最近，ExpansionRx与OpenADMET合作推出的盲测挑战赛，为计算化学和药物发现社区提供了一个难得的实战平台。这个挑战赛不仅提供了超过7000个小分子的高质量实验数据集，更通过九项关键ADMET指标的预测任务，直击药物研发中最具挑战性的环节。

2. 挑战赛背景与意义

2.1 小分子药物研发的ADMET瓶颈

尽管生物制剂和基因疗法近年来发展迅速，小分子药物仍然是现代药物发现的基石——过去十年中，FDA批准的药物中约75%属于小分子药物。这类化合物具有合成简便、性质可调等优势，但其在体内的行为预测却异常复杂。一个候选化合物能否成为成功药物，往往取决于其ADMET性质是否满足要求。

业内经验表明，约40%的候选药物在临床前阶段因ADMET问题被淘汰，这也是药物研发失败率居高不下的主要原因之一。

2.2 开放科学的价值

OpenADMET作为开放科学倡议，通过整合结构生物学、高通量实验和计算建模来改进ADMET预测。其核心策略之一就是组织盲测挑战，在真实、高质量数据集上对预测模型进行基准测试。这种社区驱动的方法有三大优势：

数据共享：ExpansionRx慷慨公开了其在肌强直性营养不良(DM1)、肌萎缩侧索硬化症(ALS)和痴呆症等RNA介导疾病药物研发过程中产生的高质量ADMET数据
方法验证：参与者在相同数据集上测试不同建模方法，可客观比较各种算法的优劣
问题导向：挑战设置的九项ADMET指标直接来自实际药物优化过程中遇到的真实问题

3. 数据集详解与挑战任务

3.1 数据集构成

挑战赛提供的数据集包含7000多个小分子在多个ADMET实验中的测量结果，分为：

训练集：包含分子结构(SMILES)和对应的ADMET测量值，供参与者训练模型
盲测试集：仅提供分子结构，要求参与者预测九项ADMET性质，用于最终评分

数据集特别注重以下几点质量保证：

实验数据均来自标准化操作流程
包含原始数据和经过清洗的版本
明确标注了超出测量范围的数据点

3.2 九大ADMET预测任务解析

3.2.1 脂溶性与溶解度预测

LogD(pH7.4)：表征化合物在生理pH下的脂水分配系数，直接影响化合物的膜渗透性和分布
- 测量方法：摇瓶法结合LC-MS定量
- 典型优化范围：1-3(过低则渗透性差，过高可能影响溶解度)
动力学溶解度(KSOL)：模拟药物在胃肠道中的溶解行为
- 单位：μM
- 关键点：不同于平衡溶解度，更能反映生物相关条件下的溶解特性

3.2.2 代谢稳定性预测

人肝微粒体清除率(HLM CLint)：预测体内肝脏代谢速度
- 单位：mL/min/kg
- 计算原理：通过测定底物消失速率推算内在清除率
小鼠肝微粒体稳定性(MLM)：跨物种代谢比较的重要指标
- 注意：小鼠数据对临床前药代动力学研究至关重要

3.2.3 渗透性与转运体影响

Caco-2渗透性(Papp A>B)：模拟肠道吸收
- 单位：10^-6 cm/s
- 实验细节：使用极化培养的Caco-2细胞单层
Caco-2外排比：评估转运体(如P-gp)对吸收的影响
- 计算方式：Papp B>A / Papp A>B
- 经验阈值：>2表示可能有显著外排作用

3.2.4 蛋白结合率预测

7-9. 组织蛋白结合率：

小鼠血浆蛋白结合(MPPB)
小鼠脑蛋白结合(MBPB)
小鼠腓肠肌蛋白结合(MGMB)
单位：%未结合
意义：决定游离药物浓度，影响药效和毒性

4. 参与挑战的实操指南

4.1 环境准备与数据获取

4.1.1 通过Hugging Face Datasets库获取数据

python复制from datasets import load_dataset

# 下载清洗后的训练集
ds_clean = load_dataset("openadmet/openadmet-expansionrx-challenge-train-data")
df_clean = ds_clean["train"].to_pandas()

# 下载原始训练集(含超出测量范围的数据)
ds_raw = load_dataset("openadmet/openadmet-expansionrx-challenge-train-data", name="raw")
df_raw = ds_raw["train"].to_pandas()

# 下载盲测试集
ds_test = load_dataset("openadmet/openadmet-expansionrx-challenge-test-data-blinded")
df_test = ds_test["test"].to_pandas()

4.1.2 数据预处理要点

SMILES标准化：
- 统一不同表示方式(如立体化学符号)
- 检查并修复无效SMILES
- 考虑使用RDKit进行标准化处理
缺失值处理：
- 分析缺失模式是否为随机缺失
- 考虑多重插补或基于模型的填补方法
特征工程：
- 计算分子描述符(MW, logP, HBD/HBA等)
- 生成分子指纹(ECFP, MACCS等)
- 可考虑3D构象依赖的特征

4.2 建模策略与技巧

4.2.1 模型选型建议

模型类型	适用场景	优点	注意事项
传统机器学习(RF, SVM等)	数据量中等，特征明确	训练快，解释性强	依赖特征工程
图神经网络(GNN)	直接处理分子图结构	自动学习分子特征	需要更多计算资源
多任务学习	多个端点间存在相关性	数据利用效率高	需平衡不同任务权重
集成方法	提升预测稳定性	减少过拟合风险	增加计算复杂度