🧬 不懂生物也能参加的挑战!Arc Institute 发布的 Virtual Cell Challenge,Hugging Face 帮你一文看懂!🧪
挑战目标:训练一个模型,预测在一个细胞中“沉默”某个基因后会发生什么变化。📉 这其实是一个纯数据驱动的机器学习任务,Arc 提供了约 30 万条单细胞 RNA 测序数据,模拟 CRISPR 敲除基因后的表达响应,是一个典型的 context generalization 问题。
🧠 官方基线模型 STATE 非常硬核但开箱即用,包括两个模块:
State Embedding Model(SE):BERT 风格的细胞表征模型,用蛋白质大模型提取基因嵌入,组合成“细胞句子”。
State Transition Model(ST):Transformer 模拟器,输入控制细胞和 perturbation,输出基因表达的预测值。
三种评估维度也很有创意:
✅ Perturbation Discrimination:能否识别不同基因敲除的效果差异
✅ Differential Expression:能否捕捉哪些基因真正受到了显著影响
✅ Mean Average Error:传统误差指标作为补充
这是一个融合蛋白质语言模型、表征学习与生物模拟的任务,既能推动基础模型技术,也可能为未来的“AI 药物筛选”打开新方向。🧪
🤗 欢迎加入我们的中文社区:Chinese LLMs on Hugging Face,一起探索生物 × 人工智能的无限可能!
#人工智能##Hugging Face##生物计算#
发布于 美国
