基于离散扩散模型的全原子蛋白质序列设计方法已成为该领域的重要创新[1]。研究人员利用SELFIES全原子化学表示来生成包含非规范氨基酸和翻译后修饰的新型蛋白质序列,成功突破了传统仅基于20种规范氨基酸的序列表示局限[1]。这些模型采用修改后的ByteNet架构在离散扩散D3PM框架内运行,能够系统评估全原子表示对蛋白质质量、多样性和新颖性的影响[1]。
通过综合评估流程,生成的SELFIES序列能够有效转化为包含规范和非规范氨基酸的有效蛋白质,为蛋白质工程开辟了新的可能性[1]。这一技术进步使得科研人员不再局限于自然界存在的蛋白质,而能够根据特定需求设计定制化的蛋白质分子。