MolGAN

 

分类

处理字符串

SMILES、RNN

优点:原子数量不固定;

缺点:不用用于一般的图;字符顺序的歧义性;句法规则无法学习;不够鲁棒,可能生成无效的图。

处理图形数据

优点:生成的都是有效的图(但不一定是有效的分子);

缺点:需要解决 节点顺序敏感 问题;

基于 RNN 的方法

主要处理字符串;

基于概率的方法 VAE

优点:训练过程比 GAN 更容易和稳定;

缺点:要解决 节点顺序敏感 问题,必须耗费大量资源计算概率;

基于隐式生成模型的方法 GAN

优点:可以通过设计 discriminator ,解决 节点顺序敏感 问题,不用计算概率;

数据集

QM9

评价标准

有效性(Validity): 生成的有效分子数量/生成的全部分子数量。

新颖性(Novelty):生成的数据集中没有的有效分子数量/生成的全部分子数量。

多样性(Uniqueness):生成的不同种类数量/生成的全部分子数量。

类药性(QED,Quantitative Estimate of Draglikeness):指化合物与已知药物的相似性。具有类药性的化合物并不是药物,但是具有成为药物的可能,这一类化合物称为类药性分子或药物类似物分子。

溶解度(Solubility):在一定温度下,某固态物质在100g溶剂中达到饱和状态时所溶解的溶质的质量,叫做这种物质在这种溶剂中的溶解度。

合成度(Synthetizability):人工合成这种化合物的难易程度。