RDKit|化合物ライブラリの類似性分析


小分子データベースの類似性解析戦略を示した.
例ではSMILESファイルが使用され、分析は、適切な方法でRDKitに分子をロードすることを確実にするだけで、分子のSDFまたは他のフォーマットファイルから同じ方法でデータをロードすることができる.
ライブラリのインポート
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import gridspec

from rdkit import Chem, DataStructs
from rdkit.Chem.Fingerprints import FingerprintMols
from rdkit.Chem import Draw

# clustering
from scipy.cluster.hierarchy import dendrogram, linkage

データの読み込み
このライブラリには、8,000,000以上のSMILESが含まれています.
database=[]
with open('mol_parent.smi','r') as file:
    for index,line in enumerate(file):
        if 0