化學數據庫

化學資料庫是為記錄化學資訊而專門設計的資料庫。這些資訊包括了物質的分子結構、晶體結構、譜學資訊、相關反應與合成方法，以及化學熱力學性質數據等。

化學資料庫的種類[編輯]

分子結構資料庫[編輯]

一般來說，用二維鍵線式來描述分子結構，對大多數小分子而言是較為常見的方法。儘管這種表述方法對化學家們來說簡單明了，卻不適合於在資料庫中的儲存和搜尋演算法的編寫。因此在資料庫中小分子（在藥物設計領域也常稱為配體）通常以將分子中的原子及其鍵連列表的方式描述，而大分子如蛋白質等，則常用氨基酸組裝單元序列等更緊湊的方式表示。

化學文獻資料庫[編輯]

化學文獻資料庫的目的是將化學物質與相關文獻——如科學論文或專利——關聯起來。此類資料庫的典型代表如化學文摘社的STN和SciFinder。許多專注於物質表徵的資料庫都提供了文獻連結。

晶體學資料庫[編輯]

晶體學資料庫主要提供物質的X射線繞射數據。這些數據反映了物質的結構資訊。最典型的代表是蛋白質資料庫和劍橋晶體學資料庫。

核磁共振譜資料庫[編輯]

核磁共振譜資料庫提供物質的核磁共振波譜資訊。這類資料庫一般也提供物質的其他譜學資訊，如傅立葉變換紅外吸收光譜和質譜等。

反應資料庫[編輯]

大多數資料庫所記錄的都是穩態分子的資訊，但也有一些反應資料庫，着重記錄反應中瞬間產生的亞穩態分子或中間體。這類反應資料庫一般還會提供反應前驅物、產物和反應機理的資訊。

熱物理學性質資料庫[編輯]

熱物理學性質包括以下方面：

相平衡熱力學數據，如氣-液平衡，固溶膠，氣溶膠，混合熱效應，蒸發焓，熔化焓等；
熱量數據，如熱容，生成熱或燃燒熱等；
傳熱、傳質相關數據，如粘度和熱導率等。

分子結構的表示[編輯]

在數碼化的化學資料庫中，分子結構一般有兩種表示方法，包括：

將原子表示為節點，化學鍵表示為邊，將分子表達為連接表或鄰接矩陣。採取這一方法的有蛋白質資料庫和化學標記式語言等。
將分子按照深度優先搜尋或廣度優先搜尋的原則表達為線性字串。這一方法的典型例子是簡化分子線性輸入規範（SMILES）。

搜尋[編輯]

亞結構搜尋[編輯]

化學研究者在搜尋某一物質時，可以不必輸入整個分子式，而只搜尋其結構的一部分，或其IUPAC命名法名稱的一部分。這種亞結構搜尋功能，正是化學資料庫與一般資料庫最大的區別之一。這種搜尋是基於子圖同構問題實現的，而這一問題也在圖論中被廣泛研究。一般來說這類搜尋具有O (n³)或O (n⁴)的時間複雜性，其中n是涉及原子的數目。

構象搜尋[編輯]

在一定的空間限制條件下，搜尋物質特定的三維構象，也是化學資料庫常需要實現的功能之一（尤其是在藥物設計領域）。這樣的搜尋相當消耗資源，因而人們也設計了多種近似方法來加以解決^[1]^[2]^[3]^[4]^[5]。

描述單元[編輯]

分子的所有性質都可以拆分為具體的物理/化學性質或藥學性質，這些性質被稱作描述單元。最重要的描述單元當然是化合物名，在這方面，多年來已發展起多種接近標準化的命名方法，從而得以減少含義不清的命名或一物多名現象。其中，IUPAC名是一個很好的選擇，不僅對人而言直接可讀，從電腦角度也提供了獨一無二的字串。不過，對大分子而言，IUPAC名就顯得過分冗長了。至於化合物的俗名，則難免受到數詞同音或數詞同義的干擾，不適合作為搜尋關鍵詞。另一方面，分子的物理/化學描述單元，諸如分子量、（部分）電荷、溶解度等等，幾乎可以直接從分子結構計算出來，而藥學描述單元則一般能從多元統計分析或實驗（藥物篩選、生物檢定法等）結果中獲得。所有這些描述單元都和分子的表達式被儲存在一起。

化學相似性[編輯]

對於化學相似性，並沒有統一的定義。不過，仍然可以將化學相似性從應用角度進行定義，比如描述為兩種分子在描述單元空間上距離的倒數。例如，如果兩種分子的分子量差距（比之其他分子對）較小，那麼就可以認為這兩種分子較為相似。多種衡量方式可以組合起來，產生多變數的距離度量。根據三角不等式的成立與否，距離度量還可以分為歐幾里得度量和非歐幾里得度量。通過進行最大共同子圖同構問題（MCS）基礎上的亞結構搜尋^[6] ，來進行距離度量和化學相似性評估的方法也很常見。MCS也被用於藥物篩選，即嘗試與現有藥物具有共同亞結構的不同分子 ^[7]。

資料庫中的化學品根據其相似性被歸入不同的群組中，對於屬性繁多的化學品，既可採用分級分類別方法，又可採用不分級的分類別方法。而這些化學品的性質則可能通過經驗或電腦計算得到。最為廣泛應用的分類別方法是Jarvis-Patrick演算法^[8]。

另外，在面向藥學應用的化學資料庫中，相似性通常被定義為化合物的生物效應。後者通常可以由分子的物理/化學性質，應用定量構效關係半自動地得到。

化學品登入系統[編輯]

記錄化合物獨特性資訊的資料庫被稱為化學品登入系統。這類系統通常被用於化合物的索引化，專利註冊以及工業資料庫中。物質登入系統一般對化合物在資料庫中的唯一表達有強制性要求。一般來說，這樣的唯一表達是所謂的「正則」字串，例如「正則SMILES」。有些化學品登入系統，如CAS則利用計算雜湊的方法達到相同的目的。化學品登入系統與一般化學資料庫的關鍵區別在於，前者能夠準確地區分一種物質究竟是已知，未知抑或部分已知。譬如說，一般的化學資料庫中可能記錄了一個分子，但其立體化學資訊則付諸闕如，而在化學品登入系統中，登入者將會被要求提供關於分子構象的準確資訊——構象已知或未知，是否是混合物乃至外消旋體，等。每一種不同的情形在化學品登入系統中都作為一個單獨的記錄。化學品登入系統也對分子資訊進行一些前處理，避免不重要的差別（如不同的鹵離子）產生影響。這類系統的一個典型例子是化學文摘註冊系統[1]。參見CAS編號。

參見[編輯]

參考文獻[編輯]

^ Pearlman, R.S.; Smith, K.M. Metric Validation and the Receptor-Relevant Subspace Concept. J. Chem. Inf. Comput. Sci. 1999, 39: 28–35 （英語）.
^ Lin Jr, Hung; Clark, Timothy. An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties. JCIM. 2005, 45 (4): 1010–1016 （英語）.
^ Meek, P. J.; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J. Shape Signatures: speeding up computer aided drug discovery. DDT 2006. 2006, 19–20: 895–904 （英語）.
^ Grant, J. A; Gallardo, M. A.; Pickup, B. T. A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape. JCIC. 1996, 17 (14): 1653–1666 （英語）.
^ Ballester, P. J.; Richards, W. G. Ultrafast shape recognition for similarity search in molecular databases. Proc R Soc A. 2007, 463: 1307–1321 （英語）.
^ S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. doi:10.1186/1758-2946-1-12（英式英語）
^ Rahman, S. Asad; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. Small Molecule Subgraph Detector (SMSD) Toolkit. Journal of Cheminformatics. 2009, 1: 12 [2012-06-28]. doi:10.1186/1758-2946-1-12. （原始內容存檔於2020-01-28）（英國英語）.
^ Butina, Darko. Unsupervised Data Base Clustering Based on Daylight’s Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. Chem. Inf. Comput. Sci. 1999, 39: 747–750 （英語）.

外部連結[編輯]

化學資料庫和物質註冊軟件[編輯]

Database and registration software[編輯]

CDK，一個開源的化學品數據JAVA圖書館（頁面存檔備份，存於互聯網檔案館）（英文）
JChem Base （頁面存檔備份，存於互聯網檔案館）（英文）和 JChem Cartridge（英文） ChemAxon（英語：ChemAxon）提供的Java和.NET版本資料庫管理搜尋工具
Instant JChem（英文） ChemAxon（英語：ChemAxon）提供的Java桌面資料庫管理搜尋軟件。個人版免費
SMSD (小分子子圖探測器) （頁面存檔備份，存於互聯網檔案館）（英式英語）基於JAVA的資料庫軟件，可以計算小分子之間的最大共同子圖（MCS）
JOELib （頁面存檔備份，存於互聯網檔案館）（英文），基於JAVA的化學品資料庫
'化學品尋找服務' 與 'NCI 增強版數據瀏覽器' （頁面存檔備份，存於互聯網檔案館）（英文），國家癌症研究院（NCI）CADD小組提供的網絡資料庫服務

名稱資料庫[編輯]

MOLBASE Online Database （頁面存檔備份，存於互聯網檔案館）（英文），免費化學資料庫，可以方便檢索查詢化學品名稱、CAS編號、化合物結構、子結構和相似結構搜尋，可查詢化學品物化性質；上下游關係。
Chemical Substances Database^{[失效連結]}，一個免費的化學品名稱資料庫，有37000個以上的條目，在化學品名稱日英互譯方面十分有用。
ChemSub Online （頁面存檔備份，存於互聯網檔案館）（法文），免費的化學品資訊網上門戶，提供八種語言的化學品名稱。
EuroChem Online Database，免費的化學資料庫。

[1] Pearlman, R.S.; Smith, K.M. Metric Validation and the Receptor-Relevant Subspace Concept. J. Chem. Inf. Comput. Sci. 1999, 39: 28–35 （英語）.

[2] Lin Jr, Hung; Clark, Timothy. An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties. JCIM. 2005, 45 (4): 1010–1016 （英語）.

[3] Meek, P. J.; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J. Shape Signatures: speeding up computer aided drug discovery. DDT 2006. 2006, 19–20: 895–904 （英語）.

[4] Grant, J. A; Gallardo, M. A.; Pickup, B. T. A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape. JCIC. 1996, 17 (14): 1653–1666 （英語）.

[5] Ballester, P. J.; Richards, W. G. Ultrafast shape recognition for similarity search in molecular databases. Proc R Soc A. 2007, 463: 1307–1321 （英語）.

[SMSD09-6] S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. doi:10.1186/1758-2946-1-12（英式英語）

[7] Rahman, S. Asad; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. Small Molecule Subgraph Detector (SMSD) Toolkit. Journal of Cheminformatics. 2009, 1: 12 [2012-06-28]. doi:10.1186/1758-2946-1-12. （原始內容存檔於2020-01-28）（英國英語）.

[8] Butina, Darko. Unsupervised Data Base Clustering Based on Daylight’s Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. Chem. Inf. Comput. Sci. 1999, 39: 747–750 （英語）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]