FoldamerDB: a database of peptidic foldamers
TL;DR 精炼摘要
FoldamerDB是一个开放源代码的肽折叠聚合物数据库,完全标注且经人工策划,包含1319种折叠聚合物的序列、结构与生物活性信息,来源于160多篇论文。其用户友好的界面支持多种搜索和筛选功能,填补了肽折叠聚合物领域公开资源的空白。
摘要
Foldamers are non-natural oligomers that mimic the structural behaviour of natural peptides, proteins and nucleotides by folding into a well-defined 3D conformation in solution. Since their first description about two decades ago, numerous studies have been undertaken dealing with the design, synthesis, characterization and application of foldamers. They have huge application potential as antimicrobial, anticancer and anti-HIV agents and in materials science. Despite their importance, there is no publicly available web resource providing comprehensive information on these compounds. Here we describe FoldamerDB, an open-source, fully annotated and manually curated database of peptidic foldamers. FoldamerDB holds the information about the sequence, structure and biological activities of the foldamer entries. It contains the information on over 1319 species and 1018 activities, collected from more than 160 research papers. The web-interface is designed to be clutter-free, user-friendly and it is compatible with devices of different screen sizes. The interface allows the user to search the database, browse and filter the foldamers using multiple criteria. It also offers a detailed help page to assist new users. FoldamerDB is hoped to bridge the gap in the freely available web-based resources on foldamers and will be of interest to diverse groups of scientists from chemists to biologists. The database can be accessed at http://foldamerdb.ttk.hu/.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
FoldamerDB: a database of peptidic foldamers (FoldamerDB:肽折叠聚合物数据库)
1.2. 作者
- Bilal Nizami¹*
- Dorottya Bereczki-Szakál²
- Nikolett Varró²
- Kamal el Battioui¹
- Vignesh U. Nagaraj¹
- Imola Cs. Szigyártó¹
- István Mándity²
- Tamás Beke-Somfai¹*
所属机构:
- MTA TTK Lendület Biomolecular Self-Assembly Research Group, Institute of Materials and Environmental Chemistry, Research Centre for Natural Sciences, Hungarian Academy of Sciences, H-1117 Budapest, Magyar Tudósok krt. 2, Hungary
- Institute of Organic Chemistry, University of Szeged, Dóm tér 8, H-6720 Szeged, Hungary
1.3. 发表期刊/会议
论文内容未明确指出所属期刊,但根据其发布日期和内容推断,通常发表在生物信息学或化学生物学相关期刊。
1.4. 发表年份
2019年 (Published at (UTC): 2019-10-17T00:00:00.000Z)
1.5. 摘要
折叠聚合物 (Foldamers) 是一种非天然的寡聚体 (oligomers),它们通过在溶液中折叠成明确的三维 (3D) 构象 (conformation),模拟天然肽 (peptides)、蛋白质 (proteins) 和核苷酸 (nucleotides) 的结构行为。自大约二十年前首次被描述以来,已进行了大量关于折叠聚合物的设计、合成、表征和应用研究。它们在抗菌 (antimicrobial)、抗癌 (anticancer) 和抗艾滋病 (anti-HIV) 药物以及材料科学领域具有巨大的应用潜力。尽管其重要性日益增加,但目前尚没有公开可用的网络资源提供关于这些化合物的全面信息。
本文介绍了 FoldamerDB,一个开放源代码 (open-source)、完全标注 (fully annotated) 并经人工策划 (manually curated) 的肽折叠聚合物数据库。FoldamerDB 存储了折叠聚合物条目的序列 (sequence)、结构 (structure) 和生物活性 (biological activities) 信息。它包含了从超过160篇研究论文中收集的1319种物质和1018种活性信息。其网络界面设计简洁、用户友好,并兼容不同屏幕尺寸的设备。该界面允许用户搜索数据库,并使用多种标准浏览和筛选折叠聚合物。它还提供详细的帮助页面以协助新用户。FoldamerDB 有望弥补折叠聚合物领域免费网络资源的空白,并将吸引从化学家到生物学家的各类科学家。该数据库可通过 http://foldamerdb.ttk.hu/ 访问。
1.6. 原文链接
/files/papers/69120bd4b150195a0db74a26/paper.pdf
2. 整体概括
2.1. 研究背景与动机
-
论文试图解决的核心问题是什么? 尽管折叠聚合物作为非天然寡聚体在模拟生物结构和功能方面展现出巨大的潜力,并且在抗菌、抗癌、抗HIV以及材料科学等领域具有广泛的应用前景,但目前缺乏一个公开可用的、全面整合其序列、结构和生物活性信息的数据库。这导致了该领域研究人员在获取和利用现有数据方面的困难。
-
为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白(Gap)?
- 应用潜力巨大: 折叠聚合物因其独特的结构稳定性(如对蛋白酶降解的抵抗)和多样的生物学功能,被认为是开发新型药物和先进材料的关键。
- 信息分散: 大量关于折叠聚合物的设计、合成、表征和应用的研究成果分散在海量的学术论文中,没有一个集中的、结构化的平台来汇总这些信息。
- 计算设计需求: 随着计算化学、分子图形学、蛋白质结构预测和药物设计等领域的发展,对专注于折叠聚合物的结构-活性关系数据的需求日益增长,以便进行基于计算机的理性设计。现有的通用化学数据库(如 PubChem, ChEMBL)或特定肽数据库(如 CAMP)无法全面满足这种特定需求。
- 缺乏统一资源: 目前缺乏一个能够桥接化学家和生物学家之间信息鸿沟的统一网络资源。
-
这篇论文的切入点或创新思路是什么? 该论文的创新点在于开发并推出 FoldamerDB,这是一个专门针对肽折叠聚合物的、开放源代码、人工策划和完全标注的数据库。它首次将折叠聚合物的序列、结构和生物活性信息汇集一处,旨在填补现有资源空白,为该领域的研究提供一个核心的信息枢纽。
2.2. 核心贡献/主要发现
- 开发了 FoldamerDB: 首次创建了一个公开可用的、专注于肽折叠聚合物的在线数据库。
- 数据整合与丰富性: 数据库收录了从160多篇研究论文中人工策划的超过1319种折叠聚合物和1018项生物活性数据,并提供了详细的2D/3D结构、分子性质、外部数据库ID等信息。
- 用户友好的界面: 设计了一个简洁、响应式 (responsive) 的网络界面,支持多标准搜索、浏览和筛选功能,并兼容不同屏幕尺寸的设备,极大提升了用户体验。
- 填补领域空白: FoldamerDB 弥补了折叠聚合物领域长期以来缺乏集中式、标准化信息资源的空白,为科学家(从合成化学家到生物学家)提供了一个宝贵的工具。
- 促进研究: 通过提供结构化的数据,FoldamerDB 有望加速折叠聚合物的理性设计、结构-活性关系研究以及在药物发现和材料科学中的应用,特别是结合机器学习技术。
3. 预备知识与相关工作
3.1. 基础概念
- 折叠聚合物 (Foldamers):
- 概念定义:
折叠聚合物是一类非天然的寡聚体 (oligomers),它们被设计和合成出来,能够在溶液中自发地折叠成明确的、预设的三维构象 (3D conformation)。这种折叠行为模仿了天然肽 (peptides)、蛋白质 (proteins) 和核苷酸 (nucleotides) 的结构特性。与天然生物大分子不同,折叠聚合物的骨架 (backbone) 通常由非天然的单体 (monomers) 组成。 - 重要性: 它们因其独特的结构稳定性(例如,对蛋白酶
protease和肽酶peptidase降解的抵抗力)以及模仿或超越天然生物分子功能的能力而备受关注。
- 概念定义:
- 肽折叠聚合物 (Peptidic Foldamers):
- 概念定义:
肽折叠聚合物是折叠聚合物的一种重要子类,其骨架通常由非天然的氨基酸类似物 (amino acid analogs) 组成,但保留了肽键连接的特性,例如β-肽(β-peptides)、γ-肽(γ-peptides)、肽类(peptoids)、寡脲(oligoureas) 以及氮杂肽(aza-peptides) 和氨氧基肽(aminoxy peptides) 等。它们通过修饰氨基酸骨架或侧链,来实现特定的折叠模式。 - 例如:
β-肽是指在氨基酸的 α-碳和羧基之间插入一个亚甲基 (-CH2-) 的肽,形成含有12个原子的环状结构,从而改变了骨架的柔韧性和氢键模式。
- 概念定义:
- 三维构象 (3D Conformation):
- 概念定义: 指的是分子中原子在空间中的特定排列方式。对于
折叠聚合物而言,其三维构象是其功能实现的基础,例如形成螺旋 (helices)、折叠片 (pleated sheets) 或转角 (turns) 等二级结构。
- 概念定义: 指的是分子中原子在空间中的特定排列方式。对于
- 蛋白酶/肽酶降解 (Protease/Peptidase Degradation):
- 概念定义:
蛋白酶和肽酶是生物体内的一类酶,它们能够催化蛋白质和肽链水解,将其分解为更小的片段或氨基酸。天然肽通常容易被这些酶降解。 - 折叠聚合物的优势: 许多
折叠聚合物由于其非天然骨架,对这些酶具有抵抗力,因此具有更好的生物稳定性,这对于开发长效药物至关重要。
- 概念定义:
- 数据库 (Database):
- 概念定义:
数据库是有组织地存储和管理数据的电子集合。它允许用户高效地存储、检索、更新和管理信息。
- 概念定义:
- 人工策划 (Manually Curated):
- 概念定义:
人工策划意味着数据库中的数据不是完全自动化的收集和处理,而是由人类专家进行筛选、验证、标准化和注释的过程。这确保了数据的高质量、准确性和一致性,尤其是在处理复杂的化学结构和生物活性数据时。
- 概念定义:
- 标注 (Annotated):
- 概念定义:
标注是指为数据库中的每个数据条目添加额外的描述性信息或元数据。例如,对于一个折叠聚合物,除了其化学结构外,还可以标注其生物活性类型、测定方法、实验条件、相关文献链接等,以提供更全面的上下文信息。
- 概念定义:
- 开放源代码 (Open-Source):
- 概念定义:
开放源代码指的是其源代码是公开的,任何人都可以自由地访问、使用、修改和分发。这促进了透明度、协作和创新。
- 概念定义:
- SMILES (简化分子线性输入规范 - Simplified Molecular Input Line Entry Specification):
- 概念定义:
SMILES是一种用ASCII字符串表示分子结构的方法。它允许以文本形式简洁地描述化学键合和原子连接性,便于计算机处理和存储分子信息。
- 概念定义:
- InChIKey (国际化学标识符密钥 - International Chemical Identifier Key):
- 概念定义:
InChIKey是国际化学标识符(InChI) 的浓缩、固定长度的哈希表示形式。它提供了一种用于在数据库和网络资源之间快速搜索和链接化学物质的标准化方法,不受格式变化的影响。
- 概念定义:
- Tanimoto 系数 (Tanimoto Coefficient):
- 概念定义:
Tanimoto 系数是一种用于衡量两个集合之间相似性的度量,常用于计算化学领域中分子指纹 (molecular fingerprints) 的相似度。其值介于0和1之间,其中1表示完全相同,0表示完全不同。
- 概念定义:
- 指纹 (Fingerprint):
- 概念定义: 在计算化学中,
指纹是一个二进制字符串,用于编码分子的结构特征。每个位 (bit) 可能代表分子中是否存在特定的原子团、键合模式或拓扑路径。通过比较两个分子的指纹,可以快速评估它们的结构相似性。
- 概念定义: 在计算化学中,
3.2. 前人工作
- 折叠聚合物研究的奠基者: 文章指出
折叠聚合物化学领域由 Gellman 和 Seebach 等团队开创,他们在大约二十年前首次描述了折叠聚合物的概念,并推动了该领域的早期发展。 - 相关数据库:
- 通用化学信息:
FoldamerDB的数据收集过程中会交叉引用Reaxys(一个商业化学信息数据库)、PubChem(美国国家生物技术信息中心维护的化学物质数据库) 和ChEMBL(欧洲生物信息学研究所维护的生物活性化合物数据库),这些都是广泛使用的化学信息资源。 - 结构信息:
CSD(剑桥结构数据库 - Cambridge Structural Database) 和PDB(蛋白质数据库 - Protein Data Bank) 是获取实验确定的分子三维结构(特别是晶体结构和 NMR 结构)的重要来源。 - 抗菌肽数据库: 作者还提到了
CAMP(Collection of sequences and structures of antimicrobial peptides) 和CAMPR3等专门的抗菌肽数据库。
- 通用化学信息:
- 现有挑战: 尽管存在上述通用或特定领域的数据库,但没有一个公开可用的数据库是专门针对
折叠聚合物的,能够全面整合其序列、结构和生物活性信息。这是FoldamerDB旨在解决的核心空白。
3.3. 技术演进
折叠聚合物 领域自20世纪90年代末以来取得了显著发展,从最初的概念提出和基础合成,逐步演进到对其结构多样性、折叠机理、生物稳定性及广泛应用潜力的深入探索。这种演进体现在:
-
结构多样化: 从早期的
β-肽扩展到γ-肽、肽类、混合肽等多种骨架类型。 -
功能探索:
折叠聚合物的应用从模仿蛋白质构象扩展到抗菌、抗癌、抗病毒药物开发、基因治疗、生物材料以及催化等领域。 -
计算设计需求: 随着
折叠聚合物数量的增长和复杂性的提高,对基于计算机辅助设计 (CADD) 的需求日益迫切,这要求有结构化、可搜索、可分析的数据集。FoldamerDB正是在这种背景下应运而生,作为领域技术演进的必然产物,旨在为未来的计算驱动型研究(如机器学习)提供数据基础。
3.4. 差异化分析
- 核心区别:
FoldamerDB是第一个也是唯一一个专注于折叠聚合物的开放源代码数据库。 - 信息整合: 不同于
PubChem或ChEMBL等通用化学数据库可能包含折叠聚合物的部分信息,但FoldamerDB专门整合了折叠聚合物特有的序列、详细结构(包括2D和交互式3D模型)和生物活性信息,并进行了人工策划和分类。 - 特定领域关注: 现有的一些肽数据库(如
CAMP)可能专注于天然或改良的天然肽,而FoldamerDB的核心在于非天然寡聚体的折叠行为。 - 用户体验:
FoldamerDB提供了折叠聚合物特定类型的筛选、子结构搜索等功能,其界面和功能都针对折叠聚合物研究者的需求进行了优化。
4. 方法论
4.1. 方法原理
FoldamerDB 的核心原理是构建一个开放源代码、人工策划的肽折叠聚合物关系型数据库。其目标是收集、整理并标准化来自科学文献的关于 折叠聚合物 的序列、结构和生物活性信息,并通过一个用户友好的网络界面提供全面的搜索、浏览和数据可视化功能。该数据库旨在为科学家提供一个集中的资源,以促进 折叠聚合物 的研究、设计和应用。
4.2. 核心方法详解
FoldamerDB 的构建主要分为数据收集与处理、数据库设计与实现以及特殊功能(如子结构搜索)的开发。
4.2.1. 数据收集与处理
数据收集是 FoldamerDB 的基础,强调人工策划和全面性。
- 文献搜索: 研究人员使用
'foldamer'、'nonnatural peptide'、'peptide'和'folding'等关键词组合在SCOPUS、PubMed和PMC等文献数据库中进行搜索,以识别相关的科学论文。 - 数据提取与交叉引用: 对于每一篇识别出的文献,研究人员会从中手动提取
折叠聚合物的信息,并与多个外部数据库进行交叉引用,以确保数据的准确性和完整性:- 化学信息:
Reaxys、PubChem、ChEMBL和NCBI(美国国家生物技术信息中心) 用于提取化学名称、分子式、SMILES 等化学性质。 - 结构信息:
CSD(剑桥结构数据库) 和PDB(蛋白质数据库) 用于提取实验确定的三维结构数据,如 X 射线晶体学 (X-ray crystallography) 或核磁共振 (NMR) 数据。
- 化学信息:
- 数据纳入标准: 只有满足以下条件的肽才会被纳入数据库:
- 在文献中明确描述为
'foldamer'。 - 实验证明其能够折叠成特定的
三维结构。
- 在文献中明确描述为
- 数据处理与标注:
-
工具: 使用
Python3脚本和KNIME Analytics Platform(版本3.6.2) 对收集到的数据进行处理和标注。 -
结构校正: 采用
Marvin(由ChemAxon开发) 工具来校正可能存在的错误化学结构表示。 -
分类: 每个收集到的
折叠聚合物根据其骨架类型被分类到以下组别之一:α-肽(α-peptide)、β-肽(β-peptide)、γ-肽(γ-peptide)、α/β-肽(α/β-peptide)、α/γ-肽(α/γ-peptide)、α/β/γ-肽(α/β/γ-peptide)、β/γ-肽(β/γ-peptide)、Aib 折叠聚合物(Aib foldamer) 或肽类(peptoids)。特别地,尽管α-肽(α-peptides) 是天然肽,但出于机器学习和理性设计目的,一些天然α-肽也被包含在数据库中,因为它们常作为非天然插入物修饰的起始序列。然而,为简化,论文中所有条目都被统称为折叠聚合物。 -
数据收集与处理的工作流程如下图(原文 Figure 2)所示:
该图像是FoldamerDB的数据收集与处理工作流程示意图,展示了数据如何通过不同的数据源(如Reaxys、CSD、PDB和PubChem)进行整合,最终存储于FoldamerDB中,并通过Apache HTTP服务器提供网页接口。在数据库中,信息被分类为序列和活性。
-
4.2.2. 数据库设计与实现
FoldamerDB 采用标准的三层架构来确保高效的数据管理和用户交互。
- 后端 (Backend):
- 服务器: 数据库托管在
Apache HTTP server 2.4上。 - 数据库管理系统 (DBMS): 采用
MySQL server 5.7作为关系型数据库管理系统 (RDBMS)。RDBMS被广泛用于管理具有数百万数据点的流行数据库,因为它能通过父子关系(parent-child relationship) 将信息存储在多个相互关联的表中,便于检索和扩展。
- 服务器: 数据库托管在
- 前端 (Frontend):
- 技术栈: 使用
PHP 7.2(一种服务器端脚本语言)、HTML5(网页结构语言)、CSS(样式表语言) 和JavaScript(客户端脚本语言) 来设计动态的用户界面。 - 响应式设计: 引入
Bootstrap3和jQuery库,以实现响应式(responsive) 和移动优先(mobile-first) 的前端设计,确保在不同屏幕尺寸的设备上都能良好显示。
- 技术栈: 使用
- 数据可视化与结构渲染:
- 图表:
JpGraph库用于绘制各种统计图表。 - 3D 模型:
Jmol工具 (一个开源的分子可视化软件) 用于渲染折叠聚合物的交互式三维模型。
- 图表:
4.2.3. 子结构搜索 (Substructure Search)
FoldamerDB 提供强大的 子结构搜索 功能,允许用户基于化学结构进行查询。
- 查询结构绘制: 用户通过
JSME(一个用JavaScript编写的免费分子编辑器) 在网页界面上绘制查询分子结构。 - 指纹计算:
- 数据库中的所有
FoldamerDB条目都预先计算了FP2 指纹(一种化学指纹) 并存储在数据库中。 - 对于用户绘制的查询结构,其
FP2 指纹会在运行时 (on the fly) 计算。 Open Babel Package(版本2.4.1,一个用于化学数据互操作的工具) 用于执行化学指纹的计算。
- 数据库中的所有
- 相似性评估: 查询分子与数据库条目之间的相似性通过
Tanimoto 系数(Tanimoto coefficient) 来衡量。- Tanimoto 系数公式:
Tanimoto 系数(J(A, B)) 的计算方法是查询分子指纹集 () 和命中分子指纹集 () 的交集大小除以它们的并集大小。 - 符号解释:
- : 查询分子的
指纹特征集。 - : 数据库中命中分子的
指纹特征集。 - : 集合 和 的交集的大小,表示两个分子共有的
指纹特征数量。 - : 集合 和 的并集的大小,表示两个分子所有
指纹特征的总数量。 J(A, B):Tanimoto 系数,其值在0到1之间。1表示两个分子完全相似,0表示完全不相似。
- : 查询分子的
- Tanimoto 系数公式:
5. 实验设置
本节将根据论文内容,详细阐述 FoldamerDB 的数据库内容及其用户界面的设计。
5.1. 数据库内容
FoldamerDB 提供了关于 折叠聚合物 的全面信息,旨在满足研究人员在结构、活性和性质方面的需求。
-
数据规模: 包含超过1319种肽折叠聚合物条目,这些数据来源于大约160篇已发表的研究文章。
-
核心信息类别:
- 结构信息: 包括2D化学结构图和交互式3D模型。
- 分子性质: 例如分子量 (molecular weight)、分子式 (molecular formula)、LogP (脂水分配系数)、氢键供体/受体数量 (number of H-bond donors/acceptors)、可旋转键数量 (rotatable bonds) 和极性表面积 (polar surface area, PSA) 等计算属性。
- 化合物标识符: 如 SMILES、InchiKey、内部 ID (FoldDB ID)、Reaxys ID、NCBI 登记号 (accession number) 等。
- 实验结构数据: 提供结构测定方法(如 NMR 或 X 射线晶体学)、NMR 溶剂、CCDC (剑桥晶体数据中心) 编号和 PDB (蛋白质数据库) ID。此外,还提供了指向
CSD和PDB的外部链接,以获取更详细的结构信息。 - 生物活性: 报告了
折叠聚合物的应用 (application) 和具体的生物活性 (biological activity) 信息。 - 文献信息: 包含来源文献的引用信息,如文章标题、作者、期刊和发表年份。
-
结构示意图: 下图(原文 Figure 3)展示了
FoldamerDB数据库的结构和功能,包括化学结构示意图、搜索界面和信息表格等内容。
该图像是图表,展示了FoldamerDB数据库的结构和功能,包括化学结构示意图、搜索界面和信息表格等内容。该数据库提供了1319种折叠聚合物的详细信息和生物活性数据,可供科学研究使用。
5.2. 用户界面布局
FoldamerDB 的用户界面设计旨在直观、用户友好,并提供多种导航数据库的方式。它具有响应式设计,兼容不同屏幕尺寸的设备。
- 导航选项: 提供浏览所有
折叠聚合物、文章、结构和生物活性的选项。 - 查询界面: 提供了丰富的查询接口,支持多种搜索方式:
- 简单搜索 (Simple Search): 允许用户使用各种字段进行搜索,例如内部 ID (FoldDB ID)、Reaxys ID、应用、文章标题、作者姓名和期刊。
- 复杂搜索 (Complex Search): 提供更高级的组合查询功能。
- 子结构搜索 (Substructure Search): 允许用户绘制查询分子结构,并在数据库中搜索具有该子结构的条目(如
Figure 3E所示)。
- 主要页面描述:
- Home (主页): 主着陆页,提供简要介绍和数据库统计信息。
- Search (搜索): 包含简单、复杂和子结构搜索的全面选项(如
Figure 3E所示)。 - Browse Foldamers (浏览折叠聚合物): 包含一个交互式表格,跨越多个子页面显示
FoldamerDB中的所有折叠聚合物。还提供了按骨架类型和出版年份筛选表格的选项(如Figure 3B所示)。点击 FoldDB ID 可进入单一折叠聚合物详情页面。 - Single foldamer view (单一折叠聚合物视图): 显示
折叠聚合物的2D和交互式3D模型,以及所有相关信息。页面数据分为七个类别:- Identification (标识信息): 化学名称、序列、SMILES、InchiKey、分子量、分子式、来源。
- External IDs (外部 ID): Reaxys 物质索引、NCBI 登记号。
- Structural data (结构数据): 结构测定方法、CSD 或 PDB 链接。
- Other information (其他信息): 应用、
折叠聚合物类型等。 - Calculated properties (计算属性): LogP、氢键供体/受体数量、可旋转键、极性表面积 (PSA)。
- Biological activity (生物活性): 列出生物活性,并提供查看同一参考文献中其他
折叠聚合物活性的选项。 - Citations (引用信息): 相关文献信息(如
Figure 3F所示)。
- Browse article (浏览文章): 列出
FoldamerDB中包含数据的文章,提供全文链接选项。表格显示文章标题、作者姓名、期刊、年份以及每篇文章中包含的折叠聚合物数量(如Figure 3C所示)。 - Browse structure (浏览结构): 列出所有通过 X 射线晶体学方法进行结构解析的
折叠聚合物。仅包含在 PDB 或 CSD 中有晶体结构的条目。 - Browse activity (浏览活性): 可在此页面找到
折叠聚合物报告的生物活性(如Figure 3D所示)。 - Glossary (术语表): 包含常见非天然氨基酸和
折叠聚合物构成单元的结构和化学名称。 - Feedback (反馈): 提供反馈和报告错误的详细信息。用户贡献新数据的模板也在此处提供,提交的数据将由
FoldamerDB团队审核后上传。
6. 实验结果与分析
本节主要分析了 FoldamerDB 中 折叠聚合物 的类型分布以及其搜索功能的示例。
6.1. 数据库内容分析
FoldamerDB 收录了多种类型的肽骨架 折叠聚合物,其分布情况对于理解该领域的研究热点和多样性至关重要。
- 骨架类型及其分布:
-
下图(原文 Figure 1)展示了
FoldamerDB中不同类型的肽骨架 (A) 及其分布饼图 (B)。
该图像是图表,展示了FoldamerDB中不同类型的肽骨架(A部分)和这些肽骨架的分布饼图(B部分)。A部分列出了α肽、β肽、γ肽、肽链及Aib酸的化学结构,B部分则显示各类型肽的数量分布,包括α/β肽、β肽和Aib骨架等。 -
α/β-肽(α/β-peptides): 这是最常见的折叠聚合物类型,有383个条目。 -
β-肽(β-peptides): 紧随其后,包含312个条目。这些β-氨基酸(β-amino acids) 可能是β²-型或β³-型(取决于侧链在骨架上的位置),也可能是环状β-肽(cyclic β-peptides)。 -
Aib 折叠聚合物(Aib foldamers):Aib(α-氨基异丁酸) 是一种非蛋白原性 (non-proteogenic)α-氨基酸。包含Aib残基的折叠聚合物被单独归类,共有181个条目。 -
α-氨基酸(α-amino acids)折叠聚合物: 包含156个条目。 -
肽类(Peptoids): 特殊的肽模拟化合物,其侧链连接在骨架的 原子上,而不是 或 碳原子上。共有78个条目。 -
其他小类别:
γ-肽(γ-peptide):31个条目。α/γ-肽(α/γ-peptide):20个条目。β/γ-肽(β/γ-peptide):22个条目。α/β/γ-肽(α/β/γ-peptide):23个条目。其他:113个条目。α/ε 杂合肽(α/ε hybrid peptide):仅有2个条目。
-
- 子类型分配: 在可能的情况下,每个
折叠聚合物条目还会根据其构成单元的特定化学结构,按照报告研究文章中的描述分配一个子类型。 - 重要性: 这种分类和分布分析揭示了
α/β-肽和β-肽在折叠聚合物研究中的主导地位,以及Aib和肽类作为重要非天然构建块的贡献。
6.2. 搜索示例
FoldamerDB 提供了多种搜索选项,以满足用户的不同查询需求。
-
自由文本搜索 (Free text search):
- 允许用户在数据库的多个字段(如序列、化学名称、分子式、应用、溶剂、类型和 PDB ID)上执行基于关键词的搜索。
- 支持使用特殊字符构建逻辑搜索查询:
+用于 AND 逻辑,-用于 NOT 逻辑,无运算符表示 OR 逻辑。 - 示例1: 搜索词
'Peptoids'将返回79个肽类类型的折叠聚合物。 - 示例2: 如果想从搜索结果中排除某些
肽类,查询可以修改为'Peptoid-antimicrobial-antibacterial'。这将返回一个更窄的集合,即排除被标记为抗菌和抗细菌的肽类,结果为32个折叠聚合物。 - 更多信息可访问
http://foldamerdb.ttk.hu/help.php#foldamer_search。
-
子结构搜索 (Substructure search):
-
允许用户绘制查询结构,并在
FoldamerDB中执行子结构搜索。 -
查询输入: 用户可以使用
JSME在线编辑器绘制查询分子,也可以粘贴分子的SMILES格式。 -
搜索过程: 绘制或粘贴
SMILES后,点击'Search Molecule'按钮执行搜索。 -
结果显示: 搜索结果将显示与查询结构匹配的
折叠聚合物列表,其中包含FoldDB ID和Tanimoto 系数(Tanimoto distance)。 -
相似性度量:
Tanimoto 系数在0到1之间,值越接近1表示相似度越高,值越接近0表示相似度越低。 -
下图(原文 Figure 4)展示了
子结构搜索的界面和输出示例。左侧是查询分子绘制界面,右侧是搜索结果表格,其中包含Tanimoto 系数。
该图像是一个界面展示,左侧为分子结构绘制工具,右侧展示与所绘分子匹配的折叠肽的信息,包括其FoldDB ID和相似度。用户可以通过该工具搜索不同的肽。 -
更多信息可访问
http://foldamerdb.ttk.hu/help.php#Sub-structure_Search。
-
7. 总结与思考
7.1. 结论总结
FoldamerDB 的推出成功地填补了 折叠聚合物 领域长期以来的空白,成为首个免费且公开可用的肽折叠聚合物网络资源。该数据库通过从已发表文章中人工策划和全面标注数据,为用户提供了关于 折叠聚合物 的序列、结构、生物活性和分子性质的详细信息。目前,FoldamerDB 包含1319个 折叠聚合物 条目,其中166个具有实验确定的晶体结构,1018个报告了生物活性。其用户友好的界面和强大的搜索功能(包括 子结构搜索)极大地便利了研究人员对 折叠聚合物 信息的获取和利用。FoldamerDB 有望成为连接化学家和生物学家的重要桥梁,并为 折叠聚合物 的理性设计以及结合机器学习技术的新型项目提供基础工具。
7.2. 局限性与未来工作
- 当前范围限制:
FoldamerDB的当前版本主要侧重于肽折叠聚合物,特别是占最大比例的β-肽和混合α/β-肽。这意味着其他类型的折叠聚合物(如非肽基折叠聚合物)的数据覆盖范围有限。 - 未来扩展方向:
- 数据库计划未来扩展,以纳入更具异质性的
折叠聚合物类型,例如芳香族寡酰胺(aromatic oligoamides)。 - 为实现这一目标并保持数据库的及时更新,作者鼓励科学界积极向
FoldamerDB项目贡献新数据,以增加条目数量。用户可以通过反馈页面或直接联系FoldamerDB团队来提交数据。
- 数据库计划未来扩展,以纳入更具异质性的
7.3. 个人启发与批判
-
个人启发:
- 填补空白的重要性:
FoldamerDB的创建凸显了在特定、新兴研究领域建立专业数据库的重要性。通用数据库(如PubChem)虽然庞大,但往往难以提供领域特定的深度信息和定制化搜索功能。 - 人工策划的价值: 尽管自动化数据提取技术不断发展,但对于复杂的结构化学和生物活性数据,
人工策划仍然是确保数据高质量、准确性和一致性的关键。这对于后续的计算建模和机器学习任务至关重要。 - 用户友好的设计: 数据库不仅要有丰富的数据,更要有易于使用的界面。
FoldamerDB对简洁、响应式和多功能搜索界面的强调,是任何成功科学资源都应具备的特点。 - 促进交叉学科研究:
折叠聚合物领域本身就是化学与生物学交叉的典范。一个能够同时满足两类科学家需求的数据库,能够有效促进学科间的交流与合作。
- 填补空白的重要性:
-
批判:
- 可持续性挑战:
人工策划的高质量数据收集是劳动密集型工作。长期维护、更新和扩展FoldamerDB将面临资金和人力资源的挑战。虽然鼓励社区贡献,但如何有效地管理和验证这些贡献以保持数据质量是一个复杂问题。 - 数据标准化深度: 虽然进行了分类,但对于生物活性数据的详细标准化(例如,统一活性单位、测定方法),论文描述不够深入。生物活性数据的异质性往往是机器学习应用的一大障碍。
- 预测功能集成: 论文提到数据库可以作为机器学习的基础工具,但目前
FoldamerDB似乎只提供数据检索和可视化,没有集成任何预测模型或分析工具。未来可以考虑增加一些基本的折叠聚合物性质预测功能(如稳定性、生物活性预测)。 - 三维结构数据的丰富度: 尽管链接到
CSD和PDB,但仅有166个条目具有实验晶体结构。对于一个强调折叠行为的数据库,高质量的实验三维结构数据仍然是相对稀缺的,这可能限制了某些基于结构的研究。
- 可持续性挑战:
相似论文推荐
基于向量语义检索推荐的相关论文。