「科研速递」超级增强子数据库SEA 4.0重磅升级:跨物种解码基因调控“指挥中心”

发布时间:2026/3/13 13:38:57      阅读次数:40

 在基因调控的复杂世界里,超级增强子(Super-Enhancer,SE)犹如细胞命运的“总指挥中心”——这些具有超强转录激活能力的调控元件,决定着细胞身份的确立与疾病的发生发展.然而,如何系统性地识别和注释不同物种 不同细胞类型中的SE,一直是困扰科学界的重大挑战.

2025年10月31日,哈尔滨工业大学顾悦/张岩团队在《Nucleic Acids Research》期刊发布了SEA 4.0版本(Super-Enhancer Archive Version 4.0),对这一全球知名的超级增强子数据库进行了重大升级.新版本覆盖14个物种 超54万种细胞类型 近50万个超级增强子,并新增多项创新功能,为解码SE在发育和疾病中的机制作用提供了不可或缺的资源.

跨物种多组学:构建标准化SE识别体系

SEA 4.0的核心突破在于建立了一套标准化 可重复的SE识别与注释流程.传统的SE识别严重依赖H3K27ac等活性标记,而新版本创新性地引入了H3K4me1作为核心识别标志.

H3K4me1被称为“预启动”或“预备”增强子的标志,能够有效识别那些尚未完全激活但具有调控潜能的区域.研究显示,整合H3K4me1可将SE的预测准确性提升27.3%.这一改进使得SEA 4.0不仅能捕获正在发挥作用的SE,还能发现那些“蓄势待发”的潜在调控元件.

在数据处理层面,团队整合了ENCODE GEO等公共数据库截至2024年12月的海量数据,采用Bowtie2进行序列比对,MACS2进行峰检测,并运用ROSE算法将相距12.5 kb以内的相邻增强子“缝合”成潜在的SE.为确保结果可靠性,流程严格排除了转录起始位点±2.5 kb范围内的区域,并过滤掉长度小于1 kb的候选SE.这一优化有效消除了89%的非功能性染色质环干扰,将假阳性识别率较SEA 3.0降低了41%.

SE活性元素评分:量化调控强度的“精密仪器”

如何精确衡量一个SE的调控强度?SEA 4.0创新性地提出了“SE活性元素”(Active Element)概念及其量化评分算法.

一个SE活性元素被定义为一个包含组成型增强子 染色质可及性区域和转录因子结合位点的完整功能基因组单元.其最终得分并非单一信号的简单叠加,而是三个核心基因组特征的加权整合:

组成型增强子信号:计算每个增强子区域的标准化峰值信号,并按其在SE长度中的占比进行加权.这反映了增强子本身的活性强度.

染色质可及性信号:整合来自23个人体组织的56个ATAC-seq数据集,同样按可及性区域的有效长度进行加权.这代表了染色质开放程度,即转录机器“可触及”的难易度.

转录因子结合富集:汇总SE区域内所有转录因子结合位点的富集分数,乘以位点数量,并进行长度归一化.这衡量了调控蛋白的招募能力.

这一评分体系的建立,使得研究人员能够对不同SE的调控强度进行量化比较,为后续功能研究提供了重要参考依据.

Shannon熵优化:精准定位细胞身份“开关”

超级增强子的核心特性之一是其高度的细胞类型特异性——正是这种特异性,决定了它能够充当细胞身份的“分子开关”.SEA 4.0在v3.0基础上,优化了基于Shannon熵的算法来量化这种特异性.

其原理简洁而深刻:一个在多种细胞中均活跃的“通用型”SE,其活性分布均匀,熵值较高;而一个仅在特定细胞中活跃的“特异性”SE,其活性高度集中,熵值接近于0.

SEA 4.0的关键改进在于引入了归一化程序,以消除SE长度巨大差异带来的偏差.算法首先计算每个基因组区域的归一化信号(组蛋白修饰峰值信号按其有效长度比例加权之和),再基于此归一化值计算跨细胞系的Shannon熵.这一优化使得细胞类型特异性SE的识别更加精准,为研究细胞命运决定机制提供了有力工具.

四 动态分析工具:从静态数据到功能探索

SEA 4.0超越了传统数据库的静态定位,新增两大动态分析工具,让用户能够从“查询数据”进阶到“探索功能”.

交互式调控网络:用户输入一个基因 转录因子或SE的标识符,工具即可在人类或小鼠中构建一阶邻居交互网络.该网络以图形化方式动态展示查询实体与相关联的增强子 SE和转录因子之间的连接.点击网络中任一节点,可实时展开其直接互作对象,支持用户深入探索调控子网络.所有数据均可导出,便于后续分析.

这一功能将孤立的调控元件置于整体的调控网络中,帮助研究人员理解SE如何与其他元件协同作用,共同维系调控系统的稳定与灵活.

肿瘤特异性SE检测器:这一工具专为癌症研究设计,整合了来自12种癌症类型及其正常对照的单细胞RNA测序数据,涵盖超40万个单细胞.利用Seurat和Harmony进行细胞聚类与批次效应校正,通过SingleR进行细胞类型注释,最终通过比对细胞类型特异性标记基因与已知SE相关基因集,来锁定肿瘤内特定细胞亚群特有的SE.

例如,研究人员可以识别出仅在癌细胞中活跃 而在正常细胞中沉默的SE,这些SE可能正是驱动癌变的关键调控中枢.所有结果均可通过t-SNE/UMAP图和小提琴图进行直观展示.

多功能注释模块:从CRISPR靶点到三维基因组

SEA Browser支持多轨道基因组数据叠加浏览,为用户提供全方位的注释信息:

表观修饰层面DNA甲基化 组蛋白修饰 染色质可及性等数据一应俱全,帮助理解SE的表观调控状态.

三维基因组层面:整合Hi-C数据,展示SE与目标基因之间的空间互作关系,揭示远距离调控的物理基础.

功能应用层面:提供SpCas9靶点信息,为CRISPR基因编辑实验设计提供参考;支持GO/KEGG富集分析,揭示SE相关基因的功能倾向;可进行转录因子结合富集分析,识别潜在的主调控因子;内置特异性评分计算,快速筛选细胞类型特异的SE.

 


扫一扫,加微信客服

销售电话:

152 6033 5612