计算机辅助筛选核酸适配体技术

所属分类：电子论文阅读次时间：2021-08-12 10:30

本文摘要：摘要:计算机信息技术已经渗透到我们生活的方方面面，不仅可以辅助药物的筛选，也能够模拟药物的作用。目前已有研究使用计算机辅助技术筛选适配体，对筛选效率的提升和筛选高亲和力的适配体有着重要的指导作用。文中将主要对计算机通过序列评估、结构分析、分

高端学术服务项目

　　摘要:计算机信息技术已经渗透到我们生活的方方面面，不仅可以辅助药物的筛选，也能够模拟药物的作用。目前已有研究使用计算机辅助技术筛选适配体，对筛选效率的提升和筛选高亲和力的适配体有着重要的指导作用。文中将主要对计算机通过序列评估、结构分析、分子对接3个方面辅助适配体筛选的方法进行综述。

　　关键词:适配体，指数富集的配体系统进化技术，计算机辅助筛选，序列评估，结构分析，分子对接

计算机辅助教学

　　核酸适配体是指一种能够与特定目标物发生高亲和力和特异性结合的寡核苷酸片段，通过配体指数富集的配体系统进化技术(Exponentially enrichedligandsystemevolution，SELEX)从随机文库中筛选获得的功能性核苷酸，大小一般约为6–40bp，具有一些特殊的二级结构，如发夹、茎环、假结、G-四联体等，能让适配体可以形成多种三级结构，使其能够与靶物质结合。

　　1990年Tuerk等[1]就首次通过SELEX从65536个序列的预测池中筛选出了两个不同的序列，它们可以与T4DNA聚合酶相互作用。经过数十年的改进，SELEX技术已经成为一种重要的研究方法和工具，其基本原理是体外化学合成一个单链寡核苷酸库，包括大量随机单链DNA或RNA(1016–1018个单链)，用它与靶物质(包括金属离子、小分子、大分子、细胞、组织以及混合靶标等)混合，同时洗脱混合液中未与靶物质结合的核酸，保留与靶物质结合的核酸分子，随后分离与靶物质结合的核酸分子，再以此为模板进行PCR扩增，进行下一轮筛选。

　　通过重复筛选，一些与靶物质不结合的、亲和力不理想的适配体就会被洗脱，而具有高亲和力的适配体就能从1016到1018的随机文库中分离出来，且理论上该序列的纯度随着SELEX的不断筛选将会越来越高，最后库中序列大部分都是高亲和力序列[2]。这些高亲和力序列的结合具有高特异性，且可选的靶分子广泛，已经在基础研究、临床诊断和治疗中显示出了广阔的应用前景。核酸适配体还有着相对简单的化学结构，使其易于体外合成和修饰[3]，允许在寡核苷酸上的特定位置插入电化学或荧光报告分子以及表面结合剂。

　　在适配体和靶物质结合过程中，核酸适配体的构象变化可以用来产生分析信号。许多以适配体为基础的生物传感器已经成功用于测量蛋白质的细胞分泌，但实际筛选过程却不易得到高亲和力的序列。在众多候选的序列中挑选出潜在的高亲和力序列，成为了许多适配体研究者的一大困扰。目前通过X光晶体衍射[4]以及核磁共振[5]，科学家们已经分析了较多适配体的空间结构，并成功解析了许多适配体与靶分子间的作用机制，这些来之不易的研究成果为后续各种生物信息学工具奠定了基础。

　　与此同时，随着计算机和信息技术高速发展，已有许多计算机辅助天然药物筛选的例子，同时也有越来越多的研究者发现通过计算机辅助能提升适配体筛选的效率和提高得到高亲和力序列的概率，该技术可能对适配体未来的发展产生巨大的影响。本文将着重对计算机辅助适配体筛选相关方法以及它们的主要应用和相关结果进行分析，同时对它们的优缺点进行比较，并对近年来该领域的一些创新应用进行综述。

　　1SELEX技术目前存在的缺陷和发展

　　1.1SELEX技术目前存在的缺陷

　　1.1.1需要极大的初始文库容量核酸适配体筛选初始文库的随机序列一般有30–60个碱基。因此理论上初始文库容量为 1018–1036，但因目前核酸合成的最大库容量只能达到1016，实际与理论库容量相比相差很大[6]。

　　1.1.2筛选流程较为繁琐整个筛选流程耗时长、精力投入大，且无法确定具体筛选的次数，一般需要十几轮筛选才能够筛选出亲和力较好的序列，武汉大学基础医学院的章晓联团队总共进行了17轮筛选，才得到了鸟分枝杆菌的适配体[7]。

　　1.1.3难以筛选出亲和力较高的序列正如Kanagawa所指出的，核酸适配体结构越复杂，其与靶标结合的亲和力越高，但由于PCR具有偏好性等原因[8]，导致一些富含GC碱基的序列更容易被扩增，使原本丰度不够大的文库结构变得更加单一，导致某些高亲和力的序列在库中的含量越来越低，造成筛选次数增加，亲和力反而下降的现象。

　　1.1.4后期处理工作十分复杂且易错过高亲和力序列在测序、分析、筛选出合适的序列后，还需要再将其合成进行重复验证。如果要鉴定更多序列，不仅成本高，还需要投入大量时间。所以考虑到成本问题，大多数情况下还只能合成极少量的序列，因此很容易错过真正有亲和力的序列。

　　1.2SELEX技术的发展

　　针对以上几个问题，2004年Mendonsa等提出了毛细管电泳SELEX这项技术，因其无需固定相和洗脱的缘故，大大减少了筛选的次数[9]。

　　随后也诞生了无需对靶物质进行详尽分析并且能够发现更多潜在靶点的细胞SELEX技术;还有无需Sanger测序分析，能在所有筛选轮中对库进行排序的高通量SELEX(Highthroughputsystematicevolutionofligandsbyexponentialenrichment，HT-SELEX)[10]。HT-SELEX不仅减少了筛选次数，有效地降低了PCR偏好性带来的误差，还能完全自动化操作，提高了筛选效率，甚至有望取代常规的SELEX。该技术如此快速的发展，离不开计算机的辅助：通过强大的生物信息学工具，对大量数据进行全面的分析，并对结合能力以及结构进行预测，再量化丰度，模拟适配体与靶物质的相互作用，进一步综合分析得到的适配体，尽可能地保留有价值的序列。

　　2计算机辅助筛选适配体的方法与工具

　　目前越来越多的生物信息学工具开始在生物学研究上崭露头角，它们推动了核酸适配体的研究，使得研究者们能够在进行生物活性筛选之前，利用计算机对所需的环境进行模拟，得到靶分子和配体在该环境下最有可能的结构，再利用分子对接软件模拟目标靶点与候选分子之间的相互作用，计算其结合能并评估结合程度，以此来筛选出高亲和力的适配体。且经过不断的研究和改良，已经可以通过设计算法程序对HT-SELEX产生的大量序列进行打分，评价其富集的程度以及结合的潜力，再折叠出其中的高分序列最有可能形成的二级结构，利用多种软件预测该高分序列的三级结构，用于之后的对接验证。下面将主要介绍如何通过计算机评估序列、分析适配体结构和分子对接的方法辅助适配体的筛选。

　　2.1通过评估序列辅助筛选

　　核酸适配体能够识别特异的靶物质，很大程度上是因为其独特的三维结构。序列本身的碱基排列顺序就能够对后续的三级结构的折叠产生巨大影响，可能仅仅几个碱基的不同适配体三级结构就会有很大的差异，导致亲和力会有很大的不同。高亲和力适配体的碱基排序必然具有一定的特殊性。为了更好地了解某些特殊结构与序列的关系，科学家们也开始把核酸适配体相关的常见模体(例如G-四联体[11]、发夹、茎环)收录进数据库中，方便后续利用计算机分析这些特异的结构与序列之间存在的规律。

　　例如，2000年KensakuSakamoto团队[12]开发了针对发夹的算法，随后Gorodkin设计了能够分析RNA序列中的茎环结构的Stem-LoopAlignSearcH[13]。此后，由于发现四联体在重要的生理过程中不可或缺并且在作为治疗靶标的应用也有着非常重要的作用，使得它受到了广泛的关注。为了进一步研究四联体的序列的特点，Kikin等[14]在2006年用PHP编写了基于Web的程序QGRSMapper(http://bioinformatics.ramapo.edu/QGRS/)，该web可用于预测核苷酸序列中形成四联体的富含鸟嘌呤的序列。

　　后来也有不少团队利用QGRSMapper来研究具有四联体结构的核酸适配体。例如，为了获得血管内皮生长因子的高亲和力适配体，KazunoriIkebukuro[15]团队利用QGRSMapper分析了它们筛选出适配体Vap7中可能存在的四联体结构，并利用圆二色谱法验证了该序列中稳定的四联体结构，最后通过优化四联体的结构成功得到了亲和力更高的适配体。Zheng等[16]也通过QGRSMapper分析了石房蛤毒素的适配体，发现该适配体也存在稳定的四联体结构，筛选出了四联体结构最为稳定的适配体，之后通过保留四联体相关的序列，截短多余的序列，成功得到了STX的高亲和力适配体。

　　它们虽然较好地分析出了序列中某种特殊模体的稳定性和可能性，能够在序列数量不多的情况下筛选出分数最高即最能够稳定形成上述特定结构的序列，但是它们只能针对一种特定的特殊模体进行分析，不能够分析序列中存在多种特殊模体的可能性。这就需要我们对适配体与靶物质的作用模体有一定的了解，才能够保证高效无误地筛选出具有亲和力的适配体。且这类早期的算法只能输入较少的序列，因此很难应用到大量数据的处理上。所以，为了能够分析类似于HT-SELEX产生的大量且无序的数据，就需要设计新的算法对这些序列进行多次的聚类和分类[17]。

　　3计算机在适配体上的创新应用

　　随着计算机在适配体上的应用逐步推广，以及计算机科学技术的飞速发展，人工智能逐步兴起，目前已有研究者将机器学习应用到了SELEX上。在2020年新冠病毒爆发的这段时间里，厦门大学杨朝勇教授为了从大量序列数据中得到高性能的刺突蛋白适配体。设计开发了一款新的序列多维分析算法SMART-Aptamer，通过无监督机器学习过程，来识别适配体家族并跟踪适配体家族大小的动态变化。

　　以SARS-CoV-2的刺突蛋白作为研究对象，为了筛选出能够具有中和作用的S蛋白适配体，在原本的正筛选和反筛选的基础上，额外的考虑了与ACE2的竞争作用，更重要的是在该过程中使用了SMART-Aptamer，该算法考虑到了ACE2竞争压力，成功地利用了可变选择压力研究了其进化谱系。最后成功得到了高亲和力的适配体CoV2-RBD-1和CoV2-RBD-4[41]。

　　该类适配体为SARS-CoV-2的诊断和治疗提供新的思路，同时也为深入研究冠状病毒感染的机制提供了新的工具。计算机不仅能够应用到SELEX的流程中，还能够应用在初始文库的设计上。由于初始文库是核酸适配体筛选的源头，作为SELEX中最重要的一环，如果设计不合理，必然会影响到筛选的结果[42]。因此越来越多的研究者开始重视初始文库的设计，开始利用计算机设计初始文库。

　　例如，在已知某二级结构与适配体的亲和力密切相关时，就可在核酸适配体数据库中[43]挑选目前已知的核酸适配体，再利用二级结构的预测软件诸如Mfold等[44]对挑选出的序列进行预测，由此从庞大的数据库中筛选出具有该特殊结构的适配体，构建出一个新的初始文库，不仅定向增加了含有该结构的适配体，还可保留天然适配体中的高级结构。Luo等[45]利用相同的思路，对随机文库中的结节进行统计，并对非引物部分进行随机突变来增加文库丰富程度，最后获得的RFPoolA文库，经过验证，相较于普通的随机文库，其高级结节的结构含量有明显增加。

　　2016年，Xu等[46]对已有的前列腺特异性膜抗原适配体进行二级结构的预测，再通过分子对接软件综合比较确定了其作用的关键结构，然后在此结构的基础上，对已有的核酸适配体进行单点突变、截断以及插入，通过该方法得到了一个新的文库，最后利用三维结构预测软件Vfold3D[47]进行结构预测。通过分子对接进行亲和力的验证，最终成功获得了亲和力更高且较短序列的适配体。由此表明，分子模拟技术应用于初始文库的设计，确实对于提高适配体亲和力以及筛选效率有明显的效果和应用潜力。

　　计算机论文范例：高职院校计算机专业学生创新创业教育模式探索

　　4总结与展望

　　有着巨大潜力的计算机技术为适配体的研究带来了福音，不同种类的分析软件和分子模拟软件给研究人员提供了十分有价值的信息，解决了部分SELEX技术的问题。例如，通过计算机设计文库，在SELEX开始之前就有目的地富集所需的特殊结构的序列，从根本上提高SELEX技术的效率，也在一定程度上解决了SELEX筛选出的核酸适配体结构简单不具有高级结构的问题。

　　利用打分软件有预见性地对次级文库中序列进行评估，可以先筛选出一些具有高级结构和稳定结构的核酸适配体;再使用适配体结构预测软件，对那些难以得到结构的适配体进行模拟，也一定程度上减轻了研究适配体结构的困难;最后可以在分子模拟平台上进行对接验证，由此在进行大量亲和力实验前，便可有方向性地得到一些“高亲和力序列”，一定程度上降低了实验室只合成低亲和力的序列用于验证最后导致筛选失败的可能，也大大减少了SELEX筛选的轮数，提升了筛选的效率。

　　REFERENCES

　　[1]TuerkC,GoldL.Systematicevolutionofligandsbyexponentialenrichment:RNAligandstobacteriophageT4DNApolymerase.Science,1990,249(4968):505-510.

　　[2]DjordjevicM.SELEXexperiments:newprospects,applicationsanddataanalysisininferringregulatorypathways.BiomolEng,2007,24(2):179-189.

　　[3]周成林,许化溪.SELEX技术及Aptamer在小分子中的应用进展.中国国境卫生检疫杂志,2011,34(4):276-279,288.ZhouCL,XuHX.TheapplicationdevelopmentofSELEXandAptamerinmicromolecules.ChinJFrontHealQuar,2011,34(4):276-279,288(inChinese).

　　[4]RuigrokVJ,LevissonM,HekelaarJ,etal.Characterizationofaptamer-proteincomplexesbyX-raycrystallographyandalternativeapproaches.IntJMolSci,2012,13(8):10537-10552.

　　作者：邓博文，高思懿，肖博懿，吴雨龙，孙豪，王梁华，孙铭娟