南京农业大学:着力打造生物信息学计算与云服务共享平台

  南京农业大学是一所以农业和生命科学为优势和特色、国家211工程重点建设和985优势学科创新平台的研究型高校,以建设“世界一流农业大学”为奋斗目标。学校现建有作物基因组高性能计算、昆虫基因组高性能计算、农业统计学高性能计算和蔬菜基因组高性能计算等近十套生物信息相关计算平台,为了积极推进生物信息学发展和相关学科整合、创新,2011年经学校学科发展领导小组会议研究决定,利用学校新数据中心规划与建设的时机,规划“南京农业大学生物信息学高性能计算与服务共享平台”。将新理科南楼规划为网络信息基础服务中心、全校数据中心、全校信息服务托管中心、生物信息学高性能计算与云服务中心和相关的生物信息学研究中心等。

  围绕新理科楼数据中心的建设,立足“高性能、高水平、能共享”的思路,在逐步整合校内多个生物信息研究实验室相关机构、集中硬件和软件资源的基础上,依据统一的标准和技术架构,最终规划建设一个高性能、高安全、高可靠和能扩展、能共享的生物信息高性能计算与数据云服务平台,为全校的生命科学研究提供计算资源、数据资源和分析资源,促进相关学科融合、交叉和协同。依据相关标准,积极融入和参与地区、行业的资源共享合作平台,为地区、行业生物信息学高性能计算与数据共享、合作发挥作用。通过整合大平台的建设,一方面,可以有效地整合原有分散的生物信息学计算相关的各种硬件资源和软件管理系统,实现各种资源的统一调配和集中管理,提高计算与存储性能;另一方面,可以集中分散的经费,在统一规划与技术架构下,按“滚雪球”方式不断做大做强共享平台,满足学科发展对计算、存储资源不断增长的需求,实现更大范围资源共享,提高资金建设效益。

  立足大平台 超前规划

  做好数据中心整体规划

  为了便于生物信息学研究和学科交叉对信息基础条件的利用,学校将理科南楼底层规划为新数据中心和网络信息服务设施,2层规划为学校生物信息学研究中心、3层以上为农业部重点实验室和国家大豆改良中心等相关研究机构。新数据中心规划总面积约1000平方米,主要规划为:网络核心设施区、生物信息计算与云服务区(含生物信息服务区、计算资源整合区)、公共信息服务区、托管设备服务区等主要分区,生物信息计算与云服务区将直接对接2层的生物信息学研究中心,服务于全校相关学科与人才培养。生物信息计算与云服务区分别由2组16个标准机柜构成,其中第一个16个机柜用于整合原有各单位分散建设的生物信息学计算小平台,另一16个机柜将采用统一技术架构,规划新建可动态拓展、高性能、安全可靠、便于共享的生物信息学高性能计算与海量存储服务平台。新数据中心规划分区如图1所示。

南京农业大学:着力打造生物信息学计算与云服务共享平台

  新数据中心设计主要采用节能环保、注重效率、分区管理、高性能和可扩展的设计理念。数据中心的基础工程已于2011年5月完成交付,智能化装修工程也于2012年初完工。核心交换机采用先进的CSCIONEXUS 7010高性能万兆交换设备,并采用大对数光纤与原图书馆楼数据中心高速互联互通,实现2个数据中心关键应用与数据的“异楼互备”,确保校园信息化关键应用系统与数据内容的安全。

  为分步发展创造良好条件

  在总体规划后,根据不同区域特点,超前高标准设计和建设电力、制冷、网络等系统,筑牢新数据中心基础条件,确保新数据中心不同区域都能满足学校信息化、生物信息学计算与存储的5-10年分步建设与发展的需要。

  在制冷系统上,新数据中心全部采用冷池机柜、地下冷池送风、机柜后部回风的节能设计架构,避免了机房中冷热空气相互混合,提高了设备冷风利用率,大大提高了制冷效率、减少了能源浪费,机柜设备密度也得到了进一步增加,冷池设计也大大提高了送风与回风间的温差,促使机房PUE能降低1.8之内。另外,所有空调系统均采用“一主一备”双机设计,满足了信息设备运行中的制冷系统“零宕机”要求;同时,根据机柜用途,将发热较大的用于高性能计算的机柜组布局于空调送风距离最近位置,确保计算区的制冷效果。冷池节能示意如图2所示。

南京农业大学:着力打造生物信息学计算与云服务共享平台

  在强弱电系统上,首先,新数据中心市电设计为来源于不同市政变电站的真正双供电模式,降低单一市政变电站停电给数据中心设备运行带来的风险。其次,根据不同区域设备特点与电力需求设计相应的PDU供电系统,以尽量满足不同机柜设备供电的需求,如:普通机柜按照4kVA双电路PDU设计,而生物信息学计算与服务区则分别按照8kVA双UPS供电、8kVA双市电供电PDU设计,以确保生物信息学高密度运算与高密度数据存储的供电需要。最后,在弱电设计与建设方面,也充分考虑不同区域设备和未来发展的需要,普通机柜至少设计1组16口RJ45、1组8口光纤配线架,生物信息学计算与云服务区,则弱电系统增加1倍设计。

  加强统筹管理 确保实效

  全面整合先行先试

  基于虚拟化的云计算数据中心能够充分提高设备利用率,降低投资和管理成本,降低能耗,并有助于提高业务的可靠性和保证数据的安全性。由于基于虚拟化的云计算中心简化了设备的配置管理,使得系统部署更加快捷方便,管理人员可以迅速地为一些应用搭建各种服务平台,并可以实时对应用数据进行备份管理。

  自2008年起,学校开始引进和应用“虚拟化”技术,通过VMware平台对学校应用服务器和各类网站进行整合,建立了面向信息应用、网络服务、图书管理等多个不同服务内容虚拟化管理平台。经过几年的实践和应用,并积极利用新数据中心规划建设之机,大力推进公共网络信息服务设备的虚拟化整合,同时构建技术先进、维护简单、数据安全的公共信息服务管理平台,引导校内单位与学校将类型相似的应用移植到虚拟服务与存储设施上,解决各单位建设、维护和升级等后顾之忧,努力发挥整合优势、逐步形成“要我整合到我要整合”的共识。

  利用新数据中心规划建设与管理创新的契机,首先,规划建设多组刀片服务器群和统一多级存储设施,已为全校虚拟出200余台虚拟服务器,并构建技术先进、架构合理、运维便捷、数据安全的网站群系统,正逐步将原来分散的205个网站迁移到虚拟化平台中,初步实现了相同、相似业务的统一整合。其次,在管理信息化应用中,也采用资源整合模式,不仅可确保应用平台的资源可调配,而且实现了业务应用系统的备份与迁移,也能灵活构建系统测试环境、快速进行新业务应用系统的部署等。生物信息云服务区如图3所示。

南京农业大学:着力打造生物信息学计算与云服务共享平台

  通过公共服务整合与统一平台建设的先行先试,部分追求拥有“小而全”的投资理念正在被快速改变,为后续“集中资金”构建科学研究信息化的大平台、以及“整体规划、整合资源、共建共享”的生物信息学高性能计算与存储云服务大平台创造条件。如今,学校网络信息公共服务器虚拟化率超过了90%,原有的150余台物理服务器被成功整合到40余台高密度物理服务器上,服务性能得到提升、建设与维护成本也大大降低。

  物理接管逐步开放

  由于历史原因,自2002年以来,学校陆续建有作物基因组高性能计算、昆虫基因组高性能计算、农业统计学高性能计算和蔬菜基因组高性能计算等生物信息相关计算系统,属于各学院、学科或课题组自筹资金分散建设,仅为本学院、学科或课题组提供独享服务。为了改变原有分散投资、规模较小、性能不高、独享服务的局面,新数据中心建设了专门用于托管分散生物信息学相关计算设施的空间,通过物理集中托管、资源共知,逐渐过渡到集中管理和分享服务,引导集中有限的分散资金,构筑规模更大、功能更强、性能更高的生物信息学计算与服务大平台。

  自新数据中心启用后,通过网络信息部门的良好服务与整合理念的引导,已基本完成了原有分散于各学院、各学科的相关生物信息学计算资源的相对集中物理托管。通过这些近十套相关计算资源的集中托管、资源共知,促进了部分资源的开放与校内共享,为进一步共建共享、打造大平台消除了思想障碍。

  分步实施 共建共享

  虽然分散计算资源累计投入不小,但单一性能都不高,一旦遇到较高要求的运算需要,仍然要借助外地科研单位的大平台。可见,要推进学校相关学科上台阶、上水平,亟需创新资金投入方式,规划技术架构统一、可动态发展、开放共建共享的生物信息学计算与云服务大平台。

  创新生物信息学计算与云服务平台资金投入模式,形成“滚雪球”投入效应。在统一架构与标准前提下,通过“以贡献大小换计算资源、优先使用权”形式,按年度来吸引分散的科研经费、教学经费,将“众小资金”汇聚成“大投入”,形成逐年都有分散资金集中投入、规模不断扩大、性能不断增强的可持续发展、分步实施的良好态势。

  开展机制体制创新,打造团队、形成优势。一方面,通过统一大平台建设,可以整合学校生物信息学及相关学科团队,打造面向国内外、高水平的生物信息研究与计算资源服务团队,提高学校相关学科研究水平;另一方面,积极利用网络基础条件、云技术服务手段、生物信息挖掘与分析软件体系,通过相关的管理与服务规范,积极吸纳和联合其他高校、研究机构的生物信息计算资源,创新生物信息分析软件系统、沉淀生物信息学分析数据,构建面向学校、面向国内高校与研究机构,国内一流、世界领先的“生物信息学计算与数据云服务体系”,为国家生物信息学大数据分析提供支持。

  (作者单位为南京农业大学图书与信息中心)

  特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。

发表评论