浙江大学医学院附属第一医院引入戴尔科技HPCC和PACS平台方案,支持生物医学大数据与人工智能科研工作,科学计算能力提升6-9倍,医学影像资料调用速度提升9-15倍。
业务需求
浙江大学医学院附属第一医院需要为生物医学大数据中心构建一套计算高效、运行稳定的科研数据分析HPCC系统,支持多方向的医学大数据与人工智能科研工作,同时为全院提供数据存储和计算资源服务,并与医院的28个内科科室、26个外科科室进行大数据分析对接,开展全基因组、全转录组、单细胞、质谱流式和微生物等多尺度大数据分析和挖掘工作。此外,需要升级PACS系统的存储平台,全面解决医学影像数据热点分布不均、影像调用慢,导致医生影像诊断耗时过长等问题。
收益
·AI训练效能提升8-9倍,强化了疾病的智能预警及预测干预研究能力;
·强化边缘计算,为推进全生命周期健康管理和脑科学研究提供支持;
·生物医学大数据中心总体科学计算能力提升6-9倍;
·PACS医学影像资料调用速度提升9-15倍;
浙江大学医学院附属第一医院数据中心项目负责人表示:“戴尔科技为PACS系统提供了一级全闪存储、二级混合存储、三级传统存储的组合方案,并通过PowerScale的自动化分层技术优化了医疗业务流程,将当时就需要调取的在线PACS影像数据保存在全闪存储之上,满足极致I/O性能需求。对于患者已经出院或超过180天再次访问几率很低的影像数据,则将其存储到成本更为友好的大容量存储资源池内,以智慧数据管理提升PACS服务水平,赢得广大医生高度认可。”
随着医疗科研行业数字化转型的不断加快,数字医疗技术的快速发展以及医疗信息化水平的持续提升,医疗医学生物研究领域的数据量呈现出快速增长的态势,医疗数据也已经成为了关乎医疗卫生事业发展的重要战略性资源。如何以临床需求为导向,从数据采集到使用进行全链条管理,围绕疾病的病因、诊断、治疗等问题提升生物医学大数据分析与研究工作的整体水平,成为医疗科研行业普遍关注的焦点。
在这方面,浙江大学医学院附属第一医院(以下简称“浙大一院”)与戴尔科技合作,引入PowerEdge服务器和PowerScale存储,依托边缘计算、高性能计算、GPU AI计算,推动生物医学大数据中心科研数据分析HPCC(High Performance Computing Cluster,高性能计算群集)项目和医院PACS(Picture Achieving and Communication System,影像归档和通信系统)存储平台升级,科学计算能力实现大幅提升,也降低了HPCC平台IT复杂度,将IT人员从繁琐的IT维护工作中解放出来,为众多生命科学项目提供计算服务,很多研究成果已经在国际最著名的《科学》、《自然》杂志发表,影响巨大,在行业内树立了医疗科研与大数据分析研究的新标杆。
AI模型训练效能提升8-9倍,强化了疾病的智能预警及预测干预研究能力
浙大一院生物医学大数据中心需要围绕基因测序大数据、医学信息学、医学影像、临床诊疗服务技术和生物信息学等领域,开展创新研究和成果转化。传统的生物医学数据分析思维和方法难以适应中心大数据分析的需求,也无法实现生物医学大数据以患者为中心的多源数据整合。
中心与戴尔科技合作,引入PowerEdge R740服务器、PowerVault ME4012存储、Simple HPC集群管理软件、S4148交换机,构建了一个覆盖计算、存储、管理、网络,四位一体的HPCC系统,总内存容量达到10TB,总存储能力达到10PB,峰值计算能力达到2万亿次/秒,让中心拥有了日处理1500例样本的数据分析能力,给予转录组、表达谱、甲基化、基因组等各项业务类型的统计分析工作有力支持,让研究人员可以利用分子后处理软件GAPipeline、Bioscope对原始生物分子数据进行处理和分析的速度大为提升。由此,中心不再依赖分析少量随机抽样的数据,也不再局限于研究数据之间难以捉摸的因果关系,而是全面关注数据的相关关系,有效优化了生物医学大数据分析所采用数据模型的先进性,以及控制混杂的统计分析方法的科学性。
HPCC平台内嵌多个以PowerEdge R740为核心的GPU计算节点,每台R740节点配置NVIDIA Tesla V100 GPU卡, 其双精度浮点计算能力达到8.2TFlops,深度学习性能达到130TFlops,将AI模型训练效能提升8-9倍,强化了疾病的智能预警及预测干预研究能力。
研究人员可以强化医疗数据的研究深度,通过AI技术进行疾病变异预测研究,通过AI和ML对遗传变异进行模拟解释,在已知疾病标签上训练机器学习模型。
浙江大学医学院附属第一医院数据中心项目负责人表示:“与戴尔科技合作,我们建立了一个面向基因测序大数据、医学信息学、医学影像、临床诊疗服务技术和生物信息学的工程研究平台,提升了数据分析水平。戴尔科技HPCC方案具有卓越的技术先进性,可以支持我们探索医、工、理相互结合的科研新路径,同时支持医院挖掘多学科交叉在临床医学领域的无限可能性,培养学科交叉高端人才。”
强化边缘计算,提升全生命周期健康管理和生物科学研究水平
浙大一院生物医学大数据中心利用边缘计算等手段提升算力,通过对PowerEdge服务器的边缘化部署,大大减少了分析处理的延迟,连接患者的医疗数据无需从网络边缘传回数据中心,有效提升了利用医疗数据的潜力,优化了医院的服务能力,增强了患者体验以及临床医生的生产率和高效性。联网的患者可以使用具有IoT功能的电话或手表捕获自己的血压、血糖、心率等生命数据,并通过门户网站与临床医生立即共享此数据。这样,边缘计算可以加快分析进度,可以促进连续的患者监测,实现更有效的医患沟通以及更快,更准确的临床决策和诊断。与此同时,浙大一院生物医学大数据中心通过强化边缘计算,提升全生命周期健康管理和生物科学研究水平,推动生物医学大数据分析在海量医学影像、病理、临床、基因分子等边缘数据的基础上,利用模式识别和数据挖掘等新技术,得到蕴含在这些大数据中的深层定量特征,利用影像组学定量评估肿瘤异质性,提高癌症诊断的精准度,构建影像、病理、临床信息和基因信息相融合的创新型分析体系。
生物医学大数据中心总体科学计算能力提升6-9倍
生物医学大数据中心科研数据分析HPCC平台具有创新、协作、安全、共享的显著特征,支持多方向的医学大数据与人工智能科研工作,同时面向全院提供数据存储和计算资源服务并与医院的28个内科科室、26个外科科室进行大数据分析对接,开展全基因组、全转录组、单细胞、质谱流式和微生物等多尺度大数据分析和挖掘。基于大数据开发新的分析方法和算法,通过算法的持续迭代大幅提升全基因组关联研究水平,快速筛选共有的变异体。
HPCC平台采用开源架构,总体科学计算能力也比以往提升6-9倍,其计算服务涵盖了生物研究的整个生命周期,大幅降低了研发费用,可以将现有多个平台上格式不同的数据进行自动化地整合,并支持高级ECL大数据编程语言,有效复制现有平台的应用,提供更好的数据洞察力,提升基因组测序技术的个性化医疗水平,帮助科研人员从共性研究转移到个性研究,发现稀有的变异体,从各类变异体中鉴定出真正起作用的位点,从基因组DNA中抓出外显子部分,并融合转录组测序(RNA-Seq)方式,将高覆盖度全基因组测序和RNA-Seq所鉴定出的变异体进行比对,满足同时分析1000个RNA-seq样本、20个全基因组测序数据、10个单细胞测序数据的任务需求。
戴尔科技高性能计算集群方案是基于在HPCC实验室验证过的参考架构,其采用业内优选的Simple HPCC集群管理软件和Ready Solutions for HPC BeeGFS High Capacity Storage,由戴尔科技指定的专业HPCC合作伙伴进行安装部署和售后服务。
在计算层面,PowerEdge服务器采用了英特尔至强Gold 6240,该处理器计算主频为2.6GHz,最大睿频频率为3.9GHz,拥有18个计算核心和36个线程,支持增强型SpeedStep技术,可实现性能和功耗之间的有效平衡。
浙江大学医学院附属第一医院数据中心项目负责人表示:“基于戴尔科技HPCC平台,我们进行高通量分析来描述遗传物质、蛋白质和代谢物,并给予研究人员更高效的数据共享方式,形成了快速表达基因的数据来源,并执行了业内领先的质量控制筛选机制,在发现高水平表达基因的编码变异体的同时,可以更快速地利用RNA-Seq分析方法,提升科研效率。”
PACS医学影像资料调用速度提升9-15倍
浙大一院的医学影像信息系统PACS(picture archiving and communication system)已经上线服役多年,近年来医院医疗影像数据增长过快,每月数据增量达到30TB容量,医生查看单个患者的心血管造影数据最长需要等待45秒,影响诊疗工作效率。为解决PACS存储容量和I/O性能无法满足医疗业务发展的问题,浙大一院采用戴尔科技三级存储组合方案,选择了PowerScale F600全闪节点、H500混合节点、PowerVault ME4084产品组合,将PACS医学影像资料调用速度提升9-15倍,医生3-5秒内就能调阅到2000张图片,系统总裸容量也达到8.62PB,有效解决了存储容量和性能问题。
从数据安全性、扩展性方面考虑,PowerScale存储具有多级容错机制,可以灵活设置多种数据保护策略,防止多块盘或多个节点同时损坏而带来的业务中断和数据丢失。此外,PowerScale可在1分钟内完成在线扩容,并实现容量和性能的同步增长,这对于PACS系统而言至关重要。
存储平台支持自动分层,根据数据的类型自动将不同生命周期阶段的影像数据存放在相对合适的存储系统上,合理满足医生对影像和信息的实时调用需求,不仅支持影像数据的长期存储管理和短期存储管理,而且提供影像有损和无损压缩,支持多种方式查询检索,各科室医生可以快速调取任何大尺寸的影像文件,当遇到颅内出血、脑外损伤、肺部病变等需要快速诊断,实施急救的病人时,病人还没有下放射科的CT诊断床,医生们已经能够在计算机的屏幕上研究患者医学影像的病灶点了,大幅提升了抢救病人的效率。