实验室检测大数据的应用!

近年来,”大数据”、”云数据”在医学领域也成为了热门词汇。数以百万计的数据存储在云数据库,通过高速计算机、特制的统计分析方式对数据进行筛选分析已然成为目前医学科研领域的热点。然而”大数据”仅仅是各类组学数据吗?大数据概念的提出者Viktor Mayer-Schönberger将”大数据”定义为需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[]。目前上海地区各类检验科均已实现了电子化,大型三级医院的日检验相关记录可能已超百万条(项目、结果、患者资料、标本采集接收确认时长、质量控制、疾病诊断等),数据的储存逐步从本地服务器向网络云过渡。从这个角度看,医学检验实验室日常工作产生的各类检验结果及伴生的信息也具备了”大数据”的特征。但数据本身并不产生价值,如何分析和利用大数据,使之对我们工作有用(有价值)才是关键。可是说临床检验”大数据”像是一个暗藏的阿里巴巴宝藏,找到合适的密码才能从中挖掘有价值的珍宝。

一、检验”大数据”的临床应用

在检测条件不变的情况下,当某项目临床检验数据量足够大时,其均值趋于稳定。以此为基理的浮动均值质控法通过提取某一时长段内某项目的检验数据,计算均数及标准差,就可以通过对每日数据均数的分析来了解该项目的检测质量控制情况。这一方法最早由Bull等[]在1985年提出,应用于血液学质量控制。近年来也有学者将其应用于临床化学及血栓与止血检测等领域[]。这一质控方法无需耗费额外的质控品及检测试剂,仅需提取日常检验数据即可。对于一些缺乏稳定质控物质的检验项目尤为适用。浮动均值质控法对数据量有一定的要求,数据量与每日均数的离散度明显相关,实验室选用此方法时要首先评估项目检测结果数据量。

临床检验项目参考区间是健康评估、疾病诊疗、随访监测的重要依据。美国临床和实验室标准协会(Clinical and Laboratory Standards Institute,CLSI)和国际临床化学与检验医学联合会(International Federation of Clinical Chemistry and Laboratory Medicine,IFCC)在2010年共同修订的推荐指南《临床实验室如何确定和建立生物参考区间;批准指南—第三版》中推荐严格的人群筛选和检测方式来获取参考区间(直接法)。但直接法建立参考区间的操作过程复杂、耗时长、成本高,难以大规模推广至全部检验项目及各级实验室。有学者提出利用实验室储存的大量临床日常检验结果数据,基于数学统计模型建立生物参考区间(间接法)[],近年来国内外研究也发表了部分此类成果[,]。由于实验室检验数据信息库中包含有来院就诊的疾病或亚健康人群所产生的异常结果,必须运用合适的医学统计学方法对实验室检验数据信息库的数据性质和结构进行分析,剔除其中必然存在的离群值。一般间接法建立生物参考区间需经过以下4步骤:(1)在医院数据库中采集符合要求的足够数量数据;(2)利用合适的方法对偏态分布的数据进行数据变换;(3)剔除采集数据中的离群值;(4)选取合适的方法建立参考区间。但目前间接法建立参考区间的实践还不多,还没有一个公认的模式或方案。

部分临床检验项目结果分布可以为某一时长段的人群营养状态或流行病学调查提供资料。流行病学及营养状况调查通常采用抽样的方式,通过数学统计模型的方式来推导、模拟整体人群疾病发生、发展趋势。流行病学调查的实验设计对抽样方式有着极高的要求。临床检验项目的大数据分析则无需如此繁琐,通过提高样本量(大数据)来消除抽样的偏倚,可从一个侧面反映或证实地区流行病学及营养状况。有学者对其实验室11年内叶酸数据进行调查[],84 000份标本中仅3例低值(0.06%),这一数据间接反映了美国自1996年起在面包及谷类内添加叶酸后产生的正面效果。杨轶慧等[]对其实验室特定人群5年的血清中胆固醇及三酰甘油数据各90多万例(总胆固醇904 373例,三酰甘油906 609例)进行分析,发现这5年间血脂水平总体呈上升趋势;血脂异常率升高且呈年轻化趋势。这一分析结论可为血脂调查及心血管疾病初级预防提供部分资料。

临床检验项目结果与临床诊断或预后资料相结合,通过回顾性分析能够评估检验项目的诊断性能或预后价值,协助建立诊断或预后切点。杨静等回顾1年内同时检测空腹血糖、糖化血红蛋白及糖化白蛋白数据20 491例[],与临床病史资料结合评估了各项糖代谢指标的诊断性能,并推导了糖化白蛋白的糖尿病诊断建议切点。Johnson等[]通过对1 313例肝癌患者中肝功能数据的挖掘,结合临床随访资料推导出了以胆红素/白蛋白为主体的ALBI分级方程,对肝癌预后有预示价值,并在不同地区(5 097例),不同临床环境(525),不同治疗方式(1 132)中得到验证。

临床检验项目与附加信息相结合,分析后可对各类医疗行为或方式提供客观数据。如检验项目与标本周转时长(TAT)相结合,可为标本检测流程优化,仪器通量估算提供数据支持。检验项目与送检医生信息相结合可对医生开单模式分析,与其他实验室检测结果以及疾病诊断等信息相结合,可为临床路径中检验项目组合设立提供线索。检验项目结果与临床病史、其他实验检测结果等信息相结合,还可以为项目的自动审核规则设立提供可能。

质量控制、间接法建立参考范围、诊断、预后、TAT分析、项目组合设立、自动审核规则这些是检验”大数据”带给我们的。但”大数据”能够给我们带来更多。多中心,多地区的检验”大数据”挖掘可以为营养学调查提供有价值的数据,对于部分流行病(心血管疾病、感染性疾病)的分布流行情况提供循证依据,甚至对部分疾病的诊断及预测提供重要信息。

二、检验”大数据”可能出现的问题

正如硬币必然存在两面,检验”大数据”的临床应用背后也有着需要审慎考虑的问题。

检测条件的稳定以及检验结果的准确是检验大数据分析的基础。临床检验数据往往需要挖掘1年甚至1年以上的数据,检测结果的偏倚或不稳定会造成错误的趋势分析。在临床数据采集分析过程中一定要结合方法学、仪器、试剂变化情况,要结合室内及室间质量控制情况进行综合分析。

检验”大数据”分析中重要的不仅仅是数据量的大小,更是实验的设计。首先要提出有价值的科学问题,针对相应问题去提取有效数据。例如在临床项目诊断性能的研究中,临床诊断信息的完整往往是最关键的,临床病史和诊断信息不完整的检验”大数据”数量再大也可能只是无效的数据。Tolan等[]就曾指出反映每日、每周及每月偏倚的一些”小数据”也能帮助临床检验提高。这恰恰从大数据的定义可以反映,创新的处理模式可能比数据量本身更为符合大数据的特征。

检验”大数据”的获取同样存在着难点,尤其是多地区,多实验室数据的采集。不同的数据存储格式,不同厂商的信息系统软件及信息的隐私保护往往制约着多中心的数据整合。存储数据的标准化,数据采集的去隐私化等这些困扰着医学大数据的问题也在困扰着检验”大数据”。缺少相应的政策法规、伦理研究及安全的数据共享等各方面的设计。相关专家共识或指南的发表或有助于解决这些困难及问题。

随着信息化、数字化时代的到来,人类的生活方式都在发生的巨大的改变。检验医学也必然会受到深刻的影响。面对检验”大数据”这一宝库,我们应科学地认识检验大数据,热情地拥抱检验大数据,积极地发掘检验大数据,从检验大数据的分析中发现更多检验医学中某些呈规律性的特性,推动检验医学的发展迈向新的高度。

——-深圳前海云慧思信息科技有限公司

You might also like

Leave A Reply

Your email address will not be published.