病历智能分析系统如何助力医学大数据

病历作为病院的贵重财富,里面蕴含了大量的专业常识,然则因为受到手艺的限制,历久得不到有效哄骗。今朝许多病院的大夫还停留在去病案室借阅病历,手工摘抄收集科研数据的阶段,效率十分低下。若何使用最新的人工智能手艺,让机械“读懂”病历数据,提高临床科研效率和质量,是今朝亟需解决的课题。
对病历文原形关的智能剖析首要涉及天然说话处理手艺,相关研究起头于20世纪60年月的美国,衍生出包罗医学信息抽取、临床问答系统和临床决议支撑系统等。对于医学文本信息抽取,今朝已经有相对成熟的系统在病院使用,包罗MedLEE、Ctakes和GATE等。YongGang Cao等构建了匡助大夫查询病人症状有关接济的AskHERMES问答系统。
我国医学天然说话处理的成长水平还与蓬勃国度有必然差距,首要集中在基于划定和专家系统的方式,而将机械进修、深度进修应用到医学天然说话处理需要加倍深入的研究。对此,我们连系国表里最新的研究近况,在我院率先开展了行使天然说话处理手艺构建病历智能阐发系统的研究工作。
病历智能阐明系统设计
一、功能模块
病历智能阐明系统的焦点手艺是天然说话处理。系统首要涉及句法学、语义学和语用学共三个分歧品级的说话学剖析,由分词、病历标注、定名实体识别和语义联系抽取共四个模块构成,如图1所示。

图1 病历智能阐发系统功能模块设计
二、焦点手艺
1.分词
作为病历智能剖析的第一步,对中文病历文本进行分词至关主要。病历文本内有大量的医学专业术语和表达,这种特点导致传统中文分词对象对病历文本的分词结果欠好。例如药品名“去甲伪麻黄碱”会被划分为“去/甲/伪/麻黄碱”,而不是将其当成一个整体。为了提高对病历文本的分词结果,需要收集医学专业词汇和常用药品名等,将这些词条整合成辞书作为分词对象的增补。将辞书与开源的“结巴分词”对象相连系来对中文电子病历进行分词处理,组成一个完全非监视、无需人工标注即可使用的中文病历分词引擎。
2.病历标注
有监视的机械进修方式能对病历文本中的医学常识和患者的健康信息进行抽取,而进行监视进修的第一步是进行病历文本的人工标注,以使得标注后的数据可以对机械进行有效的练习。
我们对两类信息:医学定名实体(包罗疾病、疾病诊断、临床症状、搜检和治疗等),以及实体间的语义联系(治疗和疾病间的关系、治疗和症状的关系、查抄和疾病的关系、搜检和症状的关系以及疾病和症状的关系),进行了人工标注。在标注过程中我们采用了BIO的标注系统,即B表现一个定名实体的起头,I示意方针词在定名实体的内部,O表现方针词不属于定名实体。
我们随机抽样了来自我院的3000份出院小结,并召集我院内的临床实习生对其进行上述标注。在个中300份病历上,我们拟定了两名标注者同时对其进行标注,并使用Cohen′s Kappa计较其标注一致性,并获得了0.68的Kappa值。
3.定名实体识别剖析手艺
定名实体识别手艺指的是将病历中主要的医学实体,如疾病、症状、搜检、治疗变量等从病历文本中抽掏出来。例如“患者30余年前因频频咳嗽咳痰多次就诊,诊断为慢性支气管炎,平昔服用顺尔宁掌握症状”这句话中,“咳嗽咳痰”被识别为症状,“慢性支气管炎”被识别为诊断,“顺尔宁”被识别为药物,属于医疗手段。
因为病历文本是由自由文本书写而成,是以将这些医学定名实体进行识别时将病历文本进行布局化是病历智能剖析的主要环节。今朝定名实体识另外方式首要分为基于辞书和法则的方式和基于机械进修的方式。基于辞书和规矩的方式需要人工编制出许多相关法则和专业的医学辞书,而辞书和划定的编制过程需要大量的人力,而且这些划定和辞书应用到病历文本时受到定名实体上下文的影响很大,是以效验不是很幻想;而基于机械进修的方式是将定名实体识别使命作为序列数据的标注问题,首要考虑上下文的信息。
今朝公认完成定名实体识别机能较好的机械进修模型是前提随机场(Conditional Random Fields),特征机关过程中常用的特征是上下文特征、字典特征等。我们哄骗前提随机场来练习定名实体识别模型,并采用了开源的CRF++作为我们依靠的对象。我们使用原始字、分词的后果、以及上下文(窗口巨细为5)中的信息作为特征,对CRF模型进行练习。并操纵上一章节中所述的3000份标注病历,我们对其进行了5-fold的交叉验证。成绩显示定名实体识另外总体F-1评分(Micro-F)达到了0.92,证实了模型可以正确地完成医学定名实体识另外义务。
4.语义联系抽取手艺
对病历文本中抽掏出来定名实体之间的语义联系进行阐明,也是病历智能阐发的主要环节。抽取的关系包罗疾病和症状之间的关系、疾病和治疗之间的关系、时间副词的润饰等。在这个步调中,我们把问题转化成了一个分类问题。即,对于每一对特定距离内(100字以内)的定名实体(相距过远的定名实体我们认为其发生关系的可能性很小)我们使用机械进修模型去判断其是否有关系以及假如有关系其类别是什么。在本工作中,我们测验了前提随机场(SVM)、逻辑回来、决议树(C4.5)等模型,发而今一律的特征和练习数据下,获得了相似机能。是以,我们最终采用了前提随机场作为模型,并同样对3000份标注病历进行了5-fold的交叉验证,获得了平均0.88的语义联系抽取正确度。将该分类器应用于新的病历上,可以获得的完整解析后的效验,如图2所示。
系统应用
一、加快填写病例告诉表(CRF)
病例告诉表(Case Report Form, CRF)是临床研究数据获取的首要对象,在药物临床实验和临床研究中都有普遍的应用。收集到正确、靠得住的临床数据是临床实验的主要环节。在填写病例告诉表的过程中要求填写受试者的根基信息、治疗期及随访期记录、试验竣事记录等。病例讲述表中包含大量的临床变量,包罗患者的症状、临床显露、体征、实验室搜检等环境。
操纵病历智能剖析系统,用定名实体识别手艺能将病例讲演表中需要填写的变量在受试者的讲演中进行主动抽取,从而加快CRF表中的填写速度,优化临床实验的处理流程。
二、优化临床数据中心(CDR)
作为构建临床数据中心的主要环节,数据的尺度化和构造化成为一个棘手的问题。因为分歧系统的电子病历系统和病院信息系统的数据尺度分歧,电子病历中的医学信息在临床数据中心进行流畅和哄骗坚苦重重。在病历智能剖析系统的接济下,以自由文本书写的病历能进行构造化,布局化后病历文本就能够在分歧病院和分歧区域间进行交流整合。同时,对电子病历中积压的临床数据进行布局化处理,或许实现对汗青电子病历中的诊疗过程的整合,丰硕临床数据中心的内容。
三、辅助临床计划支撑系统(CDSS)
临床决议支撑系统(Clinical Decision Support System, CDSS)是对临床工作的有益弥补,能在复杂和转变的临床场景下为医务人员供应实时有效的辅助诊断,有效地提高临床计划的正确率和效率。
临床辅助计划撑持系统的数据滥觞平日是医学书籍、文献、病历等非构造化数据,直接行使这些数据难以抽掏出来诊疗过程中的变量和变量之间的关系。使用病历智能剖析系统,将这些自由文本进行构造化处理之后能匡助临床辅助决议撑持系统,更好地挖掘患者既往病史与医学常识的关系,供给更优质和科学的介绍方案。
本文阐述了病历智能剖析系统的模块构成、焦点手艺及应用场景,解决了部门临床中碰到的问题,获得了临床的遍及好评。今朝阶段,电子病历中的主观数据需要人工标注,占所有病历数的10%摆布。若何从无标注的数据进行进修,将是将来三到五年需要解决的主要问题。此外,若何像人一般从小样本进行有效进修,以及若何从认知性的使命扩展到决议性使命,同样是需要解决的问题。相信跟着人工智能手艺的快速成长,希奇是深度进修手艺的逐渐成熟,天然说话处理手艺将在医学大数据挖掘中施展越来越主要的感化。

上一篇:HealthTap发布全球首款Apple Watch医疗应用
下一篇:JACC:华为智能穿戴设备能用于房颤的筛查和健康

网友回应