注册 登录
APP
申请认证 退出

24小时更新医疗健康领域的要闻,打造最及时、最鲜活的资讯平台。

72 小时热文

群英会走势图表:中文医疗健康知识图谱在电子病历中不可或缺

2018-07-18 开放知识图谱
A- A+
我行我show!中国医院管理案例评选,医院卓越管理实践大秀场。点击查看

虽然英文已经有了很多开放链接生物医药数据集合,但中文比较缺乏,而中文的电子病历处理又需要中文知识图谱。

以医院电子病历为核心的临床数据记录了病人的疾病、诊断和治疗信息。挖掘此类数据,可以辅助医生了解人口学信息、临床症状、治疗方法和疗效之间的量化关系,帮助病人选择更好的治疗方案,进而提升医疗服务质量,降低医疗成本。

然而,在临床中,大量的医疗文书是以文本形式存在。同时,医生录入缺乏语义规范,同一诊断与治疗方案,不同医生的录入结果会不同。因此,在挖掘之前,需要对数据进行结构化与规范化。

在这个过程中,医疗健康知识图谱是不可或缺的一部分。另外,病历数据处理和使用过程中,通过病历数据与健康图谱的关联挖掘,可以获得更为隐含的、深刻的信息。为处理方便,整体用知识图谱表示与关联,会更为方便有效。

一、知识图谱用于医疗文本的结构化与规范化

在临床中,大量的医疗文书是以文本形式存在。电子病历的文本包含了病人病史、家族史、症状,以及医生根据症状、理化指标等基础数据做出的诊断等描述。更重要的,临床文本中记录了医生的判断依据,以及对各种诊疗行为的效果跟踪。如果说各种明细记录是结果跟踪,那么文本数据就是过程跟踪的基础。而这些重要的信息保存在非结构化信息中,不能被计算机所理解和处理。

为使得文本更好的结构化,需要用到实体识别、关系抽取技术,根据技术的不同,也会用到一些基础的文本分词或是词法分析等技术,在这个过程中,可以手工标注语料,用各种监督学习方法,传统的有 CRF,新的方法可以基于 RNN 网络;也可以基于字典方法,利用症状、检查、药品与疾病名称的知识库。为了免除语料标注的麻烦,笔者基于症状知识库以及症状语法结构做了远程标注,再进行 CRF 建模,取得了比较好的效果。

然而,仅仅是结构化也是不够的,因为医疗术语存在大量的同义词或上下位词,比如说,同一症状具有多种多样的文本表达形式,如“期前收缩”、“过早搏动”与“早搏”是同义词。再比如说,一个症状常常被不同的词语修饰以表达略有不同的语义含义,如“急性背痛”,“慢性背痛”都可以是“背痛”的下位词。

再以疾病为例,目前医学诊断大量采用了 ICD 编码,但 ICD 编码结构并不包含完整的上下位关系。以中文 ICD 编码[1] 中的“特指急性风湿性心脏病”为例,它的上位词有“特指风湿性心脏病”和“急性风湿性心脏病”,这两种疾病拥有共同的上位词“风湿性心脏病”,“风湿性心脏病”又有上位词“心脏病”。而这几种疾病之间的关系和层次结构并没有在 ICD 10 中通过编码结构表示出来,只是通过编码的首字母“I”将它们划分到了循环系统类疾病中。如过我们需要希望找到某一类患者,无法通过一个ICD编码获得,而是需要人工的选择多个 ICD 编码。从另一个角度而言,对于同一个疾病,医生在编写 ICD 编码时,可粗可细,也会给病历的自动处理带来困难。

为解决上述问题,首先需要现有的编码系统有对应的图谱方式描述,至少具有上下位和同义词关系,进一步的,也可以通过电子病历中的文本诊断,利用图谱,对电子病历数据进行自动编码。

二、图谱表示用于关联知识与数据

电子病历中存储着大量的数据,但仅在病历数据内部做挖掘及分析是有局限性的,难以发现数据中蕴含的深层次的价值。将病历数据以 RDF 格式发布,形成病历图谱,并与开放知识库(如中文症状知识库)相关联,将对疾病预测、用药推荐和相似病人发现等打下良好的基础。

比如说,在电子病历用药时,写的会是药品名称,但是,在分析的时候,通常医生会用大类名称,如 ACEI 类药物,或是 ARB 类药物等等。这时候,病历图谱需要和药品图谱关联,就可以更为方便地做各种临床分析,再比如说,Topfed 项目将 TCGA 项目中发布的癌症病人的基因数据进行 RDF 化,并与其它开放数据集关联,进而做了一些有趣的分析,获得了 ISWC2013 的 Semantic Web Challenge 大奖。例如输入一个病人的特征,找到库中与他类似的病人群,根据相似性找到相应的药物方案,如果病人对此药物有抗药性,可以寻找药品库的同类药物。

三、总结

虽然英文已经有了很多开放链接生物医药数据集合,但中文比较缺乏,而中文的电子病历处理又需要中文知识图谱。针对上述问题,OMAHA联合中文开放知识图谱(Open KG),系统性的梳理和汇集知识图谱相关的技术和工具,并向整个社区开放相关的技术资源,一起促进医学知识图谱数据的开放与互联。

更多资料欢迎大家移步OMAHA联盟官网知识服务平台查看。

如果你也对促进医疗数据开放、医学信息标准化、行业研究和生态建立感兴趣,欢迎进入OMAHA基金会官网了解更多。

OMAHA联盟官网链接://www.omaha.org.cn/portal.php

OMAHA基金会官网链接://foundation.omaha.org.cn

参考资料:

[1]疾病和有关健康问题的国际统计分类第十次修订本(ICD-10)[M].人民卫生出版社.1996.

[2]Saleem M, Padmanabhuni S S, Ngomo AC N, et al. TopFed: TCGA tailored federated query processing and linking toLOD[J]. Journal of Biom edical Semantics, 2014, 5(1):47

原标题:中文医疗健康知识图谱在临床电子病历挖掘中的应用探讨

本文转载自其他网站
本文转载自其他网站。

1人收藏

0人打赏

精彩评论

0条评论

0/500

评论字数超出限制

表情
发表

相关新闻

  • 2018-07-11

    0
  • 2018-06-28

    0
  • 徐薇薇(编译) 2018-04-02

    4
  • 赞+1

    ?2012  北京华媒康讯信息技术股份有限公司  All Rights Reserved.  注册地址:北京  联系电话:82736610

    京ICP证150092号 健康界备案京公网安备 11010802020745号

    您的申请提交成功

    确定 取消
    X

    打赏金额

    1元 5元 10元 20元 50元 其它

    打赏
    X

    扫描二维码

    立即打赏给Ta吧!

    温馨提示:仅支持微信支付!

    X

    扫描二维码

    温馨提示:仅支持微信支付!

  • 重庆市奉节县:推行村级“三会”自治机制 2019-02-16
  • 外媒称解放军亮相巴铁阅兵展示军事合作新高度 2019-02-16
  • 重庆一面馆推出天价面条 一碗杂酱面1314元 2019-02-15
  • 南通海门开展10个方面19项安全生产专项整治 2019-02-15
  • 聚焦行业痛点 广东机器人产业链创新增速 2019-02-15
  • 影驰HOF II DDR4内存发布:液氮超频5.3GHz影驰HOFIIDDR4内存发布-手机行情 2019-02-15
  • 双面陈坤荧屏"脱身" "戏精天团"玩转年代爱情下饭剧 2019-02-14
  • 广东:取餐“太用力” 外卖小伙撞破玻璃门 2019-02-14
  • 历朝历代的更替,又说明了什么呢? 2019-02-14
  • 不撞南墙不回头。痛定思痛。动辄把独立自主、自力更生,说成是崩溃边缘,是多么轻率、可笑。 2019-02-13
  • 高清:国青足球邀请赛 国青1 2019-02-13
  • 网事如歌·山西新闻网成立二十周年 2019-02-13
  • 新余市通报14起中央环保督察反馈问题整改不力情况 2019-02-12
  • 你才是“蠢货”!土地是自然存在的地球的一部分,并不是人类劳动成果,哪来价值?土地不是劳动成果,没有价值,正如空气和阳光不是劳动成果,没有价值一样。懂吗... 2019-02-12
  • 《法医秦明2》精彩开篇 看片会悬疑烧脑 2019-02-11
  • 1000| 825| 795| 373| 404| 447| 319| 869| 327| 422|