注册 登录
APP
申请认证 退出

24小时更新医疗健康领域的要闻,打造最及时、最鲜活的资讯平台。

72 小时热文

群英会开奖号码查询:中文医疗健康知识图谱在电子病历中不可或缺

2018-07-18 开放知识图谱
A- A+
我行我show!中国医院管理案例评选,医院卓越管理实践大秀场。点击查看

虽然英文已经有了很多开放链接生物医药数据集合,但中文比较缺乏,而中文的电子病历处理又需要中文知识图谱。

以医院电子病历为核心的临床数据记录了病人的疾病、诊断和治疗信息。挖掘此类数据,可以辅助医生了解人口学信息、临床症状、治疗方法和疗效之间的量化关系,帮助病人选择更好的治疗方案,进而提升医疗服务质量,降低医疗成本。

然而,在临床中,大量的医疗文书是以文本形式存在。同时,医生录入缺乏语义规范,同一诊断与治疗方案,不同医生的录入结果会不同。因此,在挖掘之前,需要对数据进行结构化与规范化。

在这个过程中,医疗健康知识图谱是不可或缺的一部分。另外,病历数据处理和使用过程中,通过病历数据与健康图谱的关联挖掘,可以获得更为隐含的、深刻的信息。为处理方便,整体用知识图谱表示与关联,会更为方便有效。

一、知识图谱用于医疗文本的结构化与规范化

在临床中,大量的医疗文书是以文本形式存在。电子病历的文本包含了病人病史、家族史、症状,以及医生根据症状、理化指标等基础数据做出的诊断等描述。更重要的,临床文本中记录了医生的判断依据,以及对各种诊疗行为的效果跟踪。如果说各种明细记录是结果跟踪,那么文本数据就是过程跟踪的基础。而这些重要的信息保存在非结构化信息中,不能被计算机所理解和处理。

为使得文本更好的结构化,需要用到实体识别、关系抽取技术,根据技术的不同,也会用到一些基础的文本分词或是词法分析等技术,在这个过程中,可以手工标注语料,用各种监督学习方法,传统的有 CRF,新的方法可以基于 RNN 网络;也可以基于字典方法,利用症状、检查、药品与疾病名称的知识库。为了免除语料标注的麻烦,笔者基于症状知识库以及症状语法结构做了远程标注,再进行 CRF 建模,取得了比较好的效果。

然而,仅仅是结构化也是不够的,因为医疗术语存在大量的同义词或上下位词,比如说,同一症状具有多种多样的文本表达形式,如“期前收缩”、“过早搏动”与“早搏”是同义词。再比如说,一个症状常常被不同的词语修饰以表达略有不同的语义含义,如“急性背痛”,“慢性背痛”都可以是“背痛”的下位词。

再以疾病为例,目前医学诊断大量采用了 ICD 编码,但 ICD 编码结构并不包含完整的上下位关系。以中文 ICD 编码[1] 中的“特指急性风湿性心脏病”为例,它的上位词有“特指风湿性心脏病”和“急性风湿性心脏病”,这两种疾病拥有共同的上位词“风湿性心脏病”,“风湿性心脏病”又有上位词“心脏病”。而这几种疾病之间的关系和层次结构并没有在 ICD 10 中通过编码结构表示出来,只是通过编码的首字母“I”将它们划分到了循环系统类疾病中。如过我们需要希望找到某一类患者,无法通过一个ICD编码获得,而是需要人工的选择多个 ICD 编码。从另一个角度而言,对于同一个疾病,医生在编写 ICD 编码时,可粗可细,也会给病历的自动处理带来困难。

为解决上述问题,首先需要现有的编码系统有对应的图谱方式描述,至少具有上下位和同义词关系,进一步的,也可以通过电子病历中的文本诊断,利用图谱,对电子病历数据进行自动编码。

二、图谱表示用于关联知识与数据

电子病历中存储着大量的数据,但仅在病历数据内部做挖掘及分析是有局限性的,难以发现数据中蕴含的深层次的价值。将病历数据以 RDF 格式发布,形成病历图谱,并与开放知识库(如中文症状知识库)相关联,将对疾病预测、用药推荐和相似病人发现等打下良好的基础。

比如说,在电子病历用药时,写的会是药品名称,但是,在分析的时候,通常医生会用大类名称,如 ACEI 类药物,或是 ARB 类药物等等。这时候,病历图谱需要和药品图谱关联,就可以更为方便地做各种临床分析,再比如说,Topfed 项目将 TCGA 项目中发布的癌症病人的基因数据进行 RDF 化,并与其它开放数据集关联,进而做了一些有趣的分析,获得了 ISWC2013 的 Semantic Web Challenge 大奖。例如输入一个病人的特征,找到库中与他类似的病人群,根据相似性找到相应的药物方案,如果病人对此药物有抗药性,可以寻找药品库的同类药物。

三、总结

虽然英文已经有了很多开放链接生物医药数据集合,但中文比较缺乏,而中文的电子病历处理又需要中文知识图谱。针对上述问题,OMAHA联合中文开放知识图谱(Open KG),系统性的梳理和汇集知识图谱相关的技术和工具,并向整个社区开放相关的技术资源,一起促进医学知识图谱数据的开放与互联。

更多资料欢迎大家移步OMAHA联盟官网知识服务平台查看。

如果你也对促进医疗数据开放、医学信息标准化、行业研究和生态建立感兴趣,欢迎进入OMAHA基金会官网了解更多。

OMAHA联盟官网链接://www.omaha.org.cn/portal.php

OMAHA基金会官网链接://foundation.omaha.org.cn

参考资料:

[1]疾病和有关健康问题的国际统计分类第十次修订本(ICD-10)[M].人民卫生出版社.1996.

[2]Saleem M, Padmanabhuni S S, Ngomo AC N, et al. TopFed: TCGA tailored federated query processing and linking toLOD[J]. Journal of Biom edical Semantics, 2014, 5(1):47

原标题:中文医疗健康知识图谱在临床电子病历挖掘中的应用探讨

本文转载自其他网站
本文转载自其他网站。

1人收藏

0人打赏

精彩评论

0条评论

0/500

评论字数超出限制

表情
发表

相关新闻

  • 2018-07-11

    0
  • 2018-06-28

    0
  • 徐薇薇(编译) 2018-04-02

    4
  • 赞+1

    ?2012  北京华媒康讯信息技术股份有限公司  All Rights Reserved.  注册地址:北京  联系电话:82736610

    京ICP证150092号 健康界备案京公网安备 11010802020745号

    您的申请提交成功

    确定 取消
    X

    打赏金额

    1元 5元 10元 20元 50元 其它

    打赏
    X

    扫描二维码

    立即打赏给Ta吧!

    温馨提示:仅支持微信支付!

    X

    扫描二维码

    温馨提示:仅支持微信支付!

  • 经济运行韧性十足 关键领域改革加力——国际机构鼓劲中国经济好势头 2018-12-11
  • 去年中国汽车召回同比增长77% 连续4年刷新纪录 2018-12-11
  • 日照:搭建“新六产”平台 描绘乡村新图景 2018-12-11
  • 游戏主播GodV韦神即兴演唱 这一声假音听的人都酥了 2018-12-11
  • 水土保持-近在你身边-图解新闻 2018-12-10
  • 探寻初心之旅 传承红色基因 2018-12-10
  • 河北行唐警方悬赏3万通缉故意杀人嫌疑人 2018-12-09
  • Insta360为iPhone推出4K功能的Nano S相机 2018-12-09
  • 第21届上海电影节女性影人大放异彩 2018-12-09
  • 《新乌龙院之笑闹江湖》 吴孟达郝劭文时隔24年再聚首 2018-12-08
  • 【聚焦军博会】216个代表团2037个项目将亮相军博会 11大军工集团全部参展 2018-12-08
  • 拥有大智慧的中国古人就把“子”和“女”结合在一体,造出一个会意字“好”字。一直就用这个“好”的感觉结果去衡量其它任何生存环境中的万物万事所给人的感觉。 2018-12-08
  • 新知新觉:从供需关系看供给侧结构性改革 2018-12-07
  • 高清:世界杯“葡西大战”一触即发 西班牙球迷热情似火 2018-12-07
  • 【理上网来喜迎十九大】外媒记者:全面依法治国为中国经济增长保驾护航 2018-12-07
  • 811| 210| 81| 184| 966| 228| 427| 270| 391| 963|