应用

技术

物联网世界 >> 物联网新闻 >> 物联网热点新闻
企业注册个人注册登录

谈谈人工智能与数据治理:我们的系统为谁而建?(上)

2019-04-08 09:30 e医疗

导读:未来的IT,一定是“老、旧、新”三个IT的平行组合和使用。当然这一段不是我的总结,只是“拿来主义”。时光倒序,先从智能技术着手,从解决方案的角度分享人工智能在医疗行业的应用。

人工智能,AI,智能金融,人工智能,数据治理


【编者按】未来的IT,一定是“老、旧、新”三个IT的平行组合和使用。当然这一段不是我的总结,只是“拿来主义”。时光倒序,先从智能技术着手,从解决方案的角度分享人工智能在医疗行业的应用。


工业技术是“老”IT(IndustrialTechnology),信息技术是“旧”IT,智能技术是“新”IT(IntelligentTechnology)。工业技术解决了人类发展资源不对称的问题,互联网信息技术很快会解决信息不对称的问题,智能技术将面临解决人类智力不对称问题的艰巨任务。

未来的IT,一定是“老、旧、新”三个IT的平行组合和使用。当然这一段不是我的总结,只是“拿来主义”。时光倒序,先从智能技术着手,从解决方案的角度分享人工智能在医疗行业的应用。

不说大数据的人工智能都是耍流氓

春秋战国,七雄争霸,那时候就出现了伟大的“数据治理专家”秦始皇,将国家(“数据”)治理的三要素:组织架构、制度流程和技术支撑大集成,更将标准化发挥到极致。

这两年,医疗人工智能更是发展迅速,产业格局亦风起云涌。互联网医疗健康产业联盟发布的《医疗人工智能技术与应用白皮书(2018年)》对人工智能在医疗行业的宝贵价值、细分领域的应用、面临的问题与挑战进行了概括性的综述。

在中关村,程序猿们把人工智能叫“养狗”(阿尔法狗),“养狗”是要有“狗粮”的,没有“狗粮”吃的“阿尔法狗”肯定长不大;反之,没有消费者,“阿尔法狗”的“狗粮”也没有任何存在的意义。

这里的“狗粮”说的是经过数据治理过后的大数据,这样才可以把面粉加工(AI/DG)成面皮(数据开放平台),做成包子(专病研究)、馄饨(临床辅助决策)、饺子(真实世界研究)等。如图1所示:一望无际的麦田,好比临床医生(各自的一亩三分地)写的病历(种的麦子)各不相同(良莠不齐)。结构化电子病历系统的普及,对临床质控、临床科研发挥了巨大作用,而模板化的病历不仅限制了医生的思维,且归档后的病历千篇一律,生生把“大数据”变成了“数据大”。更为重要的是,很多医学信息因为电子病历模板没有预设“元素”而被隐藏掉了。

近些年,医院信息平台建设如火如荼,随着互联互通测评“政治任务”式的推广,平台建设达到高峰,标准规范得到越来越多的应用普及。但如弗吉尼亚·梅森医疗中心在精益变革中提出的:我们的系统为谁而建?

建成的数据中心依然有80%的是非结构化数据,此结构化非彼结构化、此标准非彼标准。医生种的麦子,收割后加工不成面粉,制作不出包子。

科研平台的变迁历程

1.信息平台下的科研应用

“集成平台”到“信息平台”叫法的改变,是信息化建设从“数据集成共享”到“标准规范建设”的转变。是从着力解决信息孤岛、烟囱林立,资源共建、数据共享、业务协作,到传统业务领域、重点信息工程、新兴技术领域标准体系的建设和应用的转变。

60项基础类信息标准(卫生信息数据元目录、卫生信息数据元值域代码、疾病分类与代码……)、88项医院信息化标准(电子病历基本数据集、电子病历共享文档规范、电子病历与医院信息平台标准符合性测试规范……)、76项区域卫生信息化标准(健康档案共享文档规范……)(数据来源:国家卫生健康委统计信息中心、中国卫生信息与健康医疗大数据学会卫生信息标委会),日趋完善的信息标准体系框架下,医院、区域建成了以患者为中心的病人主索引EMPI系统、临床数据中心CDR、运营数据中心ODR和科研数据中心RDR。

然而,海量的医疗数据却很少能转化成相应的科研成果。

医学信息分散且不完整,医学文本信息利用很难,基于关系型的数据仓库,病例筛选检索耗时之长,信息提取效率之低,数据统计挖掘之繁琐,是临床医生无法接受的。

走访一下医院,临床医生都在抱怨信息平台花了上千万,想要的数据却没有,做科研要检索的病例样本出不来。导致这种情况其实至少有两个重要的原因不能忽视:一是源数据非常差;二是那么多的标准规范,公司开发的产品遵循得太少。

信息平台说:这个锅,我不背。

2.大数据平台的科研应用探索

现如今,有些医院已经采用Hadoop集群计算框架,分布式存储、分布式运算,非关系型数据库NoSQL建设医疗大数据平台。

相对于信息平台,其海量数据处理能力让查找样本病例达到毫秒,多维度数据导出统计也是小菜一碟,只是这时候的“面粉”稍显粗糙。

数据结构化程度欠佳、准确匹配程度不够、科研数据不全——麦子通通结了穗,那穗在麦浪中随风波动,只是还不是那么饱满。

3.基于人工智能的科研应用

也许是之前的预算有限,或许之前的供应商服务虽好、技术却停滞不前,可能是顶层架构虽好、落地却有偏差,同一家医院换过几家公司的HIS、LIS或PACS系统的现象已经很普遍。而在建设信息平台、大数据平台的时候,之前的数据库、数据仓库还是孤立地躺在数据库服务器里,数据得不到全面整合。

从数据库、数据仓库,到数据湖、数据海,我们不讨论是应该建一个“大湖”,还是建不同的数据仓库。从临床科研的角度,我们需要对历史数据全集成、所有数据全覆盖,才能得到全面的病例样本;我们要将非结构化数据相对全结构化、全标准化映射,才能做到智能检索;我们要无边的麦田,绿油油、清爽爽,清风吹来,阵阵清香,精细的“面粉”方唾手可得。