健康医疗大数据建模方法与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一节 健康医疗大数据的概念与属性

一、健康医疗大数据的基本定义

大数据(big data)的概念有多种不同的说法。根据国务院《促进大数据发展行动纲要》,大数据首先是数据,即大数据是一种以容量(或规模)大、类型多、处理速度快、应用价值高但密度低(简称4个“V”)为主要特征的数据集合。大数据的获取与利用体现在大数据的采集、存储和建模分析方法上,是对数量巨大、来源分散、格式多样的数据进行重组和二次利用,通过大数据建模分析发现新知识、创造新价值、提升新能力。

健康医疗大数据是涉及人们生老病死、衣食住行等生命全周期、生活全方位、生产全过程中所产生、发生及交互产生的有关生理、心理、生产、生活、道德、环境,及社会适应、疾病防治、公共卫生、健康管理等方面的数据、再生/衍生数据及元数据。发展健康医疗大数据事业与产业,以科技创新为动力,运用新技术,探索新模式,增强新动力,打造以大数据为资源链的国家优质医疗服务新业态,应对高度个性化的公众健康日益增长新需求。

二、健康医疗大数据的特征

1.数据规模大

一个人的全基因组数据分析为500M~100G,全基因数据可以有75万个位点以及上百万个拓展位点信息;目前一个中等医院放射科每天产生的影像数据约15G,每年约5TB。到2020年,全国有250亿台外部设备联网,中国的医疗数据总量达到35ZB;有大约180个子系统全天候运行的数据。

2.数据类型多

包括结构化数据和非结构化数据(前者占10%左右,后者占90%左右),其中非结构化数据种类繁多,例如邮件、图片、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。

3.处理速度快

在Web2.0应用领域,1分钟内新浪可以产生2万条微博、淘宝可以产生6万件商品信息、百度可以产生90万次搜索查询。随着5G、物联网和人工智能技术的迅速发展,远程病理诊断、远程医学影像诊断、远程监护、远程会诊、远程手术几乎可以做到完全同步。

4.价值密度低

很多有价值的信息都分散在海量数据中。以医疗数据为例,不同医疗机构产生的大量医疗记录包括许多事务性记录,以及重复、有歧义甚至错误和相互矛盾的描述,需要通过鉴别来提取有用的信息。

三、健康医疗大数据的价值属性

当前,根据来源和应用方向,学术界和产业界对健康医疗大数据有各种各样的分类方式。为了更好地理解健康医疗大数据应用发展的必然性和其在公众日常生活中所发挥的巨大价值,主要探究其价值属性。

1.应用属性

在于其使用价值。大数据是在应用过程中获取和聚集数据。健康医疗大数据是在各种各样应用过程中形成的资源链。健康医疗大数据资源链的形成过程,也是其使用价值的释放过程。健康医疗大数据可以根据人群和场景需求定位应用目的,应用目的越清晰,使用价值就越凸显。

2.社会属性

在于其交换价值。大数据既可以作为资源也可以作为资产,从而具有了服务不同目的而产生的交换行为。社会交换自然产生交换价值,根据交换的目的和交互模式,价值大小有所差异。

3.科学属性

在于其知识价值。大数据蕴藏着大量的信息,这些信息是智慧的源泉。大数据通过采集、承载、存储、呈现等各个环节,形成面向健康、医学、生物等各个方向应用的健康医疗大数据,表现为语音和文本、图像和文件、视频和数据流三类物理形态,承载信息的物理电子信号可以有数字和模拟两种形式,无论哪种信号形式,都需要关注信号的干净有效,这是保障数据质量的前提条件。其次,为了更好地从信号承载的数据信息中发现新知识,物理信号和数据信息的格式化和标准化尤为重要。再次,挖掘数据信息的科学价值,需要大力发展数据的科学处理方法和数据可视化处理技术。对数据的深度挖掘和多维度分析,可能发现事物的新规律和新生事物。科学价值是知识发现的智慧源泉,也是价值创造的有力工具。此时更需要关注数据质量,从物理信号到数据信息再到知识发现,每个环节都更要注重其数据的质量,没有数据质量就没有知识属性。

4.时空属性

在于其跨界融合的价值。大数据的“大”由两个方式形成:一是大来自“长”,即在应用中自然形成的过程,如一个人一生的数据积累,一个家族长期传承的数据积累,一个中医药学科的长期历史积累等。二是大来自“小”,在于有外界各方合力推动其形成所谓的“大”,在某个方向的大规模应用,如全国糖尿病患者及高风险人群的筛查;或在跨领域跨方向的融合发展,如环境、公安、民政、社保等领域数据对特定群体的健康或疾病风险管理的应用。

四、发展健康医疗大数据需要科学创新思维

健康医疗大数据与每个人的生命、生活、生产息息相关。健康医疗大数据是“未知大于已知、已知蕴藏未知”的国家战略新领域,事关国人生命安全以及国家生物国防和战略安全。“实施国家大数据战略、加快建设数字中国”为我国新兴战略发展方向,其中健康医疗大数据是国家基础战略性资源和国家最核心资产,是“健康中国”和“数字中国”两大国家战略的融合点,也是“创新强国”和“健康产业”两大国家战略的交汇点。其发展繁荣必将极大增强群众获得感、破解医改新难题、发展经济新动能,必将引领民生、经济和科技等多方位取得全面突破性发展,是新时代赋予的新机遇。

发展健康医疗大数据,要求人人都成为大数据科学家不切实际,但是大数据已经深入所有人生活、生产的方方面面,人人都应该掌握大数据所带来的新方法新思维。当前,已由以测量为基础的单一科学方法,发展到与其并行的以数据驱动为基础的新科学思维方式方法。过去的科学思维方式方法是基于传统以探究因果关系为科技创新的理论基础,以测量为工具的科学方法;大数据是基于数据驱动为方法,不仅研究事物间的因果关系,更要探索事物间的关联关系,以人工智能为工具,研究数据之间偶然中的必然性,开展知识推理工作,寻找“非逻辑性”的事物之间存在的关系,主要是以创新思维方式为工具的科学方法。