
1.1 大数据
信息化的本质是生产数据的过程,数据被大量生产,进而形成数据资源[2]。对数据资源的开发利用逐渐成为人类的新需求,数据成为新的生产要素[3]。从早期的数据仓库和数据挖掘技术的提出,到决策支持系统和商业智能的应用,其实都是在进行数据资源的开发利用工作。直到大数据出现,数据资源的开发利用工作从量变发展到了质变:数据开发发展成一个新的领域或行业,信息技术发展出新的分支——大数据技术[2]。大数据的发展促进了国家治理体系和治理能力的现代化,以数据为关键要素的数字经济成为未来经济发展的新模式。
大数据资源是重要的战略资源,是经济社会发展的重要创新要素,对促进全面创新发展具有不可或缺的重要作用。数据资源开发利用的目的是实现大数据的价值。大数据是对为决策问题提供服务的大数据集、大数据技术和大数据应用的总称[2]。其中,大数据集是指一个决策问题所用到的所有可能的数据,通常其数据量巨大、来源多样、类型多样;大数据技术是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;大数据应用是指用大数据集和大数据技术来支持决策活动。大数据能否为一个决策问题提供服务的关键是其是否能在决策希望的时间内有效完成所有的任务。对于不同的决策问题或分析任务,需要由针对性的方法及模型进行支持。
数据的增长给技术带来了挑战,随着技术的进步,成功的大数据应用不断出现。大数据在“数据增长”和“技术进步”之间交替前行,进而形成了当今的大数据热潮。从理论上讲,大数据的技术挑战在摩尔定律的作用下可以自行解决,但数据增长的速度远快于技术进步的速度,因此出现了大数据问题。大数据问题是指不能用当前技术在决策希望的时间内处理分析的数据资源开发利用问题[2]。就当下而言,现有技术难以处理PB级别以上的数据。PB级别的数据规模已经超过了大部分企业和机构自身积累的业务数据的规模,这说明PB级别数据规模的应用涉及了机构内部和机构外部的数据,这是质的转变。在PB级别数据规模下,企业和机构可以用历史数据、跨界数据等足够多的数据来辅助决策。这将对科学研究、政府治理、民生改善、产业发展发挥革命性的作用。PB级别数据规模带来的技术挑战(即“大数据问题”)是非常明显的。大数据问题的关键技术挑战在于:找到隐含在低价值密度数据资源中的价值;在希望的时间内完成所有的任务。
数据挖掘技术是数据开发技术的核心,其目的是从大数据中发现价值,已成为当前非常有发展前景的大数据技术之一[4]。巨量、多样、时效性强、高价值、低密度等大数据特点给数据挖掘技术带来了新的挑战和机遇。