大数据技术与应用基础
上QQ阅读APP看书,第一时间看更新

1.3 大数据的产生及数据类型

1.3.1 大数据的产生

大量数据的产生是计算机技术和网络通信技术普及的必然结果,特别是近年来互联网、云计算、移动互联网、物联网及社交网络等新型信息技术的发展,使得数据产生来源更加丰富。

(1)企业内部及企业外延。企业原有内部系统(如ERP、OA等应用系统)所产生的存储在数据库中的数据,属于结构化数据,可直接进行处理使用,为公司决策提供依据。另外,企业内部也存在大量非结构化的内部交易数据,并且随着移动互联网、社交网络等的应用越来越广泛,信息化环境的变化促使企业越来越多的业务需要在互联网、移动互联网、社交网络等平台开展,使得企业外部数据迅速扩展。

(2)互联网及移动互联网。随着社交网络的发展,互联网进入新的时代,用户角色也发生了巨大的变化,从传统的数据使用者转变为随时随地的数据生产者,数据规模迅猛扩展。另外,移动互联网更进一步促进更多用户成为数据生产者。

(3)物联网。物联网技术的发展,使得视频、音频、RFID、M2M、物联网和传感器等产生大量数据,其数据规模更巨大。据IDC预测,到2020年,由M2M产生的数据将占到全世界数据总量的42%。由此可见物联网产生的数据在整体数据来源中的比重之大。

1.3.2 数据类型

大数据除了数据量巨大外,另一个特点就是数据类型多。在海量数据中,仅有20%属于结构化数据,其余均为非结构化数据。

按照数据结构,数据可以分为结构化数据、半结构化数据和无结构的非结构化数据。结构化数据存储在数据库中,逻辑结构清晰,易于使用。非结构化数据不方便用数据库二维表来表现,如文档、图片、XML、图像、音频、视频等。非结构化数据中有半结构化数据和无结构化的数据。

按照生产主体,数据可以分为企业应用产生的少量数据、用户产生的大量数据(社交、电商等)、机器产生的巨量数据(应用服务器日志、传感器数据、图像和视频、RFID等)。

按照数据作用的方式,数据可以分为交易数据和交互数据。海量交易数据指企业内部的经营交易信息,主要包括联机交易数据和联机分析数据,是结构化的、可以通过关系数据库进行管理和访问的静态历史数据。海量交互数据由源于Facebook、Twitter、微博及其他来源的社交媒体数据构成,包括呼叫详细记录(CDR)、设备和传感信息、GPS 和地理位置映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等。两类数据的有效融合将是大势所趋,大数据应用要有效集成两类数据,并实现数据的处理和分析。