大数据(英文big data)指的是数据体量达到一定程度,在一定时间内没办法使用常规的软件工具进行处理的数据集。那么,大数据是如何来的?它究竟有多大?下面就简要谈谈这些问题。
大数据是由美国未来学家阿尔文·托夫勒在1980年出版的《第三次浪潮》一书中提出的术语和概念;他称赞大数据是第三次浪潮中最华彩的乐章。2008年8月,英国科学家维克托·迈尔-舍恩伯格和肯尼斯·库克耶在《大数据时代》一书中指出,应该对所有数据进行整体分析处理,而不是采用随机分析法,即抽样调查进行分析。
目前全球互联网用户超过50亿,以每个用户每天将产生2GB的数据为例,这就意味着每天在互联网产生的数据达到100亿GB。如果你没有直观的概念,想想你计算机的容量,大概500G吧,那就意味着,每天互联网产生的数据达到2亿台计算机的容量。而在大数据的领域GB是非常小的单位,基本数据是以PB来计算的。
大数据的特点是:大量、高速。多样、真实性、速度快、低价值密。它的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据也吸引了越来越多的关注。它需要用到特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等。
大数据虽然孕育于信息通信技术,但它对社会、经济、生活产生的影响绝不限于技术层面。更本质上,它是为我们看待世界提供了一种全新的方法,即决策行为将日益基于数据分析,而不是像过去更多凭借经验和直觉。它就像当下最流行的ChatGPT一样,火爆全网。
数据采集与处理是大数据的关键技术之一,它从互联网、传感器和信息系统等来源获取的大量带有噪声的数据进行预处理,使无序的数据更加有序,便于处理,以达到快速分析处理的目的。大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。
从大数据概念被提出到现在,我们可以看到在各行各业都已经逐步应用,大数据真正的意义不在于收集,更多在于对有价值的数据的挖掘。人类文明从来都不缺数据信息的创造,更需要的是对于数据价值的挖掘和再利用。
未来大数据将会出现在我们生活的方方面面。随着物联网设备的发展,它会作用于城市管理、智能交通系统和智能家居等领域。其次,随着人工智能技术的不断进步,大数据将成为训练和改进模型的关键资源。
随着科技的不断进步和社会的不断变革,我们将面临着更多复杂和庞大的数据集。除了将更好的推动社会发展,还有一个可预见的趋势是以人为本的发展趋势,将会更加重视个人隐私和安全保护。
大数据的未来发展将持续推动社会进步和创新,为我们的生活带来更多的便利和发展机遇,为社会的进步和创新提供更广阔的可能性。
文/郑爽(作者单位:北京理工大学计算机学院)
本文属原作者授权投稿专栏,须取得本网站的书面授权,未经授权严禁转载或用于其它商业用途