大数据时代中国数据量有多大

作者&投稿:贯适 (若有异议请与网页底部的电邮联系)
大数据时代中国数据量有多大~

数据质量是数据挖掘的基础和保障适用人群高级IT从业人员课程简介在大数据的数据挖掘和数据分析中,需要用到大量的原始数据,这些原始数据来自人口和计划生育业务的数据上报,比如:奖励扶助系统、少生快富系统、流动人口系统、育龄妇女管理系统、快速直报采集系统等,还来自各种抽样调查、焦点调查、人口统计、普查数据等。这些原始数据的质量直接影响到数据分析的结果。采用错误的原始数据,即使数据挖掘和数据分析的手段再高明,也不会得到正确的结论。花大笔的银子建立起来的数据仓库也会付之东流,发挥不了应有的作用。良好的数据质量是建立数据仓库的基础和前提。如果原始数据准确无误,那么计算出来的结果也会准确无误,也就具有权威性和可靠性,得出的结论也就无可争议。因此保证原始数据的质量,提高原始数据的质量意义重大,它为学术研究、数据分析、政策咨询和科学决策提供了有力的武器。在这个意义上说,高质量的原始数据是无价之宝。无疑,在大数据时代的数据挖掘中,保障数据质量至关重要。这个课程就是讨论如何保障数据质量,如何根据数据质量的准则去检验现有数据的数据质量问题,如何建立数据质量管理体系和方法。各级组织机构都应该重视数据质量管理,并且成立相应的委员会,委员会的成员应该是高级管理人士。

从2013年初开始,对于大数据爆发的焦虑感,紧迫感,不由自主地被卷入的甚至无力的感觉,驱动众多行业、企业和团体去关注和开始接触和了解大 数据,自觉或不自觉的,主动或不得已地去融入这波洪流。但是,真的说到大数据,我们中国到底有多少数据量,它们都分布在哪些行业,哪些数据是目 前可用的,哪些行业已经在使用数据,进入产业互联网和数据引导的变革了?
可能看到的版图依旧模糊。因此,我们怀抱很好的希望,以第一个吃螃蟹并期待来自行业的矫正和拍砖的态度,首先尝试对于国内各个领域,行业以 及机构的数据拥有情况,使用情况以及未来路径做一个粗犷地调研、梳理和判断,对大数据时代我国各个领域数据资产的拥有和使用情况,也就是我们数 据资产的家底做个盘点,也对各个行业、系统进军大数据,以及拥抱产业互联网的进度和未来做个简单判断。事实上,大数据之题无疑繁若星辰,然而只 有在相对完整的视图下,繁星若尘,我们才可得以一窥天机。
从我们手头掌握的数据来看,2013年度,中国存储市场出货容量超过1个EB(1EB=多少),存储总量而IDC曾经发布的预测表明在未来的3-4年,中国存储总 容量可能达到18个EB。从数据存储市场的需求来看,互联网、医疗健康、通信、公共安全以及军工等行业的需求是主要的,且上升态势明显。
鉴于存储和服务器的紧密相关,我们从已经获得的资料可以知道,目前全球运行的服务器总量超过5000万台,美国国内运行的服务器总体容量接近 1000万台。从各种市场公开数据来看,2013年中国内地服务器销售总数接近为100万台。大体估算,截止到2013年底,中国内地整体在运行的服务器总数 量在300万台以上。
从现有存储容量看,中国目前可存储数据容量大约在8EB-10EB左右,现有的可以保存下来的数据容量大约在5EB左右,且每两年左右会翻上一倍。这些 被存储数据的大体分布为:媒体/互联网占据现有容量的1/3,政府部门/电信企业占据1/3,其他的金融、教育、制造、服务业各部分占据剩余1/3数据量 。
公开数据显示,互联网搜索巨头百度2013年拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金 融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。
在目前被广泛引用的IDC和EMC联合发布的“2020年的数字宇宙”报告 预测到2020年,全球数字宇宙将会膨胀到40ZB,均摊每个人身上是5200GB以上,这个量将会如何被有效存储和应用,我们眼下还很难想象。然而我们 看到该报告指出,从现在起到2020年,全球数字宇宙的膨胀率大约为每两年翻一番。事实上,根据上述调查结论和服务器容量调查,我们也能做出个相对 合理的推断:目前,全球产生的数据量中仅有1%左右的数据能够被保存下来,也就是说今天全球能够被保存下来的数据也就是在50EB左右,而其中被标记 并用于分析的数据更是不到10%。
作为全球人口和计算设备保有量的大国,我国每年所能产生的数据量也极为庞大,有数据说2014年甚至可能达到ZB级别,但是真正被有效存储下来的 数据仅仅是其中极微少部分,中国保存下来数据占全球数据的比例大约在10%左右,也就是上面说的5EB。这些数据中,目前已被标记并用于分析的数据仅 达到500PB左右,也是接近10%的一个比例。
伴随着云计算迅速普及和各行业,各企业和部门对于数据资产保存和利用意识的增强,以及通过互联网、大数据对产业进行变革的意愿,未来2-3年一 定会有越来越多的行业、大企业步入到PB、百PB、甚至EB级别数据俱乐部,未来3-3年中国的数据总量也将呈翻倍上升态势,我们预测2015年中国就可能 突破10EB数据保有量,被标签和分析利用数据量也将上升到EB级别,这些数据增长中互联网、政务、医疗、教育、安全等行业和领域所做贡献最大,而相 对传统的物流、生产制造、甚至农业等领域数据拥有量的增长将更加明显。

首先我们只说说你一个人的数据量,多了不算
(1)首先基本信息:包括人口基本信息,健康信息,信用信息、测评信息、经历信息(比如学籍),关系信息(比如亲戚)等等,当然这部分信息并不算很大,可能会更新,但是更新的频繁度不会很大。
(2)交易信息:这部分就大了,比如你的手机交易,以及出行等信息,这些都是交易信息。而且交易信息不仅仅是一条信息,可能还包括物流变化信息,买家信息,商品信息等等,这部分内容会频繁更新,可以想象一下你网购,你觉得这部分信息大不大,这还不涉及金融信息。
(3)金融信息:这也是一个大块,账户的各种变动、资金的进出,进出的来源目的地等等,在交易信息的同时,这部分信息也会随着变动。
(4)社交信息:这部分不解释了。
(5)其他信息:这个我不知道怎么起名,但是上面的内容并不能包括所有的信息内容,姑且起一个其他信息。
这些信息很零散,但是综合起来的量其实很大,再加上中国的13亿多的人口,信息量那就十分惊人了,就算平均每人每天只产生1MB的数据(其实根本不可能这么少),那么也是13亿MB≈130万GB≈1300TB>1PB,那么如果是10M,那么就是10倍,我想很多人怎么也不可能每天上网只用10M的数据量吧(我说的不是流量是数据量),当然这些数据量不可能权威有用信息,可是就算是10%有用,每天也不止10M啊,所以这个数据量是很难想象的。

大数据元年是指哪一年
答:大数据时代,信息的内涵已不仅仅是消息等新闻,而是各种各样的数据。这就要求媒体必须适应新的信息生产和传播方式,以多元化媒介来承担信息传播的职能。生产、分析、解读数据,探索一条为受众和用户提供分众化服务和体验的媒体发展之路,将成为媒体竞争的必备技能。量身打造资讯 媒体转型发展新思路 中国社科院...

大数据时代企业须打好信息资源整合攻坚战
答:大数据时代企业须打好信息资源整合攻坚战 数据被认为是新时期的基础生活资料与市场要素,重要程度不亚于物质资产和人力资本。 近年来,企业产生的数据量呈指数级增长,信息资源爆炸式激增,其中非结构化的数据信息达到85%左右,传统的信息资源管理技术已经无法应对大数据时代的挑战。 Hadoop等大数据技术和其他大数据工具和设备的...

理解大数据时代的数字鸿沟
答:比如,互联网提供的个性化的搜索引擎,个性化藏夹等都会导致信息浏览的个人化,大数据时代的数字差异不可避免。数字鸿沟比数字差异更能引起人们的警惕,数字鸿沟更强调在认识和机会上的差异。数字差异是知道有机会而不为,数字鸿沟则是想为而没有能力或机会。同在大数据背景之下,数字鸿沟可能会在拥有数据、分析数据和数据...

大数据的概念是什么大数据是什么概念
答:2、科学家和计算机工程师们给这种现象创造了一个新名词:“大数据”。 3、 所谓大数据,那到底什么是大数据,他的来源在哪里,定义究竟是什么呢? 一:大数据的定义。 4、 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营...

大数据时代下我国电子商务的发展机遇与挑战
答:大数据时代已经到来,认同这一判断的人越来越多。随着物联网、云计算、移动互联网等新技术的发展,手机、平板电脑、PC以及遍布地球各个角落的传感器,将成为大数据来源和承载方式。据预测,全球互联网上的数据量每两年会翻一番,到2013年互联网上的数据量将达到667EB(1EB=109GB)。这些数据绝大多数是...

什么是大数据时代
答:大数据时代是数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在,却因为来自互联网和信息行业的发展而引起人们关注。进入2012年...

国内大数据需求所面临的典型存储挑战
答:大数据时代,应用使用者的快速增加,对存储并行处理能力提出了更高要求。此外,生产应用虚拟化产生大量随机读取,这就对传统IOPs和时间延迟提出了挑战。2.存储利用率:大数据时代数据量快速增加。如何通过存储容量优化,降低存储容量和网络资源需求,降低数据保护过程对生产环境的性能影响,是控制大数据存储新增...

什么是大数据
答:从技术上讲,大数据和云计算的关系就像硬币的正反面一样密不可分。大数据不能用单台计算机处理,必须采用分布式架构。其特点在于海量数据的分布式数据挖掘。但它必须依赖云计算分布式处理、分布式数据库、云存储和虚拟化技术。扩展信息:大数据只是现阶段互联网的一个表征或特征。没有必要将其神话或保持敬畏。

多大的数据才算“大数据”
答:什么是大数据?列举三个常用的大数据定义:(1)具有较强决策、洞察和流程优化能力的海量、高增长、多样化的信息资产需要新的处理模式。——Gartner (2)海量数据量、快速数据流和动态数据速度、多样的数据类型和巨大的数据价值。—— IDC (3)或者是海量数据、海量数据、大数据,是指所涉及的数据太大,无法...

“大数据” 到底有多大
答:那么“大数据”到底是什么呢?在麦肯锡全球研究所给出的定义中指出:大数据即是一种规模大到在获取,存储,管理,分析方面大大超出了传统数据库软件工具能力范围的数据集合。简单而言大数据是数据多到爆表。大数据的单位一般以PB衡量。那么PB是多大呢?1GB=1024MB ,1PB=1024GB才足以称为大数据。如图:衡量...