文章目錄
- ??Volume??
- ??Variety??
- ??Value??
- ??Velocity??
- ??大數(shù)據(jù)的分類??
- ??大數(shù)據(jù)的應(yīng)用領(lǐng)域??
- ??大數(shù)據(jù)帶來的挑戰(zhàn)??
- ??大數(shù)據(jù)的意義??
- ??大數(shù)據(jù)分析??
- ??大數(shù)據(jù)分析的定義??
- ??大數(shù)據(jù)分析的能力體系??
- ??大數(shù)據(jù)產(chǎn)生的根源??
- ??大數(shù)據(jù)分析的技術(shù)基礎(chǔ)??
- ??大數(shù)據(jù)分析技術(shù)的發(fā)展階段??
- ??大數(shù)據(jù)分析的開源框架??
什么是大數(shù)據(jù)
大數(shù)據(jù)(Big Data),指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)的特征
大數(shù)據(jù)的主要特征我們可以用4個V來概括:
- Volume,大數(shù)據(jù)的體量非常巨大
- Variety,種類繁多,大數(shù)據(jù)的來源多種多樣
- Value,大數(shù)據(jù)的價值密度低
- Velocity,我們處理大數(shù)據(jù)的速度要足夠的快
Volume
- 根據(jù)IDC做出的估測,數(shù)據(jù)一直都在以每年50%的速度增長,即兩年增長一倍
- 人類在最近兩年產(chǎn)出的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量
- 人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB
- 歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=1024PB)
- 典型個人計算機硬盤的容量為TB量級
- 一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級
Variety
- 10%為結(jié)構(gòu)化數(shù)據(jù),通常存儲在數(shù)據(jù)庫中
- 90%為非結(jié)構(gòu)化數(shù)據(jù),格式多種多樣
Value
- 以視頻為例,一部1小時的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一二秒,價值密度低,商業(yè)價值高。
Velocity
- 從數(shù)據(jù)的生成到消費,時間窗口非常小,可用于生成決策的時間非常少。
大數(shù)據(jù)的分類
大數(shù)據(jù)的應(yīng)用領(lǐng)域
大數(shù)據(jù)的應(yīng)用領(lǐng)域非常的廣泛,不論是零售、電商、金融等商業(yè)領(lǐng)域,還是制造、能源等工業(yè)領(lǐng)域,大數(shù)據(jù)在各行各業(yè)中都發(fā)揮著非常重要的作用:
大數(shù)據(jù)帶來的挑戰(zhàn)
- 數(shù)據(jù)規(guī)模太大,超出了我們的存儲能力,存儲面臨巨大考驗;
- 數(shù)據(jù)多樣性或異構(gòu)性;
- 數(shù)據(jù)量大,如何做到實時性需求?如果說相應(yīng)的速度太慢,會嚴重影響用戶的體驗,從而造成流失
- 數(shù)據(jù)的價值密度低,這要求我們需要分辨出那些是真正有意義數(shù)據(jù),盡可能的提高效率,去除冗余,使用最有價值的那部分數(shù)據(jù)進行分析
大數(shù)據(jù)的意義
大數(shù)據(jù)對于我們的社會會帶來很多變革,比如說商業(yè)的變革、管理的變革以及思維的變革。
- 大數(shù)據(jù) – 讓經(jīng)營及決策有據(jù)可依
大數(shù)據(jù)可以讓我們深入洞察客戶,實現(xiàn)個性化營銷和服務(wù);可以深入數(shù)據(jù)挖掘,實現(xiàn)預(yù)測性營銷;可以進行全面的數(shù)據(jù)分析,使經(jīng)營決策更科學(xué)。
- 大數(shù)據(jù) – 讓社會管理更智慧
大數(shù)據(jù)使城市管理精細化智能化;使公共服務(wù)個性化智能化;使事件應(yīng)對更高效更智能。
- 大數(shù)據(jù)-改變著我們的思維
大數(shù)據(jù)分析
大數(shù)據(jù)分析的定義
數(shù)據(jù)分析是基于商業(yè)等目的,有目的地進行收集、整理、加工和分析數(shù)據(jù),提煉有價值信息的過程。大數(shù)據(jù)分析即針對海量的、多樣化的數(shù)據(jù)集合的分析。
大數(shù)據(jù)分析的能力體系
大數(shù)據(jù)產(chǎn)生的根源
大數(shù)據(jù)分析的技術(shù)基礎(chǔ)
大數(shù)據(jù)分析技術(shù)的發(fā)展階段
大數(shù)據(jù)分析的開源框架
- 在存儲層, HDFS 已經(jīng)成為了大數(shù)據(jù)磁盤存儲的事實標準,針對關(guān)系型以外的數(shù)據(jù)模型,開源社區(qū)形成了 K-V( key-value)、列式、文檔、圖這四類 NoSQL 數(shù)據(jù)庫體系, Redis、 HBase、 MongoDB、Neo4j 等數(shù)據(jù)庫是各個領(lǐng)域的領(lǐng)先者。
- 在·計算處理引擎方面, Spark已經(jīng)取代 MapReduce 成為了大數(shù)據(jù)平臺統(tǒng)一的計算平臺,在實時計算領(lǐng)域 Flink 是 Spark Streaming 強力的競爭者。
- 在數(shù)據(jù)查詢和分析領(lǐng)域,形成了豐富的 SQL on Hadoop 的解決方案, Hive、 HAWQ、Impala、 Presto、Spark SQL 等技術(shù)與傳統(tǒng)的大規(guī)模并行處理( massively parallel processor, MPP)數(shù)據(jù)庫競爭激烈,目前 Hive 還是這個領(lǐng)域當(dāng)之無愧的王者。
- 在數(shù)據(jù)可視化領(lǐng)域,敏捷商業(yè)智能( business intelligence,BI)分析工具 Tableau、QlikView 通過簡單的拖拽來實現(xiàn)數(shù)據(jù)的復(fù)雜展示,是目前最受歡迎的可視化展現(xiàn)方式。