阿里大數(shù)據(jù)分析概述

大數(shù)據(jù) 分析 阿里 概述 數(shù)據(jù)| 2022-09-05 admin

文章目錄

  • ??大數(shù)據(jù)分析的定義??
  • ??大數(shù)據(jù)分析的能力體系??
  • ??大數(shù)據(jù)產(chǎn)生的根源??
  • ??大數(shù)據(jù)分析的技術(shù)基礎(chǔ)??
  • ??大數(shù)據(jù)分析技術(shù)的發(fā)展階段??
  • ??大數(shù)據(jù)分析的開源框架??

       

    什么是大數(shù)據(jù)

    大數(shù)據(jù)(Big Data),指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

    大數(shù)據(jù)的特征

    大數(shù)據(jù)的主要特征我們可以用4個V來概括:

    • Volume,大數(shù)據(jù)的體量非常巨大
    • Variety,種類繁多,大數(shù)據(jù)的來源多種多樣
    • Value,大數(shù)據(jù)的價值密度低
    • Velocity,我們處理大數(shù)據(jù)的速度要足夠的快

    Volume

    • 根據(jù)IDC做出的估測,數(shù)據(jù)一直都在以每年50%的速度增長,即兩年增長一倍
    • 人類在最近兩年產(chǎn)出的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量
    • 人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB
    • 歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=1024PB)
    • 典型個人計算機硬盤的容量為TB量級
    • 一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級

    Variety

    • 10%為結(jié)構(gòu)化數(shù)據(jù),通常存儲在數(shù)據(jù)庫中
    • 90%為非結(jié)構(gòu)化數(shù)據(jù),格式多種多樣

    Value

    • 以視頻為例,一部1小時的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一二秒,價值密度低,商業(yè)價值高。

    Velocity

    • 從數(shù)據(jù)的生成到消費,時間窗口非常小,可用于生成決策的時間非常少。

    大數(shù)據(jù)的分類

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_數(shù)據(jù)

    大數(shù)據(jù)的應(yīng)用領(lǐng)域

    大數(shù)據(jù)的應(yīng)用領(lǐng)域非常的廣泛,不論是零售、電商、金融等商業(yè)領(lǐng)域,還是制造、能源等工業(yè)領(lǐng)域,大數(shù)據(jù)在各行各業(yè)中都發(fā)揮著非常重要的作用:

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_機器學(xué)習(xí)_02

    大數(shù)據(jù)帶來的挑戰(zhàn)

    • 數(shù)據(jù)規(guī)模太大,超出了我們的存儲能力,存儲面臨巨大考驗;
    • 數(shù)據(jù)多樣性或異構(gòu)性;
    • 數(shù)據(jù)量大,如何做到實時性需求?如果說相應(yīng)的速度太慢,會嚴重影響用戶的體驗,從而造成流失
    • 數(shù)據(jù)的價值密度低,這要求我們需要分辨出那些是真正有意義數(shù)據(jù),盡可能的提高效率,去除冗余,使用最有價值的那部分數(shù)據(jù)進行分析

    大數(shù)據(jù)的意義

    大數(shù)據(jù)對于我們的社會會帶來很多變革,比如說商業(yè)的變革、管理的變革以及思維的變革。

    • 大數(shù)據(jù) – 讓經(jīng)營及決策有據(jù)可依

    大數(shù)據(jù)可以讓我們深入洞察客戶,實現(xiàn)個性化營銷和服務(wù);可以深入數(shù)據(jù)挖掘,實現(xiàn)預(yù)測性營銷;可以進行全面的數(shù)據(jù)分析,使經(jīng)營決策更科學(xué)。

    • 大數(shù)據(jù) – 讓社會管理更智慧

    大數(shù)據(jù)使城市管理精細化智能化;使公共服務(wù)個性化智能化;使事件應(yīng)對更高效更智能。

    • 大數(shù)據(jù)-改變著我們的思維

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_數(shù)據(jù)_03

    大數(shù)據(jù)分析

    大數(shù)據(jù)分析的定義

    數(shù)據(jù)分析是基于商業(yè)等目的,有目的地進行收集、整理、加工和分析數(shù)據(jù),提煉有價值信息的過程。大數(shù)據(jù)分析即針對海量的、多樣化的數(shù)據(jù)集合的分析。

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_大數(shù)據(jù)分析_04

    大數(shù)據(jù)分析的能力體系

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_大數(shù)據(jù)_05

    大數(shù)據(jù)產(chǎn)生的根源

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_數(shù)據(jù)_06

    大數(shù)據(jù)分析的技術(shù)基礎(chǔ)

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_大數(shù)據(jù)分析_07

    大數(shù)據(jù)分析技術(shù)的發(fā)展階段

    阿里大數(shù)據(jù)分析與應(yīng)用(part1)--大數(shù)據(jù)概述_機器學(xué)習(xí)_08

    大數(shù)據(jù)分析的開源框架

    • 存儲層, HDFS 已經(jīng)成為了大數(shù)據(jù)磁盤存儲的事實標準,針對關(guān)系型以外的數(shù)據(jù)模型,開源社區(qū)形成了 K-V( key-value)、列式、文檔、圖這四類 NoSQL 數(shù)據(jù)庫體系, Redis、 HBase、 MongoDB、Neo4j 等數(shù)據(jù)庫是各個領(lǐng)域的領(lǐng)先者。
    • 在·計算處理引擎方面, Spark已經(jīng)取代 MapReduce 成為了大數(shù)據(jù)平臺統(tǒng)一的計算平臺,在實時計算領(lǐng)域 Flink 是 Spark Streaming 強力的競爭者。
    • 數(shù)據(jù)查詢和分析領(lǐng)域,形成了豐富的 SQL on Hadoop 的解決方案, Hive、 HAWQ、Impala、 Presto、Spark SQL 等技術(shù)與傳統(tǒng)的大規(guī)模并行處理( massively parallel processor, MPP)數(shù)據(jù)庫競爭激烈,目前 Hive 還是這個領(lǐng)域當(dāng)之無愧的王者。
    • 數(shù)據(jù)可視化領(lǐng)域,敏捷商業(yè)智能( business intelligence,BI)分析工具 Tableau、QlikView 通過簡單的拖拽來實現(xiàn)數(shù)據(jù)的復(fù)雜展示,是目前最受歡迎的可視化展現(xiàn)方式。