快速搭建大數(shù)據(jù)分析虛擬機

| 2022-09-26 admin

Hadoop 發(fā)行版的選擇

大數(shù)據(jù)應用, Hadoop 僅僅是一個基礎(chǔ), 要用起來還需要安裝很多組件, 比如Hive, Mahout, Sqoop, ZooKeeper 等等, 不得不需要考慮各個軟件間兼容性問題: 版本是否兼容,組件是否有沖突,編譯能否通過等, 一大堆事情. 真正要在企業(yè)中要用Hadoop, 一般不推薦直接使用apache hadoop, 使用第三方發(fā)行包最穩(wěn)定/最省事了.

CDH 和 Cloudera Manager 是什么

CDH (Cloudera's Distribution, including Apache Hadoop), 是Cloudera發(fā)行的Hadoop發(fā)行版, 基于Hadoop穩(wěn)定版, 并集成了許多補丁, 可以直接在生產(chǎn)環(huán)境中使用.

Cloudera Manager 是 Cloudera 推出的大數(shù)據(jù)解決方案, 已經(jīng)在安裝/配置/監(jiān)控方面做了大量的工作.它不僅包含CDH, 而且集成了很多常用的組件, 比如 HBASE, Hue, Impala, Kudu, Oozie, Kafka, Sentry, Solr, Spark, YARN, ZooKeeper 等, 它分為兩個版本Cloudera Express 和 Cloudera Enterprise .

Cloudera Express免費使用, Cloudera Enterprise 需要支付費用. Express版本最高支持50個節(jié)點, 而且不限制用到生產(chǎn)環(huán)境, Enterprise版包含一些非常高級的功能以及官方支持, 對于普通用戶來講, Express就足夠了. ?

Cloudera 產(chǎn)品下載和安裝

考慮到網(wǎng)速和墻的因素, 建議離線的方式安裝, 即 Manual Installation Using Cloudera Manager Tarballs安裝方式.

幾個參考文章:

??離線安裝Cloudera Manager 5和CDH5(最新版5.1.3) 完全教程??

??Cloudera Manager 5 和 CDH5 本地(離線)安裝指南??

??CDH5 集群中 Spark 集群模式的安裝過程配置過程??

使用虛擬機搭建體驗大數(shù)據(jù)環(huán)境

使用VM是最快的體驗環(huán)境搭建方式了, Cloudera 提供 QuickStart VM, 我們還有另一個選擇, 即 Oracle Big Data Lite VM.

??VirtualBox 以及 extension pack下載??

??Cloudera quickstart VM 下載頁面?? ??或直接下載鏈接??

??Oracle Big data lite VM下載頁面:??

quickstart VM 配置教程

Cloudera quickstart VM 下載介質(zhì)較小, 不到5GB, Oracle Big data lite VM大多了, 要30GB. 我推薦 Cloudera quickstart VM. Cloudera quickstart VM中的幾個Accounts,

OS:

username: cloudera ,password: cloudera

username: root ,password: cloudera

MySQL:

username: root ,password: cloudera

username: other accounts ,password: cloudera

Hue and Cloudera Manager等服務:

username: cloudera ,password: cloudera

在Oracle VM中, 最重要的東西有:

  • Oracle Enterprise Linux 6.7, 基本上可以等同于CentOS 6.7
  • Oracle Database 12.1, 包括一些大數(shù)據(jù)方面的增強
  • CDH 5.4.7, 挺新的
  • Cloudera Manager 5.4.7

Oracle VM 推薦的最低配置:

  • Host OS 必須是64 bit
  • 分配 2 core
  • 最少 4 GB 內(nèi)存
  • 初始分配50GB硬盤空間, 需打開自動擴展

VirtualBox 配置

在 GuestOS 中安裝增強功能, 步驟:

  1. 點擊 VirtualBox 軟件的菜單 "設備"/"安裝增強功能", VirtualBox將會自動為GuestOS Linux分配一個光驅(qū), 并且將VirtualBox程序目錄的VBoxGuestAdditions.iso掛接到該光驅(qū)上.
  2. 在GuestOS Linux 中, 執(zhí)行如下命令, mount光驅(qū)并安裝增強軟件包.
    mkdir /mnt/cdrom #
    mount /dev/cdrom /mnt/cdrom
    cd /mnt/cdrom
    ./VBoxLinuxAdditions.run #確定沒有failed

VirtualBox虛擬機的網(wǎng)絡設置的注意事項:

  1. VirtualBox虛擬機網(wǎng)絡默認采用NAT(網(wǎng)絡地址轉(zhuǎn)換模式)模式, 在該模式下, 虛擬機可以通過主機來連接上internet網(wǎng)絡, 非常簡單, 我也一直使用這種模式.
  2. 虛擬機和主機關(guān)系:
    只能單向訪問, 虛擬機可以通過網(wǎng)絡訪問到主機, 主機無法通過網(wǎng)絡訪問到虛擬機.
  3. 虛擬機和網(wǎng)絡其他主機的關(guān)系:
    只能單向訪問, 虛擬機訪問到網(wǎng)絡上的其他主機, 但這些主機無法訪問到虛擬機.
  4. 虛擬機和虛擬機的關(guān)系:
    互相不能訪問
  5. NAT模式下, 主機有沒有辦法訪問虛擬機?
    辦法是有的, 通過端口轉(zhuǎn)發(fā)即可, 其實quickstart VM已經(jīng)給我們將VM上常用的大數(shù)據(jù)服務端口作了映射.比如 VM hue 端口 8888, 映射到host的同一端口上了.
    為了防止guest OS和host OS的ssh 22端口沖突, 我將VM的22端口映射到2022, 將VM的Oracle 1521端口映射成主機的2521端口.

安裝python環(huán)境

hdfs client: 我推薦使用 snakebite 這個pure python 版hdfs client 目前還不支持python ?

Anaconda, 因為snakebite 的緣故, 我還是使用 Anaconda Python2.7版本