大數(shù)據(jù)環(huán)境下的優(yōu)酷視頻數(shù)據(jù)分析系統(tǒng)

| 2022-09-06 admin

優(yōu)酷視頻網(wǎng)是中國(guó)最具影響力的網(wǎng)絡(luò)媒體和具有全球影響力的中文視頻網(wǎng)站,研究?jī)?yōu)酷視頻標(biāo)題的網(wǎng)絡(luò)抓取技術(shù),研究標(biāo)題語(yǔ)料庫(kù)的數(shù)據(jù)庫(kù)設(shè)計(jì)方法和用戶接口設(shè)計(jì)實(shí)現(xiàn)方法,標(biāo)題語(yǔ)料的字詞處理方法,實(shí)現(xiàn)標(biāo)題語(yǔ)料字詞檢索、增刪改查、統(tǒng)計(jì)、圖表展示等功能。該系統(tǒng)主要研究?jī)?nèi)容可分為三大類:數(shù)據(jù)抓取,數(shù)據(jù)處理以及數(shù)據(jù)展示。

大數(shù)據(jù)環(huán)境下的優(yōu)酷視頻數(shù)據(jù)分析與推薦系統(tǒng)_數(shù)據(jù)挖掘

(1)數(shù)據(jù)抓取,也叫數(shù)據(jù)收集模塊,即優(yōu)酷視頻標(biāo)題的網(wǎng)絡(luò)抓取技術(shù),這是整個(gè)系統(tǒng)的基礎(chǔ)所在,使用Python語(yǔ)言利用網(wǎng)絡(luò)爬蟲(chóng)動(dòng)態(tài)獲取優(yōu)酷網(wǎng)的標(biāo)題,然后對(duì)得到的源視頻標(biāo)題數(shù)據(jù)進(jìn)行人工處理,構(gòu)建優(yōu)酷網(wǎng)標(biāo)題語(yǔ)料庫(kù),insert語(yǔ)句插入搜索結(jié)果內(nèi)容,create語(yǔ)句創(chuàng)建數(shù)據(jù)庫(kù)表格等內(nèi)容。

(2)數(shù)據(jù)處理:標(biāo)題語(yǔ)料庫(kù)的數(shù)據(jù)庫(kù)設(shè)計(jì)方法和用戶接口設(shè)計(jì)實(shí)現(xiàn)方法,標(biāo)題語(yǔ)料的字詞處理方法,和對(duì)數(shù)據(jù)庫(kù)內(nèi)容的增刪改查;

數(shù)據(jù)庫(kù)設(shè)計(jì):以表格Table形式存儲(chǔ),存儲(chǔ)至少包括所抽取的標(biāo)題內(nèi)容,標(biāo)題關(guān)鍵字,抽取次數(shù),文章瀏覽次數(shù),原文鏈接等,查詢結(jié)果創(chuàng)建接口顯示視圖View,數(shù)據(jù)增加主要通過(guò)爬蟲(chóng)獲取,盡量避免人工獲取,可以人為刪除,修改無(wú)效標(biāo)題內(nèi)容,查詢功能主要是在數(shù)據(jù)展示模塊。

(3)數(shù)據(jù)展示:可以根據(jù)關(guān)鍵詞搜索查詢完整的標(biāo)題,或者查詢同一關(guān)鍵詞在某時(shí)間段的出現(xiàn)次數(shù),幫助用戶更快的了解當(dāng)前熱點(diǎn)話題,也可以顯示網(wǎng)址讓用戶自己去了解文章具體內(nèi)容。后臺(tái)使用select/from/ where條件語(yǔ)句查詢信息,通過(guò)視圖View顯示給用戶,展示形式包括表格,或者圖表;

在展示模塊,會(huì)在后臺(tái)統(tǒng)計(jì)用戶搜索的關(guān)鍵詞,同步記錄進(jìn)相關(guān)關(guān)鍵詞的搜索次數(shù)。

已具備的實(shí)驗(yàn)條件

實(shí)驗(yàn)環(huán)境:Python編程語(yǔ)言實(shí)現(xiàn)爬蟲(chóng)抓取數(shù)據(jù),virtual code開(kāi)發(fā)工具,采用python實(shí)現(xiàn)界面設(shè)計(jì),數(shù)據(jù)庫(kù)sqlite;

實(shí)驗(yàn)數(shù)據(jù):優(yōu)酷視頻網(wǎng)。

關(guān)鍵技術(shù)

前端采用: vue+elementui后端: python+django框架,使用Scrapy框架爬取優(yōu)酷視頻頁(yè)面數(shù)據(jù), 使用了Twisted 異步網(wǎng)絡(luò)框架,可以加快我們的下載速度,使用Pandas進(jìn)行數(shù)據(jù)的清洗。數(shù)據(jù)可視化分析使用ECharts,底層依賴輕量級(jí)的矢量圖形庫(kù) ZRender,提供直觀,交互豐富,可高度個(gè)性化定制的數(shù)據(jù)可視化圖表。用于提升數(shù)據(jù)可讀性,將優(yōu)酷視頻數(shù)據(jù)可視化后圖表形式在Django中展示,可以讓用戶更加明顯的觀察到數(shù)據(jù)背后的規(guī)律等

大數(shù)據(jù)環(huán)境下的優(yōu)酷視頻數(shù)據(jù)分析與推薦系統(tǒng)_搜索_02

預(yù)期目標(biāo)

通過(guò)設(shè)計(jì)數(shù)據(jù)庫(kù)以及網(wǎng)絡(luò)爬蟲(chóng)抓取數(shù)據(jù)形成一個(gè)相對(duì)完整的標(biāo)題語(yǔ)料庫(kù),實(shí)現(xiàn)基本的數(shù)據(jù)庫(kù)功能,以及對(duì)優(yōu)酷視頻標(biāo)題的歸類總結(jié),最大化的方便用戶搜索優(yōu)酷視頻。

實(shí)驗(yàn)方案的可行性

1、技術(shù)可行性:當(dāng)前優(yōu)酷視頻網(wǎng)頁(yè)結(jié)構(gòu)主要分為目錄型和詳情型,兩者之間的連接橋梁是同一條視頻的URL(uniform resource locator)即互聯(lián)網(wǎng)地址必須相同,由此已經(jīng)開(kāi)始提出并使用了現(xiàn)在通用的網(wǎng)頁(yè)視頻標(biāo)題自動(dòng)抽取算法。在該方法的基礎(chǔ)上,實(shí)現(xiàn)標(biāo)題語(yǔ)料庫(kù)的設(shè)計(jì)上技術(shù)是可行的;

2、經(jīng)濟(jì)可行性:設(shè)計(jì)過(guò)程中所用到的代碼基本都是開(kāi)源的,不需要經(jīng)費(fèi)支持,具有經(jīng)濟(jì)可行性;

3、社會(huì)可行性:該系統(tǒng)的設(shè)計(jì)不違背法律法規(guī),不違背社會(huì)道德,而且是為了方便用戶,因此具有社會(huì)可行性。