時間:2023-03-17 18:06:14
序論:在您撰寫大數(shù)據(jù)技術(shù)時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導您走向新的創(chuàng)作高度。
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)處理 相關(guān)技術(shù)
中圖分類號:TP334 文獻標識碼:A 文章編號:1674-098X(2014)02(a)-0048-01
“大數(shù)據(jù)”是從英語“Big Data”一詞翻譯而來的,是當前IT界熱議和追逐的對象,是繼物聯(lián)網(wǎng)、云計算技術(shù)后世界又一熱議的信息技術(shù),發(fā)展迅速。截至2011年年底,全球互聯(lián)網(wǎng)總數(shù)據(jù)存儲量已達100億TB以上,并且以59%以上的年增長率遞增。麥肯錫公司在2011年的報告(Bigdata:the Next FrontierforInnovation)中,對這種密集型數(shù)據(jù)爆炸的現(xiàn)象稱為“大數(shù)據(jù)”時代的到來。大數(shù)據(jù)領(lǐng)域出現(xiàn)的許多新技術(shù),是大數(shù)據(jù)采集、存儲、處理和呈現(xiàn)的有力武器。
1 大數(shù)據(jù)概念
大數(shù)據(jù)概念的前身是海量數(shù)據(jù),但兩者有很大的區(qū)別。海量數(shù)據(jù)主要強調(diào)了數(shù)據(jù)量的規(guī)模,對其特性并沒有特別關(guān)注。而大數(shù)據(jù)對傳播速率、體積、特征等數(shù)據(jù)的各種特性進行了描述。目前對大數(shù)據(jù)最廣泛的定義是:大數(shù)據(jù)是無法在一定時間內(nèi)用通常的軟件工具進行收集、分析、管理的大量數(shù)據(jù)的集合。大數(shù)據(jù)的特點一般用“4V”概括,即:Volume:數(shù)據(jù)量大,目前大數(shù)據(jù)的最小單位一般被認為是10~20TB的量級;Variety:數(shù)據(jù)類型多,包括了結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù);value:數(shù)據(jù)的價值密度很低;velocity:數(shù)據(jù)產(chǎn)生和處理的速度非常快。
2 大數(shù)據(jù)相關(guān)技術(shù)
2.1 大數(shù)據(jù)處理通用技術(shù)架構(gòu)
大數(shù)據(jù)的基本處理流程與傳統(tǒng)數(shù)據(jù)處理流程的主要區(qū)別在于:由于大數(shù)據(jù)要處理大量、非結(jié)構(gòu)化的數(shù)據(jù),所以在各個處理環(huán)節(jié)中都可以采用并行處理。目前,MapReduce等分布式處理方式已經(jīng)成為大數(shù)據(jù)處理各環(huán)節(jié)的通用處理方法。
MapReduce分布式方法最先由谷歌設(shè)計并實現(xiàn),包括分布式文件系統(tǒng)GFS、MapReduce分布式編程環(huán)境以及分布式大規(guī)模數(shù)據(jù)庫管理系統(tǒng)Bigrable。MapReduce是一套軟件框架,包括Map和Reduce兩個階段,可以進行海量數(shù)據(jù)分割、任務(wù)分解與結(jié)果匯總,從而完成海量數(shù)據(jù)的并行處理。MapReduce的工作原理是先分后合的數(shù)據(jù)處理方式。Map即“分解”,把海量數(shù)據(jù)分割成若干部分,分給多臺處理器并行處理;Reduce即“合并”,把各臺處理器處理后的結(jié)果進行匯總操作,以得到最終結(jié)果。用戶只需要提供自己的Map函數(shù)以及Reduce函數(shù)就可以在集群上進行大規(guī)模的分布式數(shù)據(jù)處理。MapReduce將處理任務(wù)分配到不同的處理節(jié)點,因此具有更強的并行處理能力。
2.2 大數(shù)據(jù)采集
大數(shù)據(jù)的采集是指利用數(shù)據(jù)庫等方式接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù)。大數(shù)據(jù)采集的主要特點是并發(fā)訪問量大,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網(wǎng)站的并發(fā)訪問量在峰值時達到上百萬,這時傳統(tǒng)的數(shù)據(jù)采集工具很容易失效。大數(shù)據(jù)采集方法主要包括:系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)庫采集、其他數(shù)據(jù)采集等四種。
2.3 大數(shù)據(jù)分享
目前數(shù)據(jù)分享主要通過數(shù)據(jù)集市和開放數(shù)據(jù)平臺等方法實現(xiàn)。開放數(shù)據(jù)平臺可以提供涵蓋本地服務(wù)、娛樂、教育和醫(yī)療等方方面面的數(shù)據(jù)集合,用戶不但可以通過API訪問,還可以很方便地通過SDK集成到移動應(yīng)用當中。在線數(shù)據(jù)集市除了提供下載數(shù)據(jù)的功能外,還為用戶提供上傳和交流數(shù)據(jù)的場所。數(shù)據(jù)平臺和數(shù)據(jù)集市不但吸引有數(shù)據(jù)需求用戶,還能夠吸引很多數(shù)據(jù)開發(fā)者在平臺上進行開發(fā)。
2.4 大數(shù)據(jù)預處理
數(shù)據(jù)預處理就是對采集的數(shù)據(jù)進行清洗、填補、平滑、合并、規(guī)格化以及檢查一致性等處理,并對數(shù)據(jù)的多種屬性進行初步組織,從而為數(shù)據(jù)的存儲、分析和挖掘做好準備。通常數(shù)據(jù)預處理包含三個部分:數(shù)據(jù)清理、數(shù)據(jù)集成和變換和數(shù)據(jù)規(guī)約。
2.5 大數(shù)據(jù)存儲及管理
大數(shù)據(jù)需要行之有效的存儲和管理,否則人們不能處理和利用數(shù)據(jù),更不能從數(shù)據(jù)中得到有用的信息。目前,大數(shù)據(jù)的存儲和管理技術(shù)主要分三類:分布式文件系統(tǒng)、數(shù)據(jù)倉庫和非關(guān)系型數(shù)據(jù)庫(NoSOL)。
2.6 大數(shù)據(jù)分析及挖掘
大數(shù)據(jù)的分析和挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、數(shù)據(jù)挖掘、統(tǒng)計學、數(shù)據(jù)庫等技術(shù),高度自動化地分析大數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,從而在大數(shù)據(jù)中提取有用信息。大數(shù)據(jù)的分析和挖掘與傳統(tǒng)的數(shù)據(jù)挖掘比較有兩個特點:一是通常采用并行處理的方式;二是大數(shù)據(jù)分析對實時處理的要求很高,流處理等實時處理技術(shù)受到人們歡迎。常用的方法有:機器學習、數(shù)據(jù)挖掘、模式識別、統(tǒng)計分析、并行處理。
2.7 大數(shù)據(jù)檢索
①數(shù)據(jù)庫實時檢索:在數(shù)據(jù)倉庫或者NoSOL等大數(shù)據(jù)存儲平臺上,或者多個不同結(jié)構(gòu)的數(shù)據(jù)存儲平臺之間快速、實時地查詢和檢索不同結(jié)構(gòu)的數(shù)據(jù)。②實時搜索引擎:對互聯(lián)網(wǎng)上的大量數(shù)據(jù)和信息進行即時、快速搜索,實現(xiàn)即搜即得的效果。目前各大搜索引擎都在致力于實時搜索的實現(xiàn)。
2.8 大數(shù)據(jù)可視化
可以提供更為清晰直觀的數(shù)據(jù)感官,將錯綜復雜的數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系,通過圖片、映射關(guān)系或表格,以簡單、友好、易用的圖形化、智能化的形式呈現(xiàn)給用戶供其分析使用,可通過數(shù)據(jù)訪問接口或商業(yè)智能門戶實現(xiàn),通過直觀的方式表達出來。可視化與可視分析通過交互可視界面來進行分析、推理和決策;從海量、動態(tài)、不確定甚至相互沖突的數(shù)據(jù)中整合信息,獲取對復雜情景的更深層的理解;可供人們檢驗已有預測,探索未知信息,同時提供快速、可檢驗、易理解.的評估和更有效的交流手段??梢暬侨藗兝斫鈴碗s現(xiàn)象,診釋復雜數(shù)據(jù)的重要手段和途徑。
2.9 大數(shù)據(jù)應(yīng)用
①視頻搜索;②內(nèi)容分析;③理賠分析;④社交網(wǎng)絡(luò)分析;⑤社會分析;⑥社交媒體監(jiān)控。
2.10 大數(shù)據(jù)安全
關(guān)鍵詞: 大數(shù)據(jù); 4V特征; Hadoop; 云計算
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2015)01-13-02
Overview on big data technology
Yang Jing
(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)
Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.
Key words: big data; 4V characteristics; Hadoop; cloud computing
0 引言
物聯(lián)網(wǎng)、云計算等新興技術(shù)的迅速發(fā)展開啟了大數(shù)據(jù)時代的帷幕。大數(shù)據(jù)技術(shù)是指從各種各樣的海量數(shù)據(jù)中,快速獲取有價值信息的技術(shù),大數(shù)據(jù)的核心問題就是大數(shù)據(jù)技術(shù)。目前所說的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模大,還包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)復雜程度大。大數(shù)據(jù)的研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,解決實際生產(chǎn)、生活中的各種問題,從而推動信息技術(shù)健康地可持續(xù)發(fā)展。
1 大數(shù)據(jù)的定義及主要特征
與其他新興學科一樣,目前大數(shù)據(jù)沒有一個統(tǒng)一的標準和定義。一般認為:大數(shù)據(jù)是由大量異構(gòu)數(shù)據(jù)組成的數(shù)據(jù)集合,可以應(yīng)用合理的數(shù)學算法或工具從中找出有價值的信息,并為人們帶來經(jīng)濟及社會效益的一門新興學科。大數(shù)據(jù)又被稱為海量數(shù)據(jù)、大資料、巨量數(shù)據(jù)等,指的是所涉及的數(shù)據(jù)量規(guī)模巨大,以至于無法在合理時間內(nèi)通過人工攫取、管理、處理并整理成為人類所能解讀的信息。這些數(shù)據(jù)來自方方面面,比如社交網(wǎng)絡(luò)、傳感器采集、安防監(jiān)控視頻、購物交易記錄等。盡管尚無統(tǒng)一定義,但這些無比龐大的數(shù)據(jù)被稱為大數(shù)據(jù)。大數(shù)據(jù)具有如下4V特性[1]:
⑴ 體量Volume,是指數(shù)據(jù)存儲量大,計算量大;
⑵ 多樣Variety,是指大數(shù)據(jù)的異構(gòu)和多樣性,比如數(shù)據(jù)來源豐富,數(shù)據(jù)格式包括多種不同形式,如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等;
⑶ 價值Value,是指大數(shù)據(jù)價值密度相對較低,信息海量,但是要挖掘出真正有價值的數(shù)據(jù)難度較大,浪里淘沙卻又彌足珍貴;
⑷ 速度Velocity,是指數(shù)據(jù)增長速度快,處理速度要求快。
2 大數(shù)據(jù)技術(shù)的應(yīng)用領(lǐng)域
通過對海量數(shù)據(jù)進行采集、分析與處理,挖掘出潛藏在數(shù)據(jù)海洋里的稀疏但卻彌足珍貴的信息,大數(shù)據(jù)技術(shù)正在對經(jīng)濟建設(shè)、醫(yī)療教育、科學研究等領(lǐng)域產(chǎn)生著革命性的影響,其所帶來的巨大使用價值正逐漸被各行各業(yè)的人們所感知。
2.1 金融領(lǐng)域
大數(shù)據(jù)的火熱應(yīng)用突出體現(xiàn)在金融業(yè),各大互聯(lián)網(wǎng)企業(yè)(谷歌、阿里巴巴等)紛紛掘金大數(shù)據(jù),開創(chuàng)了新的互聯(lián)網(wǎng)金融模式。目前阿里巴巴的互聯(lián)網(wǎng)金融做得如火如荼:基金、小額信貸、余額寶和理財保險產(chǎn)品等等,阿里巴巴之所以能夠做火金融服務(wù),其主要原因就在于阿里的大數(shù)據(jù),阿里巴巴的電商平臺存儲了大量微小企業(yè)客戶及數(shù)以億計的個人用戶行為信息、交易記錄、身份數(shù)據(jù)等,擁有最好、最全的數(shù)據(jù)以及最完整的產(chǎn)業(yè)鏈,做P2P及個人小額信貸,具有最大優(yōu)勢[2]。相反,傳統(tǒng)商業(yè)銀行早期就已推出的小額信貸業(yè)務(wù),開展得并不十分順利。
2.2 市場營銷
今天的數(shù)字化營銷與傳統(tǒng)市場營銷最大的區(qū)別就在于精準定位及個性化。如今企業(yè)與客戶的交流渠道發(fā)生了革命性的變化,從過去的電話及郵件,發(fā)展到今天的博客、論壇、社交媒體賬戶等,從這些五花八門的渠道里跟蹤客戶,將他們的每一次點擊、加好友、收藏、轉(zhuǎn)發(fā)、分享等行為納入到企業(yè)的銷售漏斗中并轉(zhuǎn)化成一項巨大的潛在價值,就是所謂的360度客戶視角。例如谷歌的銷售策略主要著眼于在線的免費軟件,用戶使用這些軟件時,無形中就把個人的喜好、消費習慣等重要信息提交給了谷歌,因此谷歌的產(chǎn)品線越豐富,他們對用戶的理解就越深入,其廣告定位就越精準,廣告所攫取的價值就越高,這是正向的循環(huán)。
2.3 公眾服務(wù)
大數(shù)據(jù)的另一大應(yīng)用領(lǐng)域是公眾服務(wù)。如今數(shù)據(jù)挖掘已經(jīng)能夠預測海嘯、地震、疾病暴發(fā),理解交通模型并改善醫(yī)療和教育等。例如,可采用神經(jīng)網(wǎng)絡(luò)和基于地震時間序列的支持向量機方法來預測地震的大概方位、時間、震級大小等重要信息,為通用地震模擬程序提供關(guān)鍵的數(shù)據(jù),從而對地震進行早期預警,以使防震抗災(zāi)部門可以提前做好應(yīng)對措施,避免大量的人員傷亡及財產(chǎn)損失;再如,將各個省市的城鎮(zhèn)醫(yī)療系統(tǒng)、新農(nóng)村合作醫(yī)療系統(tǒng)等全部整合起來,建立通用的電子病歷等基礎(chǔ)數(shù)據(jù)庫,實現(xiàn)醫(yī)院之間對病患信息的共享,提高患者就醫(yī)效率[3];電力管理系統(tǒng)通過記錄人們的用電行為信息(做飯、照明、取暖等),大數(shù)據(jù)智能電網(wǎng)就能實現(xiàn)優(yōu)化電的生產(chǎn)、分配及電網(wǎng)安全檢測與控制,包括大災(zāi)難預警與處理、供電與電力調(diào)度決策支持和更準確的用電量預測等,并通過數(shù)據(jù)挖掘技術(shù)找出可行的節(jié)能降耗措施,以實現(xiàn)更科學的電力需求分配管理。
2.4 安防領(lǐng)域
安防領(lǐng)域中最重要的就是視頻監(jiān)控系統(tǒng),從早期看得見到現(xiàn)在看得遠、看得清,視頻監(jiān)控是典型的數(shù)據(jù)依賴型業(yè)務(wù),依賴數(shù)據(jù)說話。尤其是高清、超高清監(jiān)控時代的到來,會產(chǎn)生巨量的視頻數(shù)據(jù)。這些巨量視頻監(jiān)控數(shù)據(jù)中,多數(shù)是冗余無用的,只有少數(shù)是關(guān)鍵數(shù)據(jù),如何剔除這些無用數(shù)據(jù),一直是人們研究問題的焦點。在大數(shù)據(jù)技術(shù)的支撐下,通過對巨量視頻數(shù)據(jù)的分析與處理,可實現(xiàn)模糊查詢、精準定位、快速檢索等,能夠?qū)Ω咔灞O(jiān)控視頻畫質(zhì)進行細節(jié)分析,智能挖掘出類似行為及特征的數(shù)據(jù),從而為業(yè)務(wù)分析和事件決策判斷提供精準依據(jù)。
3 大數(shù)據(jù)處理關(guān)鍵技術(shù)
3.1 數(shù)據(jù)備份技術(shù)
在大數(shù)據(jù)時代,如何做好數(shù)據(jù)的安全備份至關(guān)重要。數(shù)據(jù)備份是數(shù)據(jù)容災(zāi)的前提,具體是指當出現(xiàn)某種突發(fā)狀況導致存儲系統(tǒng)中的文件、數(shù)據(jù)、片段丟失或者嚴重損壞時,系統(tǒng)可準確而快速地將數(shù)據(jù)進行恢復的技術(shù)。數(shù)據(jù)容災(zāi)備份是為防止偶發(fā)事件而采取的一種數(shù)據(jù)保護手段,其核心工作是數(shù)據(jù)恢復,根本目的是數(shù)據(jù)資源再利用。
3.2 Hadoop
大數(shù)據(jù)時代對于數(shù)據(jù)分析、管理等都提出了更高層次的要求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)分析處理技術(shù)已經(jīng)不能滿足大數(shù)據(jù)橫向擴展的需求。為了給大數(shù)據(jù)處理、分析提供一個性能更好、可靠性更高的平臺,Apache基金會開發(fā)了一個開源平臺Hadoop[4],該平臺用Java語言編寫,可移植性強,現(xiàn)在Hadoop已經(jīng)發(fā)展為一個包括HDFS(分布式文件系統(tǒng) )、HBase(分布式數(shù)據(jù)庫)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),成為目前主流的大數(shù)據(jù)應(yīng)用平臺。
3.3 云計算
如果把各種各樣的大數(shù)據(jù)應(yīng)用比作在公路上行駛的各種汽車,那么支撐這些汽車快速運行的高速公路就是云計算,云計算是大數(shù)據(jù)分析處理技術(shù)的核心。正是由于云計算在海量信息存儲、分析及管理方面的技術(shù)支持,大數(shù)據(jù)才有了如此廣闊的用武之地。谷歌的各種大數(shù)據(jù)處理技術(shù)和應(yīng)用平臺都是基于云計算,最典型的就是以UFS(UIT云存儲系統(tǒng))、MapReduce(批處理技術(shù))、BigTable(分布式數(shù)據(jù)庫)為代表的大數(shù)據(jù)處理技術(shù)以及在此基礎(chǔ)上產(chǎn)生的開源數(shù)據(jù)處理平臺Hadoop[5]。
4 大數(shù)據(jù)應(yīng)用帶來的信息安全隱患及應(yīng)對策略
大數(shù)據(jù)時代,海量數(shù)據(jù)通常存儲在大規(guī)模分布式的網(wǎng)絡(luò)節(jié)點中,管理相對分散,而且系統(tǒng)也無法控制用戶進行數(shù)據(jù)交易的場所,因此很難辨別用戶的身份(合法及非法用戶),容易導致不合法用戶篡改或竊取信息;此外,大數(shù)據(jù)存儲系統(tǒng)中包含了海量的個人用戶隱私數(shù)據(jù)及各種行為的記錄信息,如何在大數(shù)據(jù)的挖掘利用中確定一個信息保護和開放的尺度, 是大數(shù)據(jù)面臨的又一難題。為了合理利用大數(shù)據(jù)并有效規(guī)避風險,我們提出以下四點建議:
⑴ 國家出臺相關(guān)政策,加強頂層設(shè)計,保障數(shù)據(jù)存儲安全;
⑵ 增強網(wǎng)絡(luò)安全防護能力,抵御網(wǎng)絡(luò)犯罪,確保網(wǎng)絡(luò)信息安全;
⑶ 提高警惕積極探索,加大個人隱私數(shù)據(jù)保護力度;
⑷ 深化云計算安全領(lǐng)域研究,保障云端數(shù)據(jù)安全。
5 結(jié)束語
在當今信息知識爆炸的時代,大數(shù)據(jù)技術(shù)已經(jīng)被廣泛應(yīng)用于商業(yè)金融、電力醫(yī)療、教育科研等領(lǐng)域。隨著數(shù)據(jù)挖掘技術(shù)的不斷進步,相關(guān)信息行業(yè)競相從規(guī)模龐大、結(jié)構(gòu)復雜的大數(shù)據(jù)海洋中攫取更多有價值的數(shù)據(jù)信息用于分析、解決現(xiàn)實生活中的各種實際問題,從而實現(xiàn)信息技術(shù)的快速健康發(fā)展。本文梳理了大數(shù)據(jù)的基本概念及4V特征,總結(jié)歸納了大數(shù)據(jù)技術(shù)的四大熱門應(yīng)用領(lǐng)域及三大核心處理技術(shù),分析了大數(shù)據(jù)技術(shù)帶來的諸如信息竊取及篡改、個人隱私數(shù)據(jù)泄露等信息安全隱患,并提出了相應(yīng)的解決措施及建議。當然,目前大數(shù)據(jù)技術(shù)的研究尚處在起步階段,還有許多深層次的問題亟待解決,如大數(shù)據(jù)的存儲管理是通過硬件的簡單升級還是通過系統(tǒng)的重新設(shè)計來解決,大數(shù)據(jù)4V特征中起關(guān)鍵作用的是什么,大數(shù)據(jù)技術(shù)的應(yīng)用前景是什么,等等。就目前來看,未來大數(shù)據(jù)技術(shù)的研究之路還很長,需要我們用更加敏銳的洞察力來分析和研究。
參考文獻:
[1] BARWICK H. The "four Vs" of big data. Implementing Information
Infrastructure Symposium[EB/OL]. [2012-10-02]. http://.au/article/396198/iiis_four_vs_big_data/.
[2] 韋雪瓊,楊嘩,史超.大數(shù)據(jù)發(fā)展下的金融市場新生態(tài)[Jl.時代金融,
2012.7:173-174
[3] 張敬誼,佘盼,肖筱華.基于云計算的區(qū)域醫(yī)療信息化服務(wù)平臺的研
究[J].計算機科學,2013.40(10):360-365
1.1 大數(shù)據(jù)及其影響
大數(shù)據(jù)(Big Data)是目前最重要的科學、技術(shù)和社會話題。借用IDC數(shù)據(jù)公司的定義:“大數(shù)據(jù)是一種新一代的技術(shù)和架構(gòu),具備高效率的捕捉、發(fā)現(xiàn)和分析能力,能夠經(jīng)濟地從類型繁雜、數(shù)量龐大的數(shù)據(jù)中挖掘出色價值。”
大數(shù)據(jù)定義有著如下的基本前提和含義。
① 大量的數(shù)據(jù):大數(shù)據(jù)概念源于數(shù)據(jù)的爆炸性增長。用世界著名的咨詢公司高德納(Gartner)研究報告的描述:“同一類型的數(shù)據(jù)量快速增長;數(shù)據(jù)增長速度的加快;數(shù)據(jù)多樣性、新數(shù)據(jù)來源和新數(shù)據(jù)種類的不斷增加。”
② 多種類型數(shù)據(jù)積累:新的數(shù)據(jù)存儲和數(shù)據(jù)采集的技術(shù)發(fā)展使巨量數(shù)據(jù)的采集、收集、存儲成為可能。網(wǎng)絡(luò)技術(shù)、移動設(shè)備、數(shù)字傳感器、數(shù)碼攝影/攝像、監(jiān)控影像、衛(wèi)星定位系統(tǒng)、遙感技術(shù)、氣候和環(huán)境監(jiān)測技術(shù)等等,每時每刻都在各種形式、各種類型的大量數(shù)據(jù)。
③ 計算技術(shù)的進步與發(fā)展:現(xiàn)代計算技術(shù)、網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)和數(shù)據(jù)庫處理技術(shù)等可以處理各種形式的海量數(shù)據(jù),產(chǎn)生出大量的高附加值的數(shù)據(jù)、結(jié)果、狀態(tài)和知識。
④ 數(shù)據(jù)處理能力成為戰(zhàn)略能力:數(shù)據(jù)量的激增、數(shù)據(jù)類型的多樣、技術(shù)平臺對數(shù)據(jù)的綜合處理,造成了知識邊界擴展、知識價值提升、知識衍生能力加快,它極大地影響到了企業(yè)、個人、社會和政府的決策,極大地促進了社會生產(chǎn)力的發(fā)展,使掌握大數(shù)據(jù)技術(shù)者獲得了競爭優(yōu)勢和難于模仿的核心競爭力。因此,大數(shù)據(jù)技術(shù)也成為了國家的核心戰(zhàn)略資源。
大數(shù)據(jù)的含義廣博、技術(shù)領(lǐng)域廣泛、技術(shù)平臺多樣、作用效果巨大、影響意義深遠。理解大數(shù)據(jù)的理論、方法和架構(gòu),適應(yīng)大數(shù)據(jù)的變革與發(fā)展,分享大數(shù)據(jù)所帶來的種種便利和收益,便能夠在大數(shù)據(jù)時代占領(lǐng)先機。
1.2 大數(shù)據(jù)對數(shù)據(jù)庫技術(shù)的影響
大數(shù)據(jù)的宗旨是處理數(shù)據(jù),數(shù)據(jù)庫技術(shù)自然占據(jù)核心地位。而大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫技術(shù)也具有明顯的特殊性。
1.2.1 大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理技術(shù)面臨的新特點
數(shù)據(jù)量宏大。對數(shù)據(jù)庫技術(shù)影響最大、最直接的方面莫過于數(shù)據(jù)的爆炸性增長。即使先不考慮數(shù)據(jù)類型的變化,需要處理的數(shù)據(jù)從MB擴展到GB,現(xiàn)在再擴展到TB,不遠的將來數(shù)據(jù)庫將經(jīng)常面對PB量級的數(shù)據(jù),這必然對數(shù)據(jù)庫的硬件架構(gòu)、數(shù)據(jù)庫系統(tǒng)結(jié)構(gòu)和數(shù)據(jù)庫應(yīng)用產(chǎn)生重大的影響。
數(shù)據(jù)形式多樣。另外一個對數(shù)據(jù)庫技術(shù)產(chǎn)生重要影響的因子是數(shù)據(jù)的多樣化,傳統(tǒng)數(shù)字、圖像、照片、影像、聲音等多種數(shù)據(jù)資源需要進行處理,并且和傳統(tǒng)關(guān)系式數(shù)據(jù)不同的,許多數(shù)據(jù)格式中的有價值數(shù)據(jù)并不多,例如多張圖片定對象的變化,連續(xù)視頻影像中對特殊對象的跟蹤等等,其數(shù)據(jù)抽取方式、過濾方法和存儲、計算方式均有別于傳統(tǒng)數(shù)據(jù)庫。
單機或小型局域網(wǎng)的數(shù)據(jù)庫處理無法滿足。當前,數(shù)據(jù)量爆炸式增長,數(shù)據(jù)類型日趨多樣,傳統(tǒng)關(guān)系數(shù)據(jù)庫的處理能力已難于滿足,需要新的數(shù)據(jù)庫處理技術(shù)。
傳統(tǒng)的并行數(shù)據(jù)庫的靈活性具有局限性。并行數(shù)據(jù)庫系統(tǒng)取得了輝煌的成績,但是它的靈活性不佳,彈性受限,系統(tǒng)規(guī)模的收縮或擴展成本非常高。這樣的系統(tǒng)適合于“相對固定結(jié)構(gòu)”的計算結(jié)構(gòu),例如機銀行業(yè)務(wù)管理系統(tǒng)或城市交通管理系統(tǒng)等。
結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化形式并存。讓數(shù)據(jù)庫有能力處理這些半結(jié)構(gòu)化和非結(jié)構(gòu)化(有時不作區(qū)分)數(shù)據(jù)變成了新型數(shù)據(jù)庫技術(shù)的一項迫切要求。
對結(jié)果要求的模糊化。在大數(shù)據(jù)的時代,計算技術(shù)不僅限于回答“是/非”問題,而是需要更多的模糊化結(jié)果。例如,流感有很可能在一周后流行、近期可能發(fā)生5級左右地震、近一周國際往返機票將上漲……這些答案并不精確,但足以指導人們的活動。非結(jié)構(gòu)化數(shù)據(jù)的處理結(jié)果常常是給出模糊化的答案。
新數(shù)據(jù)庫技術(shù)的出現(xiàn)與挑戰(zhàn)。新需求的出現(xiàn),促使了新技術(shù)的產(chǎn)生,為處理非結(jié)構(gòu)化數(shù)據(jù),Apache、Google、Amazon等公司分別開發(fā)了適應(yīng)各自需要的新型數(shù)據(jù)庫系統(tǒng),相關(guān)的專家經(jīng)過分析和總結(jié)提出了NoSQL的設(shè)計理念,并創(chuàng)建了許多成功的產(chǎn)品。
1.2.2 新型數(shù)據(jù)庫技術(shù)的特點
與傳統(tǒng)數(shù)據(jù)庫技術(shù)相比較,新型數(shù)據(jù)庫技術(shù)具有一些明顯的特點,具體如下:
可處理的數(shù)據(jù)總量和數(shù)據(jù)類型增加。不再為數(shù)據(jù)結(jié)構(gòu)化或數(shù)據(jù)代表性而人為地選取部分數(shù)據(jù)或進行數(shù)據(jù)抽樣;不再靠樣本規(guī)模的大小來控制結(jié)果的置信區(qū)間和置信度。新的數(shù)據(jù)庫處理技術(shù)試圖利用“全部數(shù)據(jù)”,完成對結(jié)果的計算和推斷。
使用更多的非結(jié)構(gòu)化數(shù)據(jù),而不是片面地強調(diào)全部使用結(jié)構(gòu)化數(shù)據(jù)。在非結(jié)構(gòu)化的高復雜度、高數(shù)據(jù)量、多種數(shù)據(jù)類型的情況下,允許結(jié)論和結(jié)果的“不精確”,允許追求“次優(yōu)解”。體現(xiàn)大數(shù)據(jù)技術(shù)“以概率說話”的特點。
不再試圖避免或降低數(shù)據(jù)的混雜性,而是把“使用全部數(shù)據(jù)”作為追求“次優(yōu)解”的途徑。即在復雜、混亂、無結(jié)構(gòu)化與確定、規(guī)整、結(jié)構(gòu)化數(shù)據(jù)之間做出平衡。
在遇到“使用全部數(shù)據(jù),得出模糊化結(jié)果”與“實用部分數(shù)據(jù),得出準確結(jié)論”的選擇時,新型數(shù)據(jù)庫技術(shù)一般會選擇前者,從一個更全面的角度利用更多的數(shù)據(jù)資源去尋找答案。
科學地在因果關(guān)系與相關(guān)關(guān)系中做出抉擇。如果數(shù)據(jù)總體支持因果關(guān)系的判別和斷言,則像傳統(tǒng)數(shù)據(jù)庫那樣提供因果關(guān)系斷語;如果數(shù)據(jù)計算量宏大、成本高昂或條件不具備,則把關(guān)注點由“因果關(guān)系”調(diào)整為“相關(guān)關(guān)系”——將追求“最優(yōu)解”變?yōu)樽非蟆按蝺?yōu)解”或“模糊解”。自然地,這種相關(guān)關(guān)系的選擇不能是隨機的,而是預先設(shè)計和規(guī)劃好的。
不同的數(shù)據(jù)庫開發(fā)理念,不同的應(yīng)用目標,不同的技術(shù)方案,早就了新型數(shù)據(jù)庫豐富多彩、特點各異的局面。
1.3 從傳統(tǒng)關(guān)系數(shù)據(jù)庫到非關(guān)系數(shù)據(jù)
在計算機系統(tǒng)結(jié)構(gòu)剛剛趨于穩(wěn)定的1970年,IBM公司的Edgar Codd(科德)首先提出了關(guān)系數(shù)據(jù)庫的概念和規(guī)則,這是數(shù)據(jù)庫技術(shù)的一個重要的里程碑。科德定義的關(guān)系數(shù)據(jù)庫具有結(jié)構(gòu)化程度高、數(shù)據(jù)冗余量低、數(shù)據(jù)關(guān)系明確、一致性好的優(yōu)點。關(guān)系數(shù)據(jù)庫模型把數(shù)據(jù)庫操作抽象成選擇、映射、連接、集合的并差交除操作、數(shù)據(jù)的增刪改查操作等。而1976年Boyce和Chamberlin提出的SQL結(jié)構(gòu)化查詢語言則把關(guān)系數(shù)據(jù)庫及其操作模式完整地固定下來,其理論和做法延續(xù)至今,被作為數(shù)據(jù)庫技術(shù)的重要基石。關(guān)系數(shù)據(jù)庫中定義的關(guān)系模型的實質(zhì)是二維表格模型,關(guān)系數(shù)據(jù)庫就是通過關(guān)系連接的多個二維表格之間的數(shù)據(jù)集合。當前流行的數(shù)據(jù)庫軟件Oracal、DB2、SQL Server、MySQL和Access等均屬于關(guān)系數(shù)據(jù)庫。
到二十世紀八十年代后期,IBM的研究員提出了數(shù)據(jù)倉庫(Data Warehouse)的概念,4年后Bill Inmon給出了被大家廣泛接受的數(shù)據(jù)倉庫定義:“數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理中的決策制定。”數(shù)據(jù)倉庫的進步在于,它把決策支持定為數(shù)據(jù)庫中數(shù)據(jù)組織和管理的目標,從而把智能性和決策能力融入到數(shù)據(jù)庫中。Inmon之后,Ralph Kimball建立了更加方便、實用的“自底向上”數(shù)據(jù)倉庫架構(gòu)并稱之為“數(shù)據(jù)集市”(Data Mart),這種技術(shù)受到企業(yè)及廠家的歡迎并采納實施。雖然數(shù)據(jù)集市被歸并為數(shù)據(jù)倉庫,但是它的出現(xiàn)誘發(fā)了商務(wù)智能和聯(lián)機分析技術(shù)的流行。
隨著數(shù)據(jù)庫在企業(yè)中的廣泛應(yīng)用,企業(yè)收集了大量的數(shù)據(jù),如何從已有數(shù)據(jù)中提取對企業(yè)運營和決策具有重要價值的信息,成為了數(shù)據(jù)庫使用者和開發(fā)者關(guān)系的話題?!瓣P(guān)系數(shù)據(jù)庫之父”科德再次走在了前面,提出多維數(shù)據(jù)庫和多維分析的概念,這便是“聯(lián)機分析處理”(OLAP),使得數(shù)據(jù)庫已經(jīng)顯現(xiàn)了“智能性”特點。從數(shù)據(jù)倉庫中產(chǎn)生的OLAP又反過來促進和推動數(shù)據(jù)倉庫技術(shù)的更深層的發(fā)展。
2.1 大數(shù)據(jù)數(shù)據(jù)庫的特點
傳統(tǒng)的關(guān)系數(shù)據(jù)庫,從其創(chuàng)立至現(xiàn)在,長期占據(jù)數(shù)據(jù)庫的絕對統(tǒng)治地位。但是,數(shù)據(jù)挖掘、商業(yè)智能和可視化技術(shù)的發(fā)展,特別是它們處理非結(jié)構(gòu)化數(shù)據(jù)的能力,動搖了傳統(tǒng)數(shù)據(jù)庫的牢固地位。于是善于處理非結(jié)構(gòu)化數(shù)據(jù)的種種數(shù)據(jù)庫工具大量產(chǎn)生,這其中必須優(yōu)先提及的便是NoSQL(意為Not Only SQL)及NewSQL(意為New SQL)兩大數(shù)據(jù)庫陣營。
現(xiàn)在隨著大數(shù)據(jù)時代的到來,由Carlo Strozzi開創(chuàng)的NoSQL以其技術(shù)上的先進性、方便性得到了越來越多的認可。NoSQL改變了數(shù)據(jù)的定義范圍,其“數(shù)據(jù)類型”可以是文本、圖片、影像、網(wǎng)頁,也可以是整個文件;NoSQL數(shù)據(jù)庫是非關(guān)系式的、數(shù)據(jù)間的關(guān)系更加復雜、多樣,類型和相互關(guān)系具有多種擴展可能、存儲方式也多采用分布式結(jié)構(gòu)。經(jīng)過十多年的發(fā)展,NoSQL取得了成功,采用NoSQL技術(shù)的產(chǎn)品也不斷增長,目前NoSQL網(wǎng)站上()已經(jīng)收集了150余個相關(guān)產(chǎn)品,人們也把采用類似NoSQL結(jié)構(gòu)和原理的數(shù)據(jù)庫統(tǒng)稱為NoSQL數(shù)據(jù)庫。
最初NoSQL有意排斥關(guān)系數(shù)據(jù)庫的ACID規(guī)則和SQL特性(后發(fā)現(xiàn)其弱點又在一定程度和一定范圍內(nèi)支持數(shù)據(jù)的一致性要求和SQL特性)。NoSQL堅持分布式領(lǐng)域的CAP理論,CAP的含義為:
Consistency,一致性。數(shù)據(jù)一致更新,所有節(jié)點訪問同一份最新的數(shù)據(jù)副本;
Availability,可用性。對數(shù)據(jù)更新具備高可用性;
Partition tolerance,分區(qū)容錯性。能容忍網(wǎng)絡(luò)分區(qū)。
CAP理論主張任何基于網(wǎng)絡(luò)的數(shù)據(jù)共享系統(tǒng),都最多只能擁有以下三條中的兩條。而這種“三取二”的法則以及具體理解與執(zhí)行的爭論就一直存在。想同時滿足三者,或者過分強化割舍三者之間聯(lián)系均會破壞數(shù)據(jù)系統(tǒng)的效率和效果。32歲便獲得加州大學伯克利分校終身教授的Eric Brewer提出了BASE理論(Basically Available, Soft state, Eventually consistent;基本可用、軟狀態(tài)、最終一致性),它用一種更注重可用性、更便于理解的方式解釋分布式系統(tǒng)的特點。
NewSQL注意到關(guān)系數(shù)據(jù)庫的靈活性不足、數(shù)據(jù)庫互鎖機制效率低下的特點,同時也意識到NoSQL不支持SQL所帶來的不便,它采用了一種近似折中的方案,既支持SQL并保證一定程度的數(shù)據(jù)一致性,同時也提供NoSQL數(shù)據(jù)庫的非關(guān)系數(shù)據(jù)處理的擴展功能,因而從產(chǎn)生之初便受到業(yè)界的喜愛,相關(guān)產(chǎn)品不斷涌現(xiàn)。NoSQL和NewSQL常見產(chǎn)品及其分類情況如圖所示。
2.2 NoSQL及其發(fā)展趨勢
在NoSQL潮流中,最重要的莫過于Apache基金會的Hadoop。它是一個領(lǐng)導者,是一個典型的分布式文件系統(tǒng),是一個開源系統(tǒng)。用戶可以在不了解分布式底層細節(jié)的情況下,借助Hadoop開發(fā)分布式程序,它取得了成功,成為分布式數(shù)據(jù)處理界的巨獸(Hadoop的Logo就是只大象)。 現(xiàn)在甚至出來了“無分布不Hadoop”——每個傳統(tǒng)的數(shù)據(jù)庫提供商都急切地聲明支持Hadoop。關(guān)系數(shù)據(jù)庫的傳統(tǒng)霸主Oracle公司也將Hadoop集成到自己的NoSQL數(shù)據(jù)庫中,Microsoft、Sybase、IBM也加入了收納Hadoop功能的競賽中。
第二位領(lǐng)導者,MongoDB,是一個成功的文檔處理型數(shù)據(jù)庫系統(tǒng),它被稱為“非關(guān)系式數(shù)據(jù)庫中最像關(guān)系式數(shù)據(jù)庫的產(chǎn)品”。MongoDB查詢功能強大,特別適合高性能的Web數(shù)據(jù)處理。
Cassandra是這個領(lǐng)域中的一個另類產(chǎn)品,它兼有鍵值數(shù)據(jù)庫和列值數(shù)據(jù)庫兩者的長處,它的查詢功能很優(yōu)秀。雖然運行Cassandra集群難度較高,但它升級后的分析能力使得很多人感到驚訝。
Redis也是相當好的一個產(chǎn)品。對故障恢復的良好支持以及使用Lua的服務(wù)器端腳本語言是明顯區(qū)別于其他軟件之處。使用Lua確實帶來了一些震動,因為更多的人喜歡和習慣JavaScript服務(wù)器端語言。但是,Lua是一個整潔的語言,它并為Redis開啟了潘多拉盒子。
CouchBase在可擴展性和其他潛在因素,使其看起來是一個很好的選擇,盡管Facebook以及Zynga面臨著關(guān)鍵開發(fā)者離開的風波。CouchDB會變得更好抑或相反?只要數(shù)據(jù)庫做得好受眾就會歡迎,現(xiàn)在看來,它確實做的很好。
還需要提及的是Riak,在功能性和監(jiān)控方面它也有了巨大的提升。在穩(wěn)定性方面,它繼續(xù)得到大家的贊美:“像巨石一般穩(wěn)定、可靠且不顯眼……”。Riak 數(shù)據(jù)模塊化方面做得很有特色。
在圖中,涉及了多個維度:關(guān)系型的與非關(guān)系型的、分析型的或操作型的、NoSQL類型與NewSQL類型的。最后的兩個分類中,對于NoSQL有著名的子分類“鍵值類數(shù)據(jù)庫、文檔數(shù)據(jù)庫、圖存數(shù)據(jù)庫和列存數(shù)據(jù)庫。對于NewSQL本已建立“存儲引擎、簇享數(shù)據(jù)、云服務(wù)”等類別。
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 營銷
中圖分類號:F49 文獻標識碼:A 文章編號:1007-9416(2015)030-0209-01
近幾年,大數(shù)據(jù)(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。2012 年3 月,奧巴馬公布了美國《大數(shù)據(jù)研究和發(fā)展計劃》,標志著大數(shù)據(jù)已經(jīng)成為國家戰(zhàn)略,上升為國家意志。從硅谷到北京,大數(shù)據(jù)的話題傳播迅速。
1 大數(shù)據(jù)時代
隨著計算機技術(shù)全面融入社會生活,經(jīng)過半個多世紀的發(fā)展,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。最先經(jīng)歷信息爆炸的學科,如天文學和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念。
1.1 大數(shù)據(jù)時代產(chǎn)生的背景
最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來?!贝笠?guī)模生產(chǎn)、分享和應(yīng)用海量數(shù)據(jù)的時代之所以能夠開啟,源于信息科技的進步、互聯(lián)網(wǎng)與云計算技術(shù)和物聯(lián)網(wǎng)的發(fā)展。
(1)信息科技的進步。信息處理、信息存儲和信息傳遞是信息科技的三個主要支撐,存儲設(shè)備性價比不斷提升、網(wǎng)絡(luò)帶寬的持續(xù)增加,為大數(shù)據(jù)的存儲和傳播提供了物質(zhì)基礎(chǔ)。
(2)互聯(lián)網(wǎng)與云計算技術(shù)。互聯(lián)網(wǎng)時代,電子商務(wù)、社交網(wǎng)絡(luò)和移動通信產(chǎn)生了大量結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),以云計算為基礎(chǔ)的信息存儲、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲下來,并隨時進行分析與計算?;ヂ?lián)網(wǎng)領(lǐng)域的公司最早重視數(shù)據(jù)資產(chǎn)的價值,他們從大數(shù)據(jù)中淘金,并且引領(lǐng)著大數(shù)據(jù)的發(fā)展趨勢。
(3)物聯(lián)網(wǎng)的發(fā)展。眾所周知,物聯(lián)網(wǎng)時代所創(chuàng)造的數(shù)據(jù)不是互聯(lián)網(wǎng)時代所能比擬的,而且物聯(lián)網(wǎng)的數(shù)據(jù)是異構(gòu)的、多樣性的、非結(jié)構(gòu)和有噪聲的,最顯著的特點是是它的高增長率。大數(shù)據(jù)是物聯(lián)網(wǎng)中的關(guān)鍵技術(shù),物聯(lián)網(wǎng)對大數(shù)據(jù)技術(shù)的要求更高,它的發(fā)展離不開大數(shù)據(jù)。
1.2 大數(shù)據(jù)與數(shù)據(jù)挖掘
Google、Amazon、Facebook、Twitter,這些稱霸全球互聯(lián)網(wǎng)的企業(yè),它們的成功都具備一個共同的因素,就是收集分析海量的各種類型的數(shù)據(jù),并能夠快速獲取影響未來的信息的能力?!百徺I了此商品的顧客還購買了這些商品”,這恐怕是世界上最廣為人知的一種商品推薦系統(tǒng)了,而創(chuàng)造出這個系統(tǒng)的正是Amazon。Amazon 通過分析商品的購買記錄、瀏覽歷史記錄等龐大的用戶行為歷史數(shù)據(jù),并與行為模式相似的其他用戶的歷史數(shù)據(jù)進行對照,提供出最適合的商品推薦信息。Facebook 可以為用戶提供類似“也許你還認識這些人”的提示,這種提示可以準確到令人恐怖的程度,而這正是對龐大的數(shù)據(jù)進行分析而得到的結(jié)果。這種以數(shù)據(jù)分析為核心的技術(shù)就是數(shù)據(jù)挖掘(data mining)。
從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、復雜的、不規(guī)則的、隨機的、模糊的數(shù)據(jù)中獲取隱含的、人們事先沒有發(fā)覺的、有潛在價值的信息和知識的過程。從商業(yè)角度來說,數(shù)據(jù)挖掘是從龐大的數(shù)據(jù)庫中抽取、轉(zhuǎn)換、分析一些潛在規(guī)律和價值,從中獲取輔助商業(yè)決策的關(guān)鍵信息和有用知識。大數(shù)據(jù)概念的提出,將為數(shù)據(jù)挖掘技術(shù)的發(fā)展和應(yīng)用帶來一個很大的機遇。
2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘旨在從大數(shù)據(jù)中提取隱藏的預測性信息,用便于理解和觀察的方式反映給用戶,作為決策的依據(jù)。
2.1 數(shù)據(jù)挖掘原理
數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Diseoveryin Databases,KDD),是一個從數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)并抽取隱含的、明顯未知的、具有潛在用處的信息的過程。數(shù)據(jù)挖掘一般流程主要包括三個階段:數(shù)據(jù)準備、數(shù)據(jù)挖掘、結(jié)果解釋和評價。在數(shù)據(jù)挖掘的處理過程中,數(shù)據(jù)挖掘分析方法是最為關(guān)鍵的。
(1)數(shù)據(jù)準備。數(shù)據(jù)準備是從海量數(shù)據(jù)源得到數(shù)據(jù)挖掘所用的數(shù)據(jù),將數(shù)據(jù)集成到一起的過程。由于數(shù)據(jù)收集階段得到的數(shù)據(jù)可能有一定的污染,即數(shù)據(jù)可能存在不一致,或有缺失數(shù)據(jù)、臟數(shù)據(jù)的存在,因此需通過數(shù)據(jù)整理,對數(shù)據(jù)進行清洗及預處理。
(2)數(shù)據(jù)挖掘。是數(shù)據(jù)挖掘中最關(guān)鍵的一步,使用智能的方法提取數(shù)據(jù)模式,例如決策樹、分類和聚類、關(guān)聯(lián)規(guī)則和神經(jīng)網(wǎng)絡(luò)等。首先決定要提取什么樣的模型,然后選取相應(yīng)的算法參數(shù),分析數(shù)據(jù)從而得到可能形成知識的模式模型。
(3)結(jié)果解釋和評價。數(shù)據(jù)挖掘后的結(jié)果需要轉(zhuǎn)換成用戶能夠理解的規(guī)則或模式,并根據(jù)其是否對決策問題具有實際意義進行評價。
2.2 數(shù)據(jù)挖掘技術(shù)在營銷中的應(yīng)用
無差別的大眾媒體營銷已經(jīng)無法滿足零和的市場環(huán)境下的競爭要求。精準營銷是企業(yè)現(xiàn)在及未來的發(fā)展方向,在精準營銷領(lǐng)域,最常用的數(shù)據(jù)挖掘分析方法包括分類、聚類和關(guān)聯(lián)三類。
(1)關(guān)聯(lián)規(guī)則。挖掘關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,例如空間關(guān)聯(lián)挖掘出啤酒與尿布效應(yīng);時間關(guān)聯(lián)挖掘出孕嬰用品與家居裝修關(guān)系;時間關(guān)聯(lián)挖掘出調(diào)味品、紙巾與化妝品的消費等。
此外,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)也可用于序列模式發(fā)現(xiàn)。序列模式發(fā)現(xiàn)的側(cè)重點在于分析數(shù)據(jù)項集在時間上或序列上的前后(因果)規(guī)律,可以看作是一種特定的關(guān)聯(lián)規(guī)則。例如顧客在購買了打印機后在一段時間內(nèi)是否會購買墨盒。
(2)分類分析。分類是假定數(shù)據(jù)庫中的每個對象屬于一個預先給定的類,從而將數(shù)據(jù)庫中的數(shù)據(jù)分配到給定的類中。它屬于預測性模型,例如在銀行業(yè),事先定義用戶的信用狀況分為兩類:信用好和信用壞,對于一個信用狀態(tài)未知的用戶,如果需要確定其信用度,可以采用“決策樹”法構(gòu)建一個分類模型,決策樹方法著眼于從一組無次序、無規(guī)則的客戶數(shù)據(jù)庫中推理出決策樹表現(xiàn)形式的分類規(guī)則。決策樹的非葉子節(jié)點均是客戶的一些基本特征,葉子節(jié)點是客戶分類標識,由根節(jié)點至上而下,到每個葉子節(jié)點,就生成了一條規(guī)則,由該決策樹可以得到很多規(guī)則,構(gòu)成了一個規(guī)則集合,從而進行數(shù)據(jù)分析。
(3)聚類分析。聚類是將物理或抽象對象的集合進行分組,然后組成為由類似或相似的對象組成的多個分類的分析過程,其目的就是通過相似的方法來收集數(shù)據(jù)分類。為品牌找客戶,回答品牌“誰來賣”是精準營銷首先要解決的問題,科學細分客戶是解決這一問題的有效手段。聚類可以將目標客戶分成多個類,同一個類中的客戶有很大的相似性,表現(xiàn)在購買行為的高度一致,不同類間的客戶有很大的相異性,表現(xiàn)在購買行為的截然不同。
3 結(jié)語
大數(shù)據(jù)時代背景下“數(shù)據(jù)成為資產(chǎn)”,數(shù)據(jù)挖掘技術(shù)作為支撐精準營銷的重要手段,將它應(yīng)用于營銷行業(yè)的決策中,不僅拓展了數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍,而且大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)可以幫助企業(yè)獲得突破性回報。
參考文獻
[1]維克托?邁爾―舍恩伯格;肯尼思?庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].周濤譯.杭州:浙江人民出版社,2013.
[2]王偉玲.大數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略價值研究與思考.技術(shù)經(jīng)濟與管理研究[J],2015(1).
[3]俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟學[J].中國軟科學,2013(7):177-183.
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)庫集群技術(shù);分布集群
一、分布集群數(shù)據(jù)庫在大數(shù)據(jù)中的應(yīng)用
目前,許多數(shù)據(jù)增長率很高的大型數(shù)據(jù)庫系統(tǒng)正被用于改善全球人類活動,如通信、社交網(wǎng)絡(luò)、交易、銀行等,分布集群數(shù)據(jù)庫已成為提高數(shù)據(jù)訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數(shù)據(jù)訪問,分布集群數(shù)據(jù)庫的問題不僅在于如何管理大量的數(shù)據(jù),而且在于如何組織分布式存儲中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索速度、減少磁盤I/O數(shù)量、縮短查詢響應(yīng)時間的最佳方法之一?;谝?guī)則的聚類是提供數(shù)據(jù)庫自動聚類和數(shù)據(jù)存儲模式解釋的解決方案之一,基于規(guī)則的集群通過分析屬性和記錄上的數(shù)據(jù)庫結(jié)構(gòu),將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個集群,每個規(guī)則與內(nèi)部集群中的規(guī)則相似,與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫是一種有向圖結(jié)構(gòu)的進化優(yōu)化技術(shù),用于數(shù)據(jù)分類,在緊湊的程序中具有顯著的表示能力,這源于節(jié)點的可重用性,而節(jié)點本身就是圖形結(jié)構(gòu)的功能。為了實現(xiàn)基于規(guī)則的集群,分布集群數(shù)據(jù)庫可以通過分析記錄來處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫的圖形結(jié)構(gòu)由三種節(jié)點組成:起始節(jié)點、判斷節(jié)點和處理節(jié)點。開始節(jié)點表示節(jié)點轉(zhuǎn)換的開始位置;判斷節(jié)點表示要在數(shù)據(jù)庫中檢查的屬性。分布集群數(shù)據(jù)庫規(guī)則提取的節(jié)點準備包括兩個階段:節(jié)點定義和節(jié)點排列。節(jié)點定義的目的是準備創(chuàng)建規(guī)則,節(jié)點排列是選擇重要的節(jié)點,以便高效地提取大量規(guī)則。節(jié)點排列由以下兩個順序過程執(zhí)行,第一個過程是查找模板規(guī)則,第二個過程是結(jié)合第一個過程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過程中,分布集群數(shù)據(jù)庫規(guī)則提取中只使用了少數(shù)幾個屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規(guī)則的方法相比,該節(jié)點排列方法具有更好的聚類結(jié)果,這兩個過程中的規(guī)則生成都是通過圖結(jié)構(gòu)的演化來實現(xiàn)。
二、在線規(guī)則更新系統(tǒng)的應(yīng)用
在線規(guī)則更新系統(tǒng)用于通過分析所有記錄從數(shù)據(jù)集中提取規(guī)則,在大數(shù)據(jù)應(yīng)用中,每個節(jié)點都有自己的節(jié)點號,描述每個節(jié)點號的節(jié)點信息。程序大小取決于節(jié)點的數(shù)量,這會影響程序創(chuàng)建的規(guī)則的數(shù)量。起始節(jié)點表示根據(jù)連接順序執(zhí)行的判斷節(jié)點序列的起始點,開始節(jié)點的多個位置將允許一個人提取各種規(guī)則。判斷節(jié)點表示數(shù)據(jù)集的屬性,顯示屬性索引。在大數(shù)據(jù)應(yīng)用環(huán)節(jié),從每個起始節(jié)點開始的節(jié)點序列用虛線a、b和c表示,節(jié)點序列流動,直到支持判斷節(jié)點的下一個組合不滿足閾值。在節(jié)點序列中,如果具有已出現(xiàn)在上一個節(jié)點序列,將跳過這些節(jié)點。在更新每個集群中的規(guī)則時,重要的是要找到與最新數(shù)據(jù)不匹配的屬性。因此,規(guī)則更新中要考慮的屬性由以下過程確定。當計算集群中每個屬性和數(shù)據(jù)之間的輪廓值時,閾值設(shè)置為0.85,只有輪廓值低于0.85的屬性。將為規(guī)則更新過程中的判斷節(jié)點的屬性選擇。一些數(shù)據(jù)的庫存值和權(quán)重值低于0.85,因此這些值不包括在國民生產(chǎn)總值的規(guī)則更新中。在線規(guī)則更新系統(tǒng)中包含用于更新規(guī)則的屬性,每個集群都具有屬性的主要值,這些屬性是集群質(zhì)量的錨定點,進而影響輪廓值。在線規(guī)則更新系統(tǒng)應(yīng)用中,完成主要的規(guī)則提取過程,這是一個標準的規(guī)則提取,在線規(guī)則更新系統(tǒng)考慮到數(shù)據(jù)集中的所有屬性。執(zhí)行該過程,對初始數(shù)據(jù)集進行初始集群;改善規(guī)則更新過程,僅對輪廓值低于閾值的數(shù)據(jù)執(zhí)行。
三、大規(guī)模并行處理技術(shù)的應(yīng)用
大規(guī)模并行處理技術(shù)主要用于編寫和調(diào)試現(xiàn)代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語言翻譯成一個低級的核心匯編程序。在大數(shù)據(jù)應(yīng)用中,會產(chǎn)生很多數(shù)據(jù),在數(shù)據(jù)的分析和計算中,應(yīng)該結(jié)合編程技術(shù),標準語言是面向傳統(tǒng)體系結(jié)構(gòu)的,這就是為什么編譯器不能使用所有可能的DSP體系結(jié)構(gòu)以最佳效率生成代碼的原因。為了獲得一個良好的優(yōu)化代碼,有必要直接在低級匯編語言上編寫代碼。為了簡化編寫程序的任務(wù),可以在某個處理器上使用面向代碼生成器。使用一個專門的匯編代碼生成器,使用并行結(jié)構(gòu)化的編程語言可以獲得比在C/C++中翻譯的應(yīng)用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內(nèi)核的并行性和其他特性。低級匯編代碼是由所有編譯器生成的,但是它們與傳統(tǒng)的基于文本的語言(如C/C++)一起工作。大數(shù)據(jù)應(yīng)用環(huán)節(jié),在數(shù)據(jù)分類和計算中,當兩個計算操作在不同的操作單元上執(zhí)行時,才能在一個dsp核心的vliw命令中并行執(zhí)行兩個計算操作。根據(jù)運算執(zhí)行單元的不同,計算運算可分為op1和op2兩種類型。屬于不同組使得在一個命令中執(zhí)行兩個操作成為可能。第一種類型包括由算術(shù)和邏輯單元執(zhí)行的操作,第二種類型包括由乘法器、移位器ms執(zhí)行的操作。在模板中,標記“1”表示第一種類型的標識,標記“2”分別表示第二種類型。如果兩個操作具有不同的類型并且沒有數(shù)據(jù)依賴關(guān)系,則可以進行并行化,DSP核心的并行性是通過在一個核心中存在多個操作單元來保證的。在大數(shù)據(jù)計算和分析中,如果有足夠多的通用寄存器來執(zhí)行這兩個操作,并且它們可以并行執(zhí)行,代碼就會并行化,提升數(shù)據(jù)計算的效率。
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 方法
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2015)04-0222-01
1 大數(shù)據(jù)時代數(shù)據(jù)挖掘的重要性
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等技術(shù)的快速發(fā)展,以及智能終端、網(wǎng)絡(luò)社會、數(shù)字地球等信息體的普及和建設(shè),全球數(shù)據(jù)量出現(xiàn)爆炸式增長,僅在2011年就達到1.8萬億GB。IDC(Internet Data Center,互聯(lián)網(wǎng)絡(luò)數(shù)據(jù)中心)預計,到2020 年全球數(shù)據(jù)量將增加50倍。毋庸置疑,大數(shù)據(jù)時代已經(jīng)到來。一方面,云計算為這些海量的、多樣化的數(shù)據(jù)提供存儲和運算平臺,同時數(shù)據(jù)挖掘和人工智能從大數(shù)據(jù)中發(fā)現(xiàn)知識、規(guī)律和趨勢,為決策提供信息參考。
如果運用合理的方法和工具,在企業(yè)日積月累形成的浩瀚數(shù)據(jù)中,是可以淘到沙金的,甚至可能發(fā)現(xiàn)許多大的鉆石。在一些信息化較成熟的行業(yè),就有這樣的例子。比如銀行的信息化建設(shè)就非常完善,銀行每天生成的數(shù)據(jù)數(shù)以萬計,儲戶的存取款數(shù)據(jù)、ATM交易數(shù)據(jù)等。
數(shù)據(jù)挖掘是借助IT手段對經(jīng)營決策產(chǎn)生決定性影響的一種管理手段。從定義上來看,數(shù)據(jù)挖掘是指一個完整的過程,該過程是從大量、不完全、模糊和隨機的數(shù)據(jù)集中識別有效的、可實用的信息,并運用這些信息做出決策。
2 數(shù)據(jù)挖掘的分類
數(shù)據(jù)挖掘技術(shù)從開始的單一門類的知識逐漸發(fā)展成為一門綜合性的多學科知識,并由此產(chǎn)生了很多的數(shù)據(jù)挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實際需要,現(xiàn)對數(shù)據(jù)挖掘技術(shù)進行如下幾種分類:
2.1 按挖掘的數(shù)據(jù)庫類型分類
利用數(shù)據(jù)庫對數(shù)據(jù)分類成為可能是因為數(shù)據(jù)庫在對數(shù)據(jù)儲存時就可以對數(shù)據(jù)按照其類型、模型以及應(yīng)用場景的不同來進行分類,根據(jù)這種分類得到的數(shù)據(jù)在采用數(shù)據(jù)挖掘技術(shù)時也會有滿足自身的方法。對數(shù)據(jù)的分類有兩種情況,一種是根據(jù)其模型來分類,另一種是根據(jù)其類型來分類,前者包括關(guān)系型、對象-關(guān)系型以及事務(wù)型和數(shù)據(jù)倉庫型等,后者包括時間型、空間型和Web 型的數(shù)據(jù)挖掘方法。
2.2 按挖掘的知識類型分類
這種分類方法是根據(jù)數(shù)據(jù)挖掘的功能來實施的,其中包括多種分析的方式,例如相關(guān)性、預測及離群點分析方法,充分的數(shù)據(jù)挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時,在上述分類的情況下,還可以按照數(shù)據(jù)本身的特性和屬性來對其進行分類,例如數(shù)據(jù)的抽象性和數(shù)據(jù)的粒度等,利用數(shù)據(jù)的抽象層次來分類時可以將數(shù)據(jù)分為三個層次,即廣義知識的高抽象層,原始知識的原始層以及到多層的知識的多個抽象層。一個完善的數(shù)據(jù)挖掘可以實現(xiàn)對多個抽象層數(shù)據(jù)的挖掘,找到其有價值的知識。同時,在對數(shù)據(jù)挖掘進行分類時還可以根據(jù)其表現(xiàn)出來的模式及規(guī)則性和是否檢測出噪聲來分類,一般來說,數(shù)據(jù)的規(guī)則性可以通過多種不同的方法挖掘,例如相關(guān)性和關(guān)聯(lián)分析以及通過對其概念描述和聚類分類、預測等方法,同時還可以通過這些挖掘方法來檢測和排除噪聲。
2.3 按所用的技術(shù)類型分類
數(shù)據(jù)挖掘的時候采用的技術(shù)手段千變?nèi)f化,例如可以采用面向數(shù)據(jù)庫和數(shù)據(jù)倉庫的技術(shù)以及神經(jīng)網(wǎng)絡(luò)及其可視化等技術(shù)手段,同時用戶在對數(shù)據(jù)進行分析時也會使用很多不同的分析方法,根據(jù)這些分析方法的不同可以分為遺傳算法、人工神經(jīng)網(wǎng)絡(luò)等等。一般情況下,一個龐大的數(shù)據(jù)挖掘系統(tǒng)是集多種挖掘技術(shù)和方法的綜合性系統(tǒng)。
2.4 按應(yīng)用分類
根據(jù)數(shù)據(jù)挖掘的應(yīng)用的領(lǐng)域來進行分類,包括財經(jīng)行業(yè)、交通運輸業(yè)、網(wǎng)絡(luò)通信業(yè)、生物醫(yī)學領(lǐng)域如DNA等,在這些行業(yè)或領(lǐng)域中都有滿足自身要求的數(shù)據(jù)挖掘方法。對于特定的應(yīng)用場景,此時就可能需要與之相應(yīng)的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數(shù)據(jù)挖掘技術(shù)可以在所有的行業(yè)中都能使用的技術(shù),每種數(shù)據(jù)挖掘技術(shù)都有自身的專用性。
3 數(shù)據(jù)挖掘中常用的方法
目前數(shù)據(jù)挖掘方法主要有4種,這四種算法包括遺傳、決策樹、粗糙集和神經(jīng)網(wǎng)絡(luò)算法。以下對這四種算法進行一一解釋說明。
遺傳算法:該算法依據(jù)生物學領(lǐng)域的自然選擇規(guī)律以及遺傳的機理發(fā)展而來,是一種隨機搜索的算法,利用仿生學的原理來對數(shù)據(jù)知識進行全局優(yōu)化處理。是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。這種算法具有隱含并行性、易與其它模型結(jié)合等優(yōu)點從而在數(shù)據(jù)挖掘中得到了應(yīng)用。
決策樹算法:在對模型的預測中,該算法具有很強的優(yōu)勢,利用該算法對龐大的數(shù)據(jù)信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優(yōu)勢也比較明顯,在利用這種算法對數(shù)據(jù)進行分類時非常迅速,同時描述起來也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應(yīng)用性很強。
粗糙集算法:這個算法將知識的理解視為對數(shù)據(jù)的劃分,將這種劃分的一個整體叫做概念,這種算法的基本原理是將不夠精確的知識與確定的或者準確的知識進行類別同時進行類別刻畫。
神經(jīng)網(wǎng)絡(luò)算法:在對模型的預測中,該算法具有很強的優(yōu)勢,利用該算法對龐大的數(shù)據(jù)信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優(yōu)勢也比較明顯,在利用這種算法對數(shù)據(jù)進行分類時非常迅速,同時描述起來也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應(yīng)用性很強。光纜監(jiān)測及其故障診斷系統(tǒng)對于保證通信的順利至關(guān)重要,同時這種技術(shù)方法也是順應(yīng)當今時代的潮流必須推廣使用的方法。同時,該診斷技術(shù)為通信管網(wǎng)和日常通信提供了可靠的技術(shù)支持和可靠的后期保證。
參考文獻
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(01):146-169.