時間:2022-05-21 10:27:22
序論:在您撰寫大數據分析論文時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的1篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導您走向新的創(chuàng)作高度。
【摘要】隨著電力信息化的不斷發(fā)展以及信息化可靠性要求的不斷提升,系統(tǒng)運行維護壓力越來越大,加之信息化數據分析對電力系統(tǒng)發(fā)展的指導意義越發(fā)重要,對信息數據的分析亟待提高。針對電力SG-186系統(tǒng)運維現狀,提出一套基于Hadoop架構的大數據分析解決方案,旨在實現對系統(tǒng)運行日志進行多元化分析,一方面發(fā)現后臺潛在系統(tǒng)運行風險,一方面給企業(yè)提供各類實時可視的數據,給企業(yè)發(fā)展提供強有力的數據支撐。
【關鍵詞】SG-186;Hadoop;大數據分析
引言
在電網智能化、信息化飛速發(fā)展的今天,以SG-186為核心的數百個各類系統(tǒng)已經滲入電力生產、經營、管理等各個角落。系統(tǒng)運行的可靠性直接影響電力可靠性及公司的社會形象,系統(tǒng)的各類數據也都直接反映了公司經營業(yè)績及發(fā)展現狀。信息系統(tǒng)后臺日志數據規(guī)模急速增大,傳統(tǒng)的單機式數據庫模式在各類系統(tǒng)復雜的數據分析診斷中已經越顯乏力,本文運用Hadoop平臺及相關技術,提供了一款基于Hadoop的大數據分析解決方案。通過在服務器上的運作,可以對大規(guī)模日志進行分析,并自動生成圖表進行展示,從而可以非常直觀的觀察各項用戶數據。
1.技術背景
Hadoop是一個高效的、非常可靠的并且可擴展性很強的的分布式軟件開發(fā)框架,它的優(yōu)勢在于能在相對較短的時間內接受并且完成大量的數據處理任務。運用Hadoop框架進行開發(fā),開發(fā)者可以通過自己開發(fā)編寫的Map/Reduce來進行大數據分析處理。通過更改相應的配置文件,數個甚至更多的副本數據可以通過Hadoop保存下來,這樣的設計可以使得Hadoop更加的可靠。因為即使某一個集群中的Hadoop節(jié)點出錯,其也可以通過HDFS,即數據塊副本來完成數據處理任務。因為Hadoop框架可以在非常寬泛的范圍內進行擴展,所以其可以處理海量的數據,其數據規(guī)模普遍可以達到TB的數量級,在某些情況下還可以突破PB的數量級。Hadoop進行數據處理的時候,其運行速度是非常迅速的,并且在處理過程中,開發(fā)者可以不用了解或研究其系統(tǒng)底層的實現過程就可以完成發(fā)任務。
Hadoop的相關系統(tǒng):Hadoop分布式系統(tǒng)(HDFS)包含了許多元素,文件系統(tǒng)存儲在群集節(jié)點上的文件。HDFS上層的Map/Reduce程序框架引擎,包含了工作跟蹤和任務的跟蹤。
2.大數據分析解決方案
2.1 系統(tǒng)日志數據預處理
確定了系統(tǒng)對數據的需求之后,就可以對日志進行預處理了。通過對用戶日志的UID訪問,獲取每個日志的基本數據。然后逐個讀取各項數據,分別確認是否屬于系統(tǒng)所需的日志數據類型。如果是,則保留在系統(tǒng)平臺內;如果不是,則刪除其數據。為了獲取用戶的各種信息,我們需要對用戶訪問系統(tǒng)所遺留下來的日志進行嚴格的分析。其中,非常關鍵的問題在于,在運用本文所設計的基于Hadoop的海量數據分析系統(tǒng)對日志進行分析之前,盡可能的對日志進行簡化,即去除一些無關緊要的數據部分,是對整個系統(tǒng)的運行效率有著重大提升的意義的。
因此,在將日志導入系統(tǒng)進行分析之前,我們需要對日志進行預處理。預處理有兩個目的:一是去掉日志中部分系統(tǒng)不關心的數據;二是統(tǒng)一日志格式,在用戶訪問的過程中,其生成的格式有可能會因為其來源渠道等因素的不同導致日志整體架構不一致,如果不統(tǒng)一日志的格式,直接導入系統(tǒng)進行處理,那么將會有大量的系統(tǒng)資源被浪費在無用的處理過程中。
2.2 生成最小粒度數據的實現
根據從日志的預處理之后得到的新日志文件數據,系統(tǒng)將對海量的數據進行逐個肢解的過程,并將其按維度劃分最細分粒度及流轉最細粒度,生成最細分粒度數據。此步驟的難度在于,日志數據極為龐大,單個日志要劃分成十數個乃至數十個的小數據,其數量就更為龐大。如何存儲這些最細分粒度數據,以便系統(tǒng)后用成了最重要也是最難的問題。
在這個步驟中,系統(tǒng)將用Hadoop平臺的Apache Pig來實現這一過程。Apache Pig是一個用于分析大型數據集的平臺,包括一個高層次的語言表達數據分析程序來評估這些方案以及基礎數據處理。Pig的突出特性是它們的結構是適合進行大量的并行輪流處理,使他們能夠處理非常大的數據集。目前,Pig的基礎設施層由編譯器產生的Map-Reduce計劃,大規(guī)模并行實現已經存在于序列中。
首先,將后臺用戶日志導入系統(tǒng)。系統(tǒng)將對海量數據進行逐個肢解的過程,并將其按維度劃分最細分粒度及流轉最細粒度,形成最細分粒度數據,然后存放在Hive中。
在這個過程中,難點在于日志的數量大,通常是數百GB。因此,在此部分,系統(tǒng)將運用Apache Pig來實現對系統(tǒng)原始日志及特征表的肢解,使其生成最細分粒度數據,并將其導入Hive中存放。
首先系統(tǒng)將注冊各種UDF,以便 展整個系統(tǒng)流程。然后導入系統(tǒng)后臺所存儲的用戶訪問電商網站服務器所留下來的日志數據,主要是訪問日志,其次是訪問特征碼,特征碼對于頁面流轉的統(tǒng)計分析是非常重要的。
然后系統(tǒng)將要逐個地清理原始日志,主要是排除垃圾信息和不完整信息,因為在曰志存儲的過程中,不可避免的會收到一些或有意或無意的垃圾信息的攻擊,這一部分需要提前剔除,以免工作量太大。
2.3 數據分析及報表的實現
在得到各個數據類型的Hive表之后,系統(tǒng)需要通過Apache Hive來匯總所需細分粒度數據。匯總的方式可以由用戶自行設定,可以將任意兩種乃至數種上文中所提到的Hive表進行組合匯總,形成新的Hive表。在此步驟中,被劃分成最細分粒度的數據己經存放于Hive中。所以,系統(tǒng)將運用Apache Hive來將所有最細分粒度數據匯總,使其成為各個項目單獨的匯總表文件。從最細粒度的數據統(tǒng)計,現在就有了兩個乃至多個Hive表均包含其數據內容。當系統(tǒng)收到上一個步驟所分析統(tǒng)計得出的Hive表時,其將通過調用Apache Hive的各個接口,使其接收到Hive表中的內容,并且通過用戶事先設定好的數據類型匯總方式,將各個Hive表中的數據先逐個讀取,再將其輸入存放到新的Hive表中。
系統(tǒng)在此部分將通過Hadoop平臺所提供的接口建立到數據庫的鏈接,然后在對上一節(jié)中所生成的各項Hive表實施遍歷,逐行逐詞的讀出數據表中的每一項數據,將其存入Mysql中,然后提供一個前端可用的接口,以方便各種前端客戶連接至Mysql,將數據資料讀出并做成可直觀閱讀和分析的系統(tǒng)報表。
在數據存入Mysql之后,系統(tǒng)可以根據銜接的前端程序的不同,生成各類不同樣式的圖表,可以包括系統(tǒng)到目前為止,儲存在數據庫中的全部或者部分數據,供網站分析人員觀察與分析。
3.結論
目前電力行業(yè)信息發(fā)展所面臨的問題是本論文的重點。首先介紹了選題的背景和意義,然后逐步引入Hadoop技術,特別是在HDFS文件系統(tǒng)方面的,Map/Reduce框架,Hive數據倉庫框架介紹的原理和使用,以及作為如何使用Hadoop數據處理,來解決這個問題的。然后,本文介紹了如何充分利用Hadoop的配置設備,以及內置的數據倉庫框架,以實現統(tǒng)計的需求,并生成直觀的圖表顯示。
因為Hadoop運作過程并非自動化的工作形式,可以研究關于這個項目的代碼固化下來的可能性,以達到完成自動化功能的目的,僅需要用戶簡單地輸入特定需求的參數,后臺任務運行這些數據使用Hadoop來進行數據處理,所以面對數據的處理需求,并不需要手動啟動腳本來運行任務。
(長城汽車股份有限公司天津哈弗分公司 300462)
摘 要:工業(yè)制造的大數據分析對企業(yè)的生產具有十分重要的作用, 通過大數據分析,企業(yè)能夠準確的發(fā)現企業(yè)生產中存在的問題, 結合工業(yè)制造企業(yè)中大數據面臨的挑戰(zhàn)與應用技術, 并對工業(yè)制造企業(yè)生產中大數據的來源途徑進行分析, 探究了工業(yè)制造大數據的應用價值。
關鍵詞:工業(yè)制造; 大數據; 應用價值
工業(yè)大數據在工業(yè)生產中具有十分重要的作用, 它是以工業(yè)制造過程和工業(yè)產品的數據為主體,通過對這些數據的分析, 獲取工業(yè)生產中的具體數據,進而能夠有效的對工業(yè)制造工程進行分析與控制。 工業(yè)大數據的來源主要是產品生產周期過程中的各個環(huán)節(jié), 例如產品的設計、生產制造、銷售、售后服務、回收利用等環(huán)節(jié)的數據。同樣, 工業(yè)大數據的獲得, 還可以從企業(yè)的外部銷售與生產市場、企業(yè)之間的“跨界”供應鏈中獲取。
一、工業(yè)制造大數據面臨的挑戰(zhàn)與技術
工業(yè)大數據在企業(yè)生產中具有十分廣泛的用途, 但是由于企業(yè)缺乏必要的數據分析工具,還不能夠從大數據中獲取十分有益的信息, 造成大數據在企業(yè)生產中還沒有得到充分的應用, 沒有將大數據中潛藏的信息運用到企業(yè)的生產決策中。
1、多源異構工業(yè)數據集成與數據融合技術
由于工業(yè)大數據搜集是需要多源異構數據集成, 在數據分析時需要解決以下的問題:首先,要能夠準確的對數據進行收集, 保證數據集成的質量,為企業(yè)的決策提供準確的數據支持服務。 數據質量在數據集中過程中出現失誤的原因是多樣的,可能是手工操作失誤造成的, 也可能是數據集成過程中采用算法模式失誤而造成的, 還有可能是在數據采集的過程中, 出現網絡不穩(wěn)定或者任務中斷而導致數據質量不高。 其次,就是要及時對產品生產的各個環(huán)節(jié)產生的數據進行集成。 在生產的過程中, 不能及時對生產的可用實時數據與當前生產資源資料的數據進行分析, 就不能有效的對下一個生產過程提供有效的材料、原料的支持。 但是,由于現有的數據技術不多,數據的來源不統(tǒng)一,在工業(yè)大數據的企業(yè)中, 不能兼顧不同類型的海量數據,不能滿足實時性要求, 對工業(yè)大數據的應用帶來了很大的挑戰(zhàn)。
2、支持實時建模的大容量數據處理技術
(1)在以往的數據處理中一般采用MapReduce技術對大數據進行批量處理, 這樣處理的數據實時性不強,不能有效的運用于工業(yè)制造決策中, 不能滿足大數據分析的實時建模需求。
(2)現有的大數據分析框架主要是基于簡單的數據查詢, 對大數據的分析能力與深度不夠, 既不能滿足工業(yè)多層面不規(guī)則的大數據采樣與分析, 也不能實現多時空時間序列數據復雜建模的需求。 由于工業(yè)制造的決策分析的影響數據比較多, 現有的數據分析技術不能將市場數據、服務數據、 質量控制數據、營銷數據結合在一起進行分析, 即使能夠分析,相應的難度也比較大。
3、大數據給工業(yè)制造信息安全帶來新挑戰(zhàn)
(1)大稻菁喲笠私泄露風險的挑戰(zhàn)
大量工業(yè)制造的數據集中存儲往往會給企業(yè)的安全信息增加泄露的風險, 而且在企業(yè)生產的過程中,往往還會有一些敏感數據的所有權和使用權難以給予明確的界定。
(2)對現有存儲和安防措施提出挑戰(zhàn)
大量的工業(yè)數據存儲在一起,這樣就會存在多種格式不同、類型不同的數據共存的情況, 就會造成企業(yè)的數據存儲不符合安全管理的需求, 造成企業(yè)的數據管理存在安全的漏洞。
(3)大數據技術被誤用帶來的挑戰(zhàn)
大數據的應用為黑客提供了更多的數據分析機會,使得黑客的攻擊更加精確,為企業(yè)的工業(yè)生產帶來了更大的潛在危險。
二、工業(yè)大數據的分析途徑
1、利用開放技術與平臺,實現數據的任意移動
在工業(yè)制造中,系統(tǒng)的管理平臺是一個系統(tǒng)化的工作, 而不僅僅是一套操作軟件與管理系統(tǒng),更多的是項目執(zhí)行和服務的平臺。在實際工作中,能夠體現企業(yè)生產的過程與挖掘企業(yè)生產過程中的數據, 保證數據能夠在不同的服務器與管理軟件上移動。 因此,在企業(yè)的系統(tǒng)應用平臺中,要詳細的對系統(tǒng)架構進行設計, 將系統(tǒng)的數據集成能力、實施能力、數據挖掘能力等融合在一起, 并能夠與物聯(lián)網結合在一起,實現“軟件+云服務”的工業(yè)大數據應用管理平臺。 在工作制造的大數據分析過程中,需要將物聯(lián)網與“互聯(lián)網+”的應用結合在一起, 通過物聯(lián)網的及時響應, 能夠將客戶、企業(yè)中工作的軟硬件定期巡檢、易耗品、設備的功能等數據進行分析, 進而能夠有效的確定工業(yè)生產過程中的供應鏈上各個企業(yè)的合作關系,為客戶提供持續(xù)性的有價值的數據服務。
2、完善工業(yè)企業(yè)管理系統(tǒng)的功能,強化處理結構性和非結構性數據的數據模型
完善工業(yè)制造企業(yè)的系統(tǒng)管理平臺,將數據處理的功能集成在一起, 實現制造管理系統(tǒng)的MOM與ERP、EAM 等有機的聚合,實現數據的集成,能夠將企業(yè)的信息推送、系統(tǒng)工作流的集成、應用數據的控制與管理有機的集成在一起, 完善數據處理的模型,實現對工業(yè)制造企業(yè)的結構性數據與非結構性數據的處理。 由于工業(yè)制造企業(yè)各個管理系統(tǒng)之間的主數據不統(tǒng)一,不同系統(tǒng)之間的數據交換就需要依賴各系統(tǒng)間的總線進行數據交互, 就需要整合各個系統(tǒng)之間的數據業(yè)務流程、工作流、服務流程等, 才能有效的實現工業(yè)大數據的集成,對工業(yè)制造企業(yè)的管理者來說,通過一鍵登錄之后,通過系統(tǒng)的個性化定制頁面,就能夠了解與查看經過大數據集成后的數據。
3、利用智能工具對工業(yè)大數據進行分析
在工業(yè)制造企業(yè)可以采用時間序列、圖像、視頻、機器學習等智能分析工具, 來建立工業(yè)生產的數據模型,模擬與控制工業(yè)生產的過程, 進而與工業(yè)大數據平臺結合在一起, 這樣就能夠有效的對工業(yè)企業(yè)生產中的情況進行分析, 并可與物聯(lián)網、感應器、互聯(lián)網等連接在一起, 然后與企業(yè)的管理應用軟件結合在一起,對企業(yè)生產的大數據進行分析。
三、工業(yè)大數據的應用價值
隨著“互聯(lián)網+”的思維與工業(yè)制造業(yè)的融合,創(chuàng)新了工業(yè)生產中的數據分析, 同時也能夠將企業(yè)生產中的所有數據聚合在一起, 這為工業(yè)大數據的集成提供了便利, 同時也使得工業(yè)大數據的集成成為企業(yè)數據應用的核心。 以工業(yè)數據的采集與解析、分析和可視化以及數據的安全管理成為未來企業(yè)數據的關鍵技術, 隨著信息在企業(yè)生產中的應用不斷加深, 企業(yè)生產的數據不再以企業(yè)的內部數據為主,同時還要將外部的市場數據融合在一起,隨著智能制造的應用越來越廣, 企業(yè)需要重新審視工業(yè)大數據在生產中的作用,同時企業(yè)也會重視大數據的價值, 對企業(yè)的制造產品進行創(chuàng)新,并能夠對企業(yè)的生產進行監(jiān)視與預警管理,同時還能實時的對生產設備故障進行診斷與維護,優(yōu)化企業(yè)生產的供應鏈管理, 提升工業(yè)企業(yè)的生產效率。 在企業(yè)生產過程中利用大數據分析, 可以有效的對企業(yè)生產的倉儲、產品的配送、銷售等進行優(yōu)化管理, 降低企業(yè)的成本,并能夠提高企業(yè)的銷售效率。
四、結束語
工業(yè)大數據在企業(yè)生產中具有十分重要的作用, 它的價值產生方式主要是通過集成企業(yè)在生產過程中產生的數據, 并對企業(yè)生產的供應鏈、銷售的整個數據進行收集與集成,在通過數據分析之后, 能夠為企業(yè)的生產提供決策支持,進而能夠有效的提高企業(yè)的生產效率與產品質量等,滿足用戶的需求,擴大企業(yè)的影響力。
摘要:在當前大數據火熱的背景下,研究者都在思考如何應用大數據解決實際問題。文章在理解大數據思維下,設計了以數碼產品價格預測、產品基本搜索功能和產品詳情模塊為主要功能的數碼產品價格預測網站,其中重點介紹了如何實現數碼產品價格預測功能。該功能的實現主要是利用分布式網絡爬蟲技術獲取各大知名網站的數碼產品價格,并利用模型對數碼產品的價格走勢進行預測。
關鍵詞:價格預測;分布式網絡爬蟲;數碼產品網站;大數據;數學建模
1概述
據《中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》顯示,截至2016年6月,我國網絡購物用戶規(guī)模達到4.48億,可見通過網上獲取信息的人很多。在互聯(lián)網+和大數據時代下,IT行業(yè)逐步成為人們熱議的焦點,其發(fā)展也得到愈來愈多的人關注。而目前國內的IT類資訊網站大多沒有預測產品價格這個功能,本文將著重研究價格預測的實現功能的實現。
2網站設計與開發(fā)的可行性與適應性分析
2.1從技術角度看
開發(fā)一個基于大數據的分析的數碼產品價格預測網站需要大量的數據做支撐,這些數據可以通過各大電商平臺進行獲取。各大電商平臺往往會將這些數據按照一定的格式展現在網站上,我們可以通過分布式數據爬蟲技術將這些數據實時采集。數據爬蟲是一種非常流行的數據采集程序,目前互聯(lián)網上擁有大量的爬蟲框架供我們使用,我們只需編寫簡單的代碼便可以開始獲取數據。當擁有海量數據后我們可以對各個商品進行建模,基于hadoop框架進行分布式運算,設計相關預測算法對數碼產品價格進行分析并預測出價格的未來走勢。
2.2從資源角度看
對于數碼產品,互聯(lián)網可以提供各種各樣的信息,比如各大手機生產企業(yè)會在他們的網站上數碼產品的配置信息、評測信息等。在網站建立的初期我們可以從這些網站獲取大量的數據來填充我們的數據庫。對于部分具有版權的數據,我們將采用外鏈的方式將原網站提供給用戶瀏覽,這樣可以節(jié)約開發(fā)資源,并讓網站專注于價格預測的實現。
2.3從商業(yè)價值角度看
一個可以有效預測價格變化的網站是比較有市場前景的,目前互聯(lián)網上充斥著各種各樣的歷史價格查看網站,但是大多沒有可以對價格進行預測的網站。如果我們可以成功的預測價格走勢,我們就可以引導消費,幫助消費者省錢,這也便是網站最大的商業(yè)價值。
3網站概述
網站以用戶需求為出發(fā)點,利用網絡爬蟲、PHP、HTML5、JAVASCRIPT、MYSQL等技術設計開發(fā)。在網站里可以查詢到參數、評測、價格和圖片等關于數碼產品的詳細信息。網站的功能包括數碼產品價格預測(預測到某款數碼產品在未來一段時間內的價格)、信息查詢(含有數碼產品名稱、各項參數、各角度拍攝圖片等信息)、價格對比(及參數對比、圖片對比和綜合對比)等,目的是為人們提供一個簡單易操作、具有現實意義的數碼產品信息查詢平臺。網站技術框架如下圖所示:
4網站設計
4.1網站主要功能設計
4.1.1產品價格預測模塊設計
產品降價預測模塊是網站的重點功能。用戶可以通過網站查詢某個產品的基本信息,并且能夠得知該產品的歷史價格走勢和該產品在未來一段時間的價格走勢,這對于比較注重價格的用戶來說,便可以綜合各類信息和自身需求,更加理性和有計劃地選擇性價比較高的產品。
網站利用分布式爬蟲采集互聯(lián)網各大平臺的IT產品價格數據,形成一個較全面的價格走勢圖,再通過對產品價格進行建模,從建模結果中得到IT產品在未來一段時間的價格走勢。需要說明的是,因為價格容易受到社會、經濟條件以及國際等多種因素的影響,所以預測的價格走勢會有一定的波動。另外,對于不同時期的價格預測也不同,短期內影響因素主要是數碼產品的市場供應,一般采用指數平滑法。這種方法預測主要是靠歷史價格數據逐步往后推導預測價格。對于較長時間,則采用二次指數平滑法較好,因為對于一些時間序列變化可能存在線性的趨勢,這種方法的好處在于能減少預測值的滯后性。如果數據的變化受季節(jié)影響,預測方法應當采用溫特線性季節(jié)性指數平滑較好,因為這個預測方法是根據季節(jié)的變化來進行價格預測,這樣預測的價格更為準確。
4.1.2產品基本搜索功能設計
產品的搜索功能也是網站的基本功能之一。產品的搜索功能不僅僅只是簡單的產品搜索,它是一個包括商品搜索、查看熱門產品、查看最新產品、今日推薦等多模塊組合成的一個大模塊。用戶通過這些搜索信息并結合自己需求,可以理性謹慎地對產品進行對比選購。換言之,產品搜索模塊將完成對商品的導購功能。
4.1.3產品詳情模塊設計
產品詳情頁面包括很多內容,其子頁面也非常多。其中包括:概覽頁面、具體參數頁面、報價頁面、點評頁面、圖片頁面以及競品對比頁面等等,每一個頁面的功能都不同,設計時將合理安排功能的布局,以方便用戶獲取自己所需要的資料。
4.2價格的采集與預測
4.2.1分布式網絡爬蟲
實現價格預測的前提是有大量的歷史價格數據,所以W站利用分布式網絡爬蟲技術從各大網站采集數據,爬蟲主要由兩個模塊組成:
爬蟲引擎:分布式運行且完成下載網站頁面內容,并將數據存入數據庫的工作。
數據清洗:將下載下來的價格信息進行清洗處理,剔除無效信息和冗余信息。
分布式爬蟲技術實現需要對于特定的網頁編寫用于分析其網站源碼和獲取信息的腳本代碼,數據或許后再通過數據清洗去除掉不必要的數據信息,最后把需要的數據存放到數據庫中保存。
4.2.2預測價格
在比較多種預測方法后,我們發(fā)現時間序列法較適合預測數碼產品的價格。時間序列即是某些序列按照時間的先后順序排列而成的一種特殊序列。若利用這組數列,應用數理統(tǒng)計方法加以處理,以解決實際問題,則稱為時間序列分析法。時間序列分析是以時間序列為研究對象,分析序列的本質波動,探究其真實規(guī)律的一種定量分析法。在實際中,通常被用于預測未來現象或指標的波動情況。由于數據量龐大、涉及的商品較多,為了提高計算速度,預測模型需要構架在Hadoop等分布式平臺之上。
5網站的開發(fā)
5.1數據爬蟲程序
開發(fā)一個數據爬蟲,需要用到scrapy框架,該框架是基于python語言編寫的,用python語言開發(fā)程序最大的特點那就是簡單易讀。Scrapy框架非常的簡單易用只需編寫爬蟲規(guī)則就可以開始高效獲取數據,并且該框架是可分布式運行,速度可控,支持JavaScript,非常適合用來采集各大網站的數碼產品數據,最重要的是該框架是免費而且開源的,故運用scrapy框架進行開發(fā)滿足網站需要的爬蟲系統(tǒng)。
5.2價格數據分析系統(tǒng)
對于海量的數據傳統(tǒng)程序沒辦法很好的處理,傳統(tǒng)的win-dows系統(tǒng)也很難有效的承載。故我們選用hadoop生態(tài)體系進行數據分析,該程序可以高可靠的運行在多臺電腦上。為了程序可以長期穩(wěn)定地運行,我們選擇在linux上進行數據分析,這樣的好處是系統(tǒng)穩(wěn)定性強,硬件資源可以高效利用。
5.3網站搭建
和大多數網站一樣,本網站采用BS(Browser/Server)架構,該架構具備以下幾個特點:客戶端電腦負荷大大簡化、系統(tǒng)維護和升級成本低、同時也降低了用戶的總體成本。
我們運用HTML、CSS、JavaScript開發(fā)網站前臺頁面,用PHP開發(fā)網站后臺,MySQL作為后臺數據庫。網站運行在Linux系統(tǒng)下的Apache軟件下,網站的所有軟件均為免費軟件,實現成本較低,也符合當下流行趨勢。
6結束語
本網站是在大數據背景下建立的數碼產品價格預測網站,著重在實現產品價格預測功能、提供報價資訊等內容。網站依托互聯(lián)網數據建立,以滿足消費者對價格預測和導購需求,未來還將繼續(xù)完善研究工作,通過大數據分析提供個性化產品推薦、提供對數碼生產企業(yè)的大數據服務、提供對消費者的購買預測功能。
摘 要:大數據在很多的行業(yè)和企業(yè)得到了應用,對大數據的研究和分析也受到了很多的學者的青睞。大量非結構化流式數據已成為大數據時代的主要數據形態(tài),這給傳統(tǒng)的數據處理系統(tǒng)架構帶來非常大的挑戰(zhàn),必將使大數據處理系統(tǒng)漸漸由流程設計轉變?yōu)閿祿O計。為此,該文主要從大數據分析的方法理論入手,對現今各行各業(yè)即將運用的大數據處理方法進行研究,總結出一種較適用的大數據分析方法及其應用,以供行業(yè)和企業(yè)在未來的業(yè)務活動中作參考。
關鍵詞:預測分析 大數據處理 大數據應用 數據挖掘
隨著云計算、大數據、物聯(lián)網和移動互聯(lián)網等新一代信息技術的發(fā)展,傳統(tǒng)企業(yè)級IT架構正在朝基于互聯(lián)網的分布式新架構轉型。大數據作為新一代信息技術的核心,正在使各個領域變得越來越可感知,并走向智能化。大數據將會發(fā)揮自身獨特的優(yōu)勢,帶給我們更多的方便和便捷。大數據分析的方法理論有哪些、在行業(yè)、企業(yè)的活動中有哪些應用。
1 大數據分析的五個基本要素
1.1 大數據預測性分析
大數據技術的主要應用是預測性分析,如在線教學資源網站通過數據分析用戶會對推薦的教學模是否感興趣,保險公司通過數據預測被保險人是否會違規(guī),地震監(jiān)測部門通過對大數據的分析,預測某地點發(fā)生地震的大致時間,氣象部門利用數據預測天氣變化等。預測是人類本能的一部分,通過大數據預測人類才可以獲得有意義的、智能的信息。許許多多的行業(yè)應用都會涉及到大數據,大數據的豐富特征表述了快速增長的存儲數據的復雜性。大數據預測分析打破了數據預測一直是象牙塔里數據科學家和統(tǒng)計學家的工作,伴隨著大數據的出現,并融合到現有的MIS、MRPII、DSS 、CIMS和其他核心業(yè)務系統(tǒng),大數據預測分析將起到越來越重要的作用。
1.2 數據管理和數據質量
大數據分析跟數據質量和數據管理緊密相關,而質量高的數據和有效的數據管理可以使分析結果有價值、真實并得到有力的保證。
1.3 可視化分析
普通用戶和大數據分析專家是大數據分析的直接使用者,因此他們對大數據分析的基本要求就是要可視化,因為他們想通過可視化分析獲得可觀的大數據特征,讓用戶直觀看到結果。
提高解釋信息的能力可以通過數據的可視化展示來實現,而可視化展示主要由圖形和圖表來呈現。要從大量的數據和信息中找尋相關性非常的不容易,而圖形或圖表能夠在短時間內展示數據之間的相關信息,并為用戶提供所需的信息。
1.4 語義引擎
語義引擎是把現有的數據標注語義,其實可以把它理解為結構化或者非結構化的數據集上的一個語義疊迭層。它是數據分析及語義技術最直接的應用,好的語義引擎能夠使大數據分析用戶快而準地獲得比較全面的數據。
數據分析的新挑戰(zhàn)及困難主要表現在非結構化數據與異構數據等的多樣性,必須配合大量的工具去分析、解析、提取數據。語義引擎的設計可以達到能夠從文檔中自動提取有用信息,使語義引擎能挖掘出大數據的特征,在此基礎上科學建模和輸入新的數據,來預測未來的可用數據。
1.5 數據挖掘算法
大數據分析的理論核心就是數據挖掘。各種數據的算法基于不同的數據類型和格式,能更加科學地呈現出數據本身的特點,能更快速地處理大數據。如果采用一個算法需要花好幾年才能得出結論,那大數據價值也就無從f起了。可視化是給人看的,數據挖掘是給機器看的。集群、分割、孤立點分析還有其他的算法可以使我們深入挖掘數據內部的價值,并且這些算法能夠處理大數據的數據量,也可以滿足處理大數據的效率要求。
2 大數據處理方法
大數據處理技術在社會的發(fā)展中占有重要的地位,現在有很多的研究者對大數據處理技術進行研究,將大數據處理技術與交互設計結合,讓交叉科學得到發(fā)展,計算機技術的進步,讓交叉技術被廣泛應用,并引起了很多人的重視,例如:計算機技術可以在藝術中被應用,進行色彩搭配,還可以將計算機技術應用到垃圾分類里,這些都是研究人員對計算機和交叉設計的結合。這種結合讓設計學與計算機技術緊急的結合在一起,將傳統(tǒng)的調研方式和測試方式應用到交叉科學領域,這種方法的研究可以為用戶調研和測試方法提供依據,能夠減少人工的成本。大數據處理方法其實有很多,筆者根據長時間的實踐,總結了幾種基本的大數據處理方法,如非結構數據處理法、自然語言處理法等,該文主要介紹非結構數據處理流程涉及到的主要方法和技術。非結構化數據處理流程主要以網頁處理為例來闡述,包括3個階段,分別是信息采集、網頁預處理和網頁分類。
2.1 信息采集
信息采集主要是根據相關主題由固定的專業(yè)人士來完成,其采集的數據只能用于所針對的主題和相關的模塊,出于對效率和成本的考慮完全不必對整個互聯(lián)網進行遍歷,因此,模塊信息采集時往往需要研究以哪種方式預測鏈接指向的頁面與主題的關聯(lián)性,并測算其是否值得訪問;然后研究以哪種相關策略訪問Web,以在采集到主題相關頁面的同時,盡可能地減少采集到主題無關的頁面。
預先設定好種子鏈接是信息采集的基本方法,充分使用HTTP協(xié)議下載被訪問的頁面,運用分析算法對頁面與主題的相關性進行分析,然后確定待訪問的相關鏈接,預測可能指向主題相關頁面的鏈接,最后循環(huán)迭代地運用不同的相關策略訪問網頁。
2.2 網頁預處理
網頁預處理最主要涉及到網頁去重處理,網頁去重可以歸為兩類:一類是基于URL的對比去重,它適用哈希算法;另一類是基于內容的對比去重,它適用基于信息指紋的文本相似度算法。
網頁去重是先抽取文檔對象的特征,再對文檔內容進行分解,將文檔的特征集合表示出來,然后有目的針對特征集合的壓縮編碼,通過將哈希編碼等文本轉為數字串映射方式,為后續(xù)的特征存儲以及特征比較提供方便,這樣可以起到減少存儲空間,提高比較速度的作用,最后就是計算文檔的相似度,此步需要根據文檔特征重復比例來確定文檔內容是否重復。一般是提取網頁的某一個信息特征,通常是一組關鍵詞,或者是關鍵詞加權重的組合,調用相應的算法,轉換為一組關鍵代碼,也被稱為指紋,若兩個頁面有大數量的相似指紋,那么可以預測這兩個頁面內容具有很高的重復性。
2.3 網頁分類
網絡時代,人類所面臨的一個非常重要且具有普遍意義的問題就是網頁分類。將網絡信息正確分類,方便人們更好地使用網絡資源,使雜亂無章的網絡環(huán)境變得有條理。而網頁分類一般是先對網頁中的文本素材進行分類,通常采用文本分類來完成。文本分類主要應用于電子郵件分類、信息過濾、文獻翻譯、數據檢索等任務,文本分類的一個關鍵問題是特征詞的選擇問題及其權重分配。
在搜索引擎中,文本分類主要有以下用途:相關性排序會根據不同的網頁類型做相應的排序規(guī)則;根據網頁是索引頁面還是信息頁面,下載調度時會做不同的調度策略;在做頁面信息抽取的時候,會根據頁面分類的結果做不同的抽取策略;在做檢索意圖識別的時候,會根據用戶所點擊的URL所屬的類別來推斷檢索串的類別等。
網頁分類方法有SVM分方法和樸素貝葉斯方法,其中比較推薦的是支持向量機分類方法(SVM),該算法主要基于統(tǒng)計學理論及線性分類器準則之上,從線性可分入手,再擴展到線性不可分的情況。甚至有時會擴展到使用非線性函數中去,這種分類器統(tǒng)稱為支持向量機。近年來,支持向量機分類方法越來越多的受到網頁分類技術人員的青睞。
3 大數據分析在行業(yè)活動中的應用
非結構數據處理和數據挖掘的應用范圍較廣,它可能應用于運營商、銀行、傳統(tǒng)企業(yè)和電商,挑選幾個具有代表性的案例與大家分享。
3.1 電信行業(yè)
某城市電信運營商的上網日志分析系統(tǒng),該系統(tǒng)通過收集用戶上網日志歷史記錄數據,分析出每個用戶的偏好。首先該系統(tǒng)通過并行統(tǒng)計出每個人有效歷史上網日志URL;然后從日志URL中抓取網頁內容,提取正文,并通過文本分類算法計算分類;最后通過統(tǒng)計出每個用戶上網關注類別總數,分析出每個用戶的偏好。
3.2 地產行業(yè)
某房地產企業(yè)的社會化品牌實時營銷系統(tǒng),該系統(tǒng)通過社交媒體數據,進行網絡口碑監(jiān)測,負面情緒被及時地發(fā)現并制止;通過與客戶進行互動,爭取客戶忠誠度;通過監(jiān)控同行及競爭對手的各方面資訊,量化評估競爭態(tài)勢;快速提升品牌知曉度和美譽度,將媒體影響力轉換為客戶量,縮短人氣聚集周期。
3.3 證券行業(yè)
某證券商戰(zhàn)略信息監(jiān)測通過歷史回顧與信息摘要,提供題目、摘要、原文URL,今日輿情焦點,今日輿論,展示抓取的所有期貨產品相關信息的縮略,并提供全文鏈接。通過熱點事件列表可以看到歷史相似事件對趨勢的影響,通過天氣指數與趨勢對應曲線可以看到歷史相似天氣與歷史趨勢的對照。
3.4 金融行業(yè)
某大型股份制商業(yè)銀行供應商風險評估系統(tǒng),該系統(tǒng)通過抓取供應商內部數據,如企業(yè)年報、公司變動、領導情況、財務狀況等數據,分析公司運營指數;通過計算各供應商社交數據,對其社會影響力做評估;通過同行之間的數據分析對比,對供應商進行實力評估,這些數據指數可以有效協(xié)助商業(yè)銀行進行供應商風險評估。
4 結語
大數據處理數據的基本理念是用全體代替抽樣,用效率代替絕對精確,用相關代替因果。證券、微商、地產等行業(yè)每天都會產生巨大的數據量,大數據分析與處理已成為大數據技術的最重要的應用,通過大數據技術從海量數據中提取、挖掘對業(yè)務發(fā)展有價值的、潛在的信息,找出產品或服務未來發(fā)展趨勢,為決策者提供有力依據,有益于推動企業(yè)內部的科學化、信息化管理。
摘 要隨著網絡信息化的快速發(fā)展,我國手機移動用戶的數量呈直線上升趨勢,用戶的增加對移動通信網絡的建設起到了推進作用,傳統(tǒng)的網絡優(yōu)化方式已不適應新時展的需要,因此大數據分析技術的發(fā)展?jié)M足了現代移動通信網絡優(yōu)化的要求,充分提高了工作效率,本文針對目前移動通信網絡優(yōu)化的現狀進行研究與分析,將大數據分析技術合理的運用到移動通信移動網絡優(yōu)化中去,促進移動通信企業(yè)的發(fā)展。
【關鍵詞】大數據分析 移動通信 網絡優(yōu)化 應用研究
為了使移動通信技術滿足時展的需要,4G通信技術的發(fā)展,給人們帶來了更好了通信體驗,同時也對移動通信網絡優(yōu)化服務提出了更大的挑戰(zhàn),數字化和網絡的快速發(fā)展,促進了大數據分析能力的提升,但如何發(fā)揮發(fā)數據分析技術在移動網絡化中的作用是目前最需要解決的問題。
1 移動通信網絡優(yōu)化現狀
現階段,我國移動通信技術取得了一定的成就,但在移動通信網絡優(yōu)化方面還存在很多問題,目前,提高移動通信網絡優(yōu)化的方法有兩種,一種是人工優(yōu)化,即提高網絡技術人員的技術水平,另一種是對通信軟件進行優(yōu)化升級,主要的軟件工具是設備廠商OMC系統(tǒng)工具、第三方工具和軟件、頻率優(yōu)化軟件等。第一種是通過收集數據信息,來分析通信網絡信號和命令的分析軟件,第二種是移動供應商的系統(tǒng)軟件,使通信網絡的穩(wěn)定性和性能得到保證,第三種是調整無線網絡的頻率、參數、鄰區(qū)等,因為第三方軟件和OMC軟件存在不兼容的情況,給移動通信網絡的優(yōu)化工作帶來了很大的麻煩。
2 大數據分析技術對移動通信網絡優(yōu)化的影響
大數據分析技術移動通信網絡優(yōu)化的影響是有利有弊的,一方面大數據分析技術可以有效解決數據量的問題,對數據進行很好的歸類和分析,而另一方面,加大了故障分析的難度。移動通信網絡優(yōu)化就是對用戶通話狀態(tài)的收集和分析,達到排除故障、提升用戶使用感知的目的。
大數據時代的到來,使人們可以更加自由的使用網絡,這對移動通信網絡的技術、承載力有著更高的要求,移動通信技術經歷了從2G到4G的發(fā)展歷程,目前正在進行5G通信技術的研究,移動用戶在使用通信業(yè)務時,天氣、地區(qū)等因素都會對通信質量造成影響,因此,在通信的穩(wěn)定性和抗干擾能力上需要技術的革新,合理使用大數據分析技術,可以有效發(fā)揮對移動通信網絡的優(yōu)化作用。
3 大數據分析在移動通信網絡優(yōu)化中的應用
3.1 移動通信用戶管理優(yōu)化
移動通信用戶的數量在不斷變化,對用戶的數據也要不斷的更新,在處理與保存方面都存在很大的困難,大數據分析技術的應用可以根據各個移動用戶的傳輸狀態(tài)實時記錄,方便了對移動通信用戶的管理,以及對通信網絡穩(wěn)定性的調查和分析。
3.2 移動通信用戶計費管理優(yōu)化
隨著移動通信用戶使用量的增加,出現了消費套餐類型以及消費信息等巨量數據,傳統(tǒng)通信網絡優(yōu)化手段不能及時的進行分類處理,工作效率比較低,而大數據技術的應用,可以快速的對數據進行分析、歸類,使移動通信管理人員可以很好的掌握通信用戶的使用規(guī)律,從而對數據信息進行歸納、分析,發(fā)掘信息的潛在價值,發(fā)現潛在商機,更好的開拓通信市場。
3.3 移動通信用戶行為管理優(yōu)化
用戶對網絡的使用具有很強的不確定性,包括對應用軟件的使用頻率,業(yè)務使用類型以及上網喜好等很難把握,這會使移動通信商在對軟件設計時的定位方向出現偏差,花費巨資開發(fā)的軟件沒有人使用,這種結果會使移動通信商受到嚴重的經濟損失,但如果通過對用戶的上網流量信令、數據等進行挖掘和整合分析,可以發(fā)現其中共性和特點,方便以后軟件的開發(fā)和業(yè)務的開展。
3.4 自動網絡參數調整
當移動通信網絡數據優(yōu)化系統(tǒng)有了輔助決策功能后,這樣的分析結果是很準確的,也經過了多次實驗的考驗,在這種條件下還可以對優(yōu)化工具做進一步改善,我們將可進一步優(yōu)化的軟件作用于OMC系統(tǒng)上,通過OMC可以直接調整網絡系統(tǒng)參數,方便了用戶的同時也為用戶提供了穩(wěn)定的通信質量。
3.5 網絡問題智能分析
通過采集關鍵節(jié)點信令并核查MR報告、告警日志、參數配置文件等數據,對異常Cause進行統(tǒng)計分析查找問題原因。針對不同原因制定具體的自優(yōu)化方案。從故障告警、參數設置、用戶終端、核心網等多個維度輸出優(yōu)化方案。
4 大數據分析在移動通信網絡優(yōu)化中的問題及對策
4.1 數據爆炸
隨著大數據時代的到來,移動通信數據也將面臨著數據爆炸這個問題,移動通信用戶在增加、通信業(yè)務在增加以及數據量都在快速增加,在數據處理方面存在很大的問題。
對此,需要移動供應商有良好的技術人員管理體制,對數據及時進行歸納、分析,同時要引進先進的技術和理念,完成數據分析工作。
4.2 資金短缺
隨著數據量的不斷增加,對移動通信網絡的質量存在很大的挑戰(zhàn),對此,移動供應商需要不斷建設基站、更新設備等,建設周期長、資金量需求大等問題使供應商投入的資金不滿足發(fā)展的需要。
對此,需要移動運營商基于大數據分析,對網絡結構、各個節(jié)點業(yè)務瓶頸等進行分析,并實施優(yōu)化調整,保證投資的效益最大化。
4.3 安全問題
數據量的不斷提高,使數據的存儲成了問題,一旦系統(tǒng)出現漏洞,對數據的安全性造成了嚴重的威脅,導致很多工作無法正常運行,加大了移動通信公司的損失程度。
要求維修技術人員定期對數據系統(tǒng)進行維護處理,保證系統(tǒng)的安全性和數據分析技術的正常運作。
5 結束語
目前,大數據分析技術已廣泛應用在移動通信的各個工作當中,移動通信網絡也依賴于大數據技術的發(fā)展,為移動通信公司提供了專業(yè)的數據分析技術,同時也保證了通信質量的提高。
【摘要】大數據背景下,音樂院校圖書館運用網絡媒體信息及購買或自建各種類型數字資源,將紙質資源與網絡技術有機結合,進一步挖掘自身資源,提升讀者服務。筆者通過大數據原理對幾大音樂學院圖書館網站3年來網頁信息及數字資源的運行進行分析,并將分析結果歸納、去繁就簡,充分利用大數據這種新興方式為其數字資源的利用提供可行性建議。
【關鍵詞】大數據;音樂院校;數字資源
高校圖書館是教學、科研的信息中心,進入信息化時代后,由傳統(tǒng)的手工服務步入了通過計算機網絡的自動化服務階段,網絡信息系統(tǒng)及數字資源也日趨成熟穩(wěn)定。如今普通院校圖書館網絡已經由VPN技術服務上升到“云舟服務”,而音樂院校圖書館也積極發(fā)展網絡信息及電子數據資源。在信息“大數據”的背景下,如果只關注信息的及單一的信息輸出,不進行數據分析,就會導致網絡平臺及數字資源的運行和跟進服務欠缺,出現優(yōu)越性不能持久、缺陷無限延伸的情況,如此就會削弱本身的“教學輔助功能”。
一、大數據調查列表
大數據,或稱巨量資料,具有Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)4大特點。筆者于2016年4月通過登錄官方網站的方式對全國九大音樂院校圖書館2013―2015年間網絡服務系統(tǒng)進行了全面的數據采集,由于有的院校未設定“訪問量”單元數據對本文無意義,所以只能放棄?,F僅以西安音樂學院圖書館為主,其它音樂學院圖書館為輔,對三年來網絡系統(tǒng)的運行情況進行大數據方式的統(tǒng)計、分析,剖析、提出問題,探究造成問題的原因、對策以及建議等。
(一)西安音樂學院網絡服務系統(tǒng)調查。從對各音樂院校圖書館的調查中看出,2013―2015年排前三的為:《英語聽說學習多媒體資源庫》試用通知、“數據庫試用通知”“全國音樂學院圖書館文化建設論壇在武漢音樂學院舉行”;2014年排前三的為:“新東方多媒體學習庫校外訪問通知”“西安音樂學院第四屆世界讀書日活動圓滿落幕”“書香西安音樂學院―中文在線電子圖書試用通知”;2015年排前三的為 “2015陜西高校圖書館新人入職培訓”“2015年高校數字資源建設與共享學術交流大會”“圖書館參加全國藝術院校圖書館學術研討會”。
(二)西安音樂學院圖書館2014年―2015年BBS(新書通告)訪問調查(其余音樂學院圖書館因篇幅原因略)。調查出處于首位的是“2014年最新書目”,其次為“2013年最新音像目錄”,再次為“2014年最新音像目錄”。
(三)西安音樂學院圖書館2014年―2015年BBS(資源動態(tài))訪問調查(其余音樂學院圖書館因篇幅原因略)。從調查可看出處于首位的是“知網?庫客數據庫用戶名、密碼”;其次是“維普資訊試用通知”;排在第三位的是“新東方數據庫試用通知”。
(四)西安音樂學院圖書館2014年―2015年BBS(試用數據庫)訪問調查(其余音樂學院圖書館因篇幅原因略)。從調查可看出排在首位的是“新東方媒體學習庫”,第二位的是“空中英語教室學習音像數據庫”,排在第三位的是“銀符考試題庫”。
(五)西安音樂學院圖書館2014年―2015年BBS(外文數據庫)訪問調查(其余音樂學院圖書館因篇幅原因略)。從調查可看出排在首位的是“美國科研出版社(Scientific ResearchPubling)期刊”,第二位是“ASP世界音樂在線”,排在第三位的是“ASP表演藝術、戲劇與電影視頻庫”。
二、 原因分析
(一)非實用性公告影響。公告是網絡信息系統(tǒng)中包羅內容最多也是搜集網絡學術情報的“引擎”,而訪問量排在前三位的都是非實用公告。
(二)讀者的從眾心理。網絡時代造就了一大批“皇上”讀者,對任何服務都“吹毛求疵”。
(三)單邊效應。在網絡系統(tǒng)服務方式中,圖書館的任務角色往往只是承擔開通責任,在利用過程中存在的問題無法及時得到圖書館專業(yè)人員幫助解決。
三、對策
(一) 提高館藏質量。當今任何一個圖書館也沒有能力將所有書刊資料盡數收藏,只能根據本館的任務對象,對所需資料進行有選擇、有重點地收藏。
(二)定期開展各類實體或虛擬的文獻服務講座。結合各系工作重點進行跟蹤服務。
(三)開辦館辦刊物。這是一個很好揭示館藏資源的方式。
(四)注重學生需求。學生這個群體是除了專業(yè)圖書的需求外,同時也需要與個人愛好、興趣等相關的提高綜合素質的圖書,這些都不是教書和采訪人員完全能把握的,因此,非常有必要把他們的代表納入選書隊伍。
(五)讀者推廣。圖書館通過舉辦讀者活動如“世界讀書日活動”、讀書沙龍等活動,對館藏文獻有了進一步的了解。
(六)數據推送服務。數據推送服務是指圖書館根據讀者的需要,主動將讀者所需的信息內容推送到讀者端,大數據環(huán)境下對于讀者的各類行為。
四、 結語
大數據分析方法旨在從眾多紛繁復雜的數據中找出能為讀者提供高效、及時、全面的服務為本,同時依據此數據還可以為圖書館館藏結構的改善提供本基礎,通過對某些訪問量較少或無訪問的數據庫的實際操作找出了問題的癥結所在,找出原因給出建議。
[提要] 當前,我國房地產處在結構調整期。從市場需求方面,由以前的賣方主導市場需求慢慢轉變成為買方主導市場需求;從企業(yè)競爭來看,由于材料、人工成本不斷增加,導致企業(yè)利潤下降,競爭壓力加大;與此同時,政府部門對房地產業(yè)的調控力度也逐漸加大。然而,在一些三四線城市,仍然存在一些房產滯銷、房產市場消費購買情況不太樂觀的情形。本文通過數據分析,對不同消費人群的消費特征進行房源的匹配,以達到精準營銷,為房地產市場營銷制定相應的營銷策略。
關鍵詞:房產需求;目標房產;精準營銷;相應分析
一、調查背景
黨的十八大以來,積極踐行“供給側結構性改革”,同時針對三四線城市房產積壓、房產滯銷的情況,基于房地產企業(yè)發(fā)展背景,運用相應方法,分析北京市八達嶺2015年1月~2016年2月所有樓盤消費者到訪和成交數據,發(fā)現和提取其中的有效信息和新知識,根據不同消費者的消費特征以匹配不同的房源,提高成交率,達到“去庫存”的目的。
二、調查數據介紹
本次調查數據基于零點有限公司提供的北京市八達嶺樓盤18萬余消費者購買房產的一系列相關信息為分析的對象,結合統(tǒng)計學原理,市場營銷學等學科內容,對數據采用相應的分析方法,對數據進行科學分析和處理。
三、數據結果分析
(一)從事第三產業(yè)的消費者傾向于購買高檔住房。將消費者所從事的行業(yè)按照第一、第二、第三進行劃分,發(fā)現從事第三產業(yè)的人們更加傾向于購買高檔和普通住房,進一步分析也許與從事第三產業(yè)人們的收入水平有著密切聯(lián)系。同時,他們可能對于生活的品質要求更高,在他們看來,住房不僅僅意味著簡單的居住場所,更多的是他們享受生活,培養(yǎng)情操的最佳場所。反觀從事第一產業(yè)的人們,可以發(fā)現收入水平不高,對于生活品質的要求也會降低。在他們看來,只要有一處休息之處便是極好,所以可能會傾向于購買如地下室這樣的住所。從事第二產業(yè)的人們基本穩(wěn)定,大多會選擇購買普通住房。(圖1)
(二)處在單身期、成長期和形成期的家庭傾向于購買普通住房。不同的家庭結構擬購買或實際購買的住房類型呈現明顯的差異:處在單身期、成長期和形成期的家庭傾向于購買普通住房,單身期生活壓力相對較低,主要來自就業(yè)。(圖2)因此,可以將自己的可支配收入積攢下來購買價格相對較低的普通住房;成長期和成熟期的家庭逐漸增加了來自家庭、孩子的壓力,但由于這個階段,事業(yè)也處于增長期,所以工資相對單身期會有較大幅度的增加,購買普通住房便是首選。對于成熟期的家庭,住房需求、生活壓力大大降低,就會考慮用家庭剩余資金進行儲蓄或投資,房地產投資在當前市場環(huán)境而言是首選;或者是當剩余資金積攢到一定額度,他們便會考慮將現有住房更新?lián)Q代,購買高檔住房。
(三)家庭收入較高的消費者更傾向于購買高檔住房。不同家庭收入的住戶擬購買或實際購買的住房類型呈現出明顯的差異:北京年收入最貴學區(qū)房高達10萬元/平方米,收入在10萬元以下的家庭會選擇購買地下室,這個收入段的人群大多數集中在外來打工人員,背井離鄉(xiāng)的他們將大部分錢寄回老家用于支付子女的教育費和老人的贍養(yǎng)費,因此剩余給自己的少之又少,衣食住行方方面面都需要節(jié)儉,地下室便是無奈之舉。對于在中低收入段10~30萬元的家庭,購買普通住房是首選,少數也有購買車位和商業(yè)用房的,這和當前房價的熱漲行情有很大的聯(lián)系。收入在30萬元以上的家庭會考慮購買高檔住房,其中收入在80萬元以上的家庭表現的尤為顯著,經濟學中“恩格爾定律”表明,收入越高恩格爾系數越小,用于文教娛樂和高檔物品的消費顯著增加,高檔住房便是之一。(圖3)
(四)目前居住戶型較高檔的消費者傾向于購買奢華住房。通過對消費者目前居住戶型和產品類型進行相應分析得到圖4。從第一維度來看,產品類型分布較為分散,消費者目前居住戶型分布相對集中;在第二維度上,產品類型分布和消費者目前居住戶型分布都相對集中。從圖中可以分析出,目前居住戶型為租住、一居、兩居和三居的消費者在購買住房時選擇普通住房的可能性較大,其次可能選擇地下室;目前居住戶型為4居或者別墅的消費者在購買住房時選擇高檔住房的可能性較大。目前住房為四居或者別墅的消費者經濟狀況相對較好,因此對住房的要求較高,所以選擇高檔住房;目前住房為四居以下(不包含四居)或者是租房的消費者經濟狀況相對較差,因此購房時選擇普通住房或者地下室也符合實際。因此,銷售人員在向消費者推介住房時應該先了解消費者目前居住戶型,并根據消費者目前居住的戶型進行相應的有關連的推介。(圖4)
(五)消費者置業(yè)目的的差異導致購買住房的差異。通過對消費者本次置業(yè)目的和產品類型進行相應分析得到對應分析圖。如圖5所示,消費者本次置業(yè)目的和產品類型在第一維度和第二維度上分布都較為集中。從圖中可以看出,本次置業(yè)目的為第一居所自住或者是用于投資的消費者,一般會更加傾向于選擇普通住房,本次置業(yè)目的為第二居所或者是第一居所他人居住的消費者,如果購房是用于居住則可能更加傾向于購買高檔住房或者帶有車位的住房,如果購買住房是用于存放物品或者其他用途則可能更加傾向于購買地下室。因此,銷售人員在進行銷售時要在參考該對應分析圖的基礎上也要根據實際情況判斷消費者適合的住房類型,為不同需求的消費者進行準確的房屋推薦。(圖5)
四、小結
通過對消費者自身的消費特征進行分析,房地產銷售商應該在營銷過程中著重關注消費者的典型的消費特征,在準確進行本企業(yè)產品市場定位的基礎上,以滿足客戶差異化需求,激發(fā)客戶潛在需求為切入點,找準營銷人群、配準營銷策略、匹配營銷渠道、投準營銷資源,針對客戶不同的購房需求,為客戶提供滿足個體要求的個性化產品;與此同時,“喚醒”大量的、差異化的需求。同時,選擇不同的傳播方式和渠道分別推送產品信息,如微信、傳單、網站等形式,并實時更新數據。通^售后客戶關懷等手段建立起增值服務體系,做好精準營銷的實際效果評估。將最終的評估效果反饋到房源與客戶的精準匹配過程,調節(jié)客戶的需求類型;同時,良好的售后增值服務可以留住老客戶,營造良好的企業(yè)口碑,以此發(fā)掘和帶動新客戶,真正達到“去庫存”的目的,促進房地產市場的發(fā)展。
摘 要 隨著經濟的發(fā)展和社會的進步,計算機技術逐漸豐富人們的生活,大數據分析技術作為近啄晷似鸕囊幌罡嚦萍跡能夠智能存儲豐富的數據資源,數據的產生以及更新的速度逐漸加快,數據的種類也相對繁多。通過對大數據進行分析,能夠發(fā)掘其中存在的政治、經濟以及文化資源和社會價值,對于企業(yè)來說,能夠存儲于客戶之間的大量的信息,從而提升經濟價值,加速社會生活的運轉,從而促進時代的進步。本文主要研究大數據系統(tǒng)中的主要分支,并分析其具體的應用。
【關鍵詞】大數據分析 系統(tǒng) 高速 數據更新
大數據概念的逐漸興起,帶動了各大行業(yè)的發(fā)展和更新,那么大數據的具體概念究竟是什么,書中的解釋是一般的軟件難以概括和捕捉和分析的較大容量的數據,更大的意義是在于能夠通過交換、整合海量的數據,發(fā)掘新的知識,從而創(chuàng)造更大的價值。大數據系統(tǒng)中包含倉儲數據系統(tǒng)、圖形處理系統(tǒng)、日志數據處理系統(tǒng)以及MapReduce數據系統(tǒng)等等。本文通過分析其中主要的幾個數據處理系統(tǒng)中的差異和共性,分析大數據分析中的主要應用。
1 大數據分析系統(tǒng)中的Velocity
1.1 事物的處理系統(tǒng)
事物處理系統(tǒng)是傳統(tǒng)的商業(yè)數據庫中主要的應用軟件之一,必須要支持大量的并存用戶,由于每一位用戶操作時所讀取的數據只占其中的一小部分,并且會隨機的分布在每一個數據系統(tǒng)中。例如在銀行的存款中,每天都有成千上萬的客戶利用自動取款機或是人工服務進行交易,每一位客戶對自己的銀行賬號進行操作,對于銀行的整個數據系統(tǒng)中是極為微小的一部分,,是隨機分布在各個銀行的數據之內的。因此在大數據的時代,隨著科學技術的不斷普及,事物處理的規(guī)模和程度也就不斷地加大。
在事物處理的系統(tǒng)當中,velocity是數據系統(tǒng)設計中的主要核心,引導每一位客戶對其自身的業(yè)務進行準確的操作,同時需要盡可能的支持更多的并發(fā)業(yè)務,在實際的系統(tǒng)中,TPC-C與TPC-E是測試事物處理效率的主要依據。許多數據分析企業(yè)簡化了數據分析的步驟,這樣雖然能夠從一定程度上減少分析的成本,提升的分析的性能,但是為了能夠實現更多的分析應用,促進大數據系統(tǒng)的高效運行,需要程序員逐一解決實際的分析問題,將研究的重點放到ACID上。
1.2 數據流的系統(tǒng)
向較與事物處理系統(tǒng),數據流系統(tǒng)的主要任務是分析流過系統(tǒng)中的主要數據,在每一條流過的數據中,計算出事先定義好的查詢運算,例如差異監(jiān)測、統(tǒng)計運算、復雜事件處理等等,系統(tǒng)中的運算需要連續(xù)不斷的進行,由于不需要對數據進行大面積的存儲,因此流過的數據也就是無限量的。我國數據流系統(tǒng)最早出現于20世紀末,最開始被應用于電信流量監(jiān)控以及交通情況分析等等。同時與實務處理系統(tǒng)相似的是,數據流系統(tǒng)的核心任務也是velocity,其更加注重的是對于數據系統(tǒng)的吞吐量控制,單位時間內流過的數據量能夠方便系統(tǒng)的儲存,另一方面能夠實現更多的惡吞吐率。
1.3 大數據分析系統(tǒng)
大數據的分析是確保數據價值的主要途徑,通過對海量的數據進行分析,能夠基本的總結出數據中蘊藏的規(guī)律,從而能夠更好地理解現實,對未來的事件進行預測。大數據系分析系統(tǒng)與事件處理系統(tǒng)與數據流系統(tǒng)存在一定的差異,與事件處理系統(tǒng)相比,大數據分析系統(tǒng)只為極少數的客戶進行服務,例如公司的數據分析師、決策人員以及對數據進行分析的管理人員,并發(fā)的用戶量小于數據的處理系統(tǒng),但是對于系統(tǒng)進行的數據處理工作并不少于事件處理系統(tǒng);向較于數據流系統(tǒng)大數據分析系統(tǒng)能夠處理系統(tǒng)中所存儲的數據,而不是處理流動中的數據,雖然數據不一定 能夠全部放入內存,但是大部分系統(tǒng)需要利用外部處理器進行處理。
在大數據的時代之下,velocity的作用越來越突出,數據通過不斷產生、流通并加載到數據系統(tǒng)中,從靜態(tài)的角度分析和優(yōu)化數據分析系統(tǒng)存在一定的問題,首先是無法反應并及時更新數據,難以適應眾多的在線應用需求;其次,靜止的狀態(tài)可能會受到數據更新的干擾,數據分析的性能無法得到最大程度的發(fā)揮。因此程序員在設計大數據分析系統(tǒng)的過程中,不僅要注重數據操作的本身,還應該理清整個數據分析的生命周期,從而使其設計理念充分發(fā)揮在系統(tǒng)應用中。
2 在數據系統(tǒng)倉儲中高速數據的更新
2.1 傳統(tǒng)的數據更新對數據分析操作的影響
分析數據系統(tǒng)中的查詢工作,在硬盤上進行數據的順序閱讀,一般情況下,常規(guī)的數據順序讀性可能會達到100MBps,相對于傳統(tǒng)的數據更新對數據頁面進行數據的錄入和插入以及修改等操作,數據的訪問也比較符合前段系統(tǒng)的數據特征,基本上也是隨機進行的。同時由于技術水平的限制,大多數硬盤只能支持每秒一百次的隨機訪問,系統(tǒng)運行的效率大打折扣。再加上隨機訪問可能會干擾良好的數據信號,在操作的過程中,需要不斷更換硬盤的磁頭才能進行后續(xù)的工作,因此也在一定程度上降低了數據分析的可能性。
2.2 在線高速數據更新的設計目標
在進行設計的過程中,需要準備固態(tài)硬盤、硬盤以及內存三種設備,主要的數據內容依然存放于硬盤中,并在系統(tǒng)中增加少許的固態(tài)硬盤,用來暫時存儲臨時更新的數據,利用這樣的形式,能夠有效的降低系統(tǒng)更新對數據查詢的影響,由于固態(tài)硬盤的容量也比較小,因此其成本也相對較低。系統(tǒng)中的每一條數據都需要包含其主鍵、操作流程以及更新后的數值。因此需要在內存緩沖之前及時進行更新數據,當緩沖完成之后,將數據的更新記錄錄入在固態(tài)的硬盤中,在讀入的數據系統(tǒng)中記錄插入和修改的操作,從而產生最新的數據信息。
為了完成上述的操作,需要保證幾個設計的前提:
(1)對查詢的結果影響小,這是主要的設計目標,在具體的算法設計中,利用固態(tài)硬盤的特征,減少線上更新對數據查詢操作的影響;
(2)內存的占用較少,內存的大小可能會影響運算的性能,首先內存能夠用于數據的緩存,減少不必要的操作,其次,以排序作為基礎的算法,對于內存的大小不同,算法的性能可能會出現很大的變化,因此當數據能夠完整的納入內存之中時,利用計算方法只需要讀取以此數據,就能夠計算出具體的內存容量,從而減少對于內存的占用,提升數據內存的可靠性能;
(3)高效的遷移和操作,從時間方面來看,以前e累的大量數據記錄,每一頁的主數據中可能會存在一些新的更新記錄,而不是隨機的抽取,在空間的數據方面,數據的遷移能夠隨時空間的轉移進行更新,因此只需要使用少量的硬盤空間,就能存儲大量的更新數據。
2.3 MaSM算法
在數據更新系統(tǒng)和固態(tài)硬盤中加入兩層數據結構,歸納并操作時,需要將數據更新的記錄按照主鍵的順序進行排列組合,并簡化外部內存的排列程序,當緩沖完成之后,算法對緩沖區(qū)域中的數據更新記錄進行修改,從而將排序之后的數據更新記錄記載在固態(tài)的硬盤中,編寫一個新的文件,之后便不再系修改。對于主鍵范圍之內的數據查詢工作,需要創(chuàng)建一個table range scan造作的運算部件,將數據更新記錄的數值范圍精確到固定的區(qū)域之內,使程序員能夠及時并便捷的找到數據更新的差異和規(guī)律,從而對整個大數據分析提供有一個準確的把握。
3 高性能日志處理系統(tǒng):LogKV
3.1 LogKV系統(tǒng)結構分析
鍵值系統(tǒng)能夠靈敏地表現多種類型日記的信息和記錄,并能夠提供可靠的數據存儲資源,系統(tǒng)由一個調節(jié)的管理支點和多個工作的節(jié)點通過數據中心的網絡系統(tǒng)連接在一起,每一個工作的系統(tǒng)都由兩個子系統(tǒng)構成,IngestKV是鍵值存儲的子系統(tǒng),使日志能夠順利的緩沖和收集,并實現系統(tǒng)的設計理念和設計目標。
3.2 從日志的數據源到系統(tǒng)的映射
需要管理員盡可能的平衡各個節(jié)點之間的日志數據流量,優(yōu)化獲取日志的方法,首先,日志的數據源能夠運行LogKV的程序,進行直接收集日志資源,由網絡信號進行數據的發(fā)送和傳播;其次,日志的數據源能夠通過配置遠程的端口和服務器,將日志的數據直接發(fā)送到實際的運行系統(tǒng)中,從而促進整個系統(tǒng)的高效運行;最后,日志的數據源能夠將數據寫入到本地的文件中,并通過文件傳輸的協(xié)議,產品能夠數據源中獲取到數據文件。
4 總結
綜上所述可知,隨著經濟的發(fā)展和社會的進步,科學技術水平也得到大幅的提升,為了能夠跟進時代的步伐,體驗科技的成果,采用大數據分析以及高速更新數據更新的技術,不僅能夠提升人們的生活質量,加快社會進步的腳步,同時也能夠促進我國的科技軟實力,從而在激烈的國際競爭中找到一席之地。因此程序員在進行數據分析的過程中,需要充分了解設計的內涵,確立在線高速數據更新的設計目標,從而方便大數據的存儲和運行。
摘 要 文章介紹了大數據技術的即時性、準確性和預測性,并將大數據技術與公共交通、醫(yī)藥領域、移動通信網絡優(yōu)化相結合,從而方便了人們的生活,提高了人們的生活質量。
【關鍵詞】大數據分析 公共交通 醫(yī)藥 移動通信
所謂大數據,一方面是指在一定時間內無法被常規(guī)信息技術和傳統(tǒng)數據庫管理軟硬件工具感知、獲取和處理的巨量數據集合;另一方面,是指形成、管理、挖掘大數據, 快速搜集、處理、分析大數據的技術和能力。
大數據的主要特點是海量、非結構化和半結構化、實時處理。大數據技術,或大數據分析技術,就是對這些數量巨大的海量數據進行搜索、整理、分析、加工,以便獲得有價值的產品和服務,以及提煉出具有深刻見解和潛在價值信息的技術和手段。
1 大數據分析在公共交通中的應用
交通擁堵日益嚴重,交通事故頻繁發(fā)生,這些都是各大城市亟待解決的問題,科學分析交通管理體系成為改善城市交通的關鍵所在。因此,高效、準確地獲取交通數據是構建合理城市交通管理體系的前提,而這一難題可以通過大數據管理得到解決。
大數據分析技術改變了傳統(tǒng)公共交通的路徑:大數據可以跨越行政區(qū)域的限制;大數據可以高效地整合交通信息;大數據可以較好地配置公共交通資源;大數據可以促進公共交通均衡性發(fā)展。在大數據中,隨著數據庫攝入更多數據,所消耗的計算工作量反而遞減,配置成本也隨之減小,但所做的計算則更加精準。大數據在公共交通中的應用表現在:一旦某個路段發(fā)生問題,能立刻從大數據中調出有用信息,確保交通的連貫性和持續(xù)性;另一方面,大數據具有較高預測能力,可降低誤報和漏報的概率, 可隨時針對公共交通的動態(tài)性給予實時監(jiān)控。因此,在駕駛者無法預知交通擁堵的可能性時,大數據可幫助用戶預先了解。
2 大數據分析在醫(yī)藥領域中的應用
在醫(yī)學領域,我們正處在一醫(yī)學信息爆炸的時代?;蛐蛄小⒏鞣N醫(yī)學圖像、電子病歷記錄和多中心臨床藥物試驗等,使生物醫(yī)學領域跨入網絡化的大數據時代。如何從醫(yī)療大數據中提取出有用的信息是目前亟待解決的問題,構建醫(yī)療大數據系統(tǒng)需要將各家醫(yī)院通過互聯(lián)網連接,實現各家醫(yī)院之間的數據共享。將醫(yī)療數據存于專門的數據庫中,在信息協(xié)作平臺上將各種醫(yī)療信息分類整合,建立成一個相互共享的網絡,從而實現醫(yī)療數據信息的共享。
大數據技術的核心就是預測,使用大數據分析技術可以提高診斷疾病的準確率,對有效地治療疾病具有重要價值。其中最好地體現在傳染病預測上,因為傳染病的發(fā)生、發(fā)展、分布與地理地貌、生態(tài)景觀、人文環(huán)境有密切關系,特別在全球氣候變化和經濟全球化背景下,自然環(huán)境及人類社會活動對傳染病的影響越來越重要。因此,時間和空間信息對傳染病的預測、預警具有重要意義。利用大數據可對傳染病疫情的時間、空間信息進行多維搜索,檢索、處理和分析這些疫情信息可實現對傳染病的流行趨勢及影響范圍進行預測、預警,對提高傳染病防控的針對性、預見性和主動性,抑制流行病的蔓延,以及制定衛(wèi)生決策都具有十分重要的意義。
3 大數據分析在移動通信網絡優(yōu)化中的應用
當前的大數據技術面臨著數據過大和安全隱患越多這兩個問題。在移動通信網絡發(fā)展的過程中,網上用戶在不斷增加,通信網絡的范圍在不斷擴大, 而移動通信網絡所產生的數據量也在不斷上升。大數據技術和移動通信網絡的安全問題密切相關,一旦技術出現漏洞,移動通信網絡的數據就會出現安全隱患。大數據技術中存儲功能的是云儲存技術,它將大量的網絡數據放在統(tǒng)一的平臺之上,加大了數據丟失的風險,影響移動通信網絡的安全。
優(yōu)化移動通信網絡,需要運用大數據技術的儲存功能。移動通信網絡的用戶在不斷變化,每天都要更新大量的數據,而且這些數據都需要進行妥善管理和保存。在這一過程中,可以應用大數據技術的存儲功能, 將存儲虛擬化作為解決存儲問題的有效策略。
優(yōu)化移動通信網絡,需要獲取相關的數據信息。移動通信網絡的用戶非常多,而且其所跨越的時間、空間維度都很大,這些用戶在移動通信網絡留下的海量的數據信息,使數據獲取工作難以繼續(xù)。在進行數據的獲取和收集工作時,移動通信網絡可以應用大數據技術,減少人力和物力的投入,同時增加數據的準確度。
4 結語
本文是大數據技術在實際生活領域的應用,分別闡述了大數據分析技術在公共交通、醫(yī)藥領域、移動通信網絡優(yōu)化中的具體運用。借助大數據技術的即時性、準確性和預測性,將其應用到人們的日常生活領域,提高了人們的生活質量。
【摘要】本文主要從基礎水平、目標要求、薄弱點、性格等四個方面進行數據建模,結合學生學習過程中的數據分析模型,對學生學習群體進行立體的分析和分類,將學習群體細化地分成多類,因材施教;橫向針對個人,從聽、說、讀、寫、譯五個方面及多個細分點進行數據建模和分析,明確給出學生英語學習的切面水平圖,對學生的英語學習進行有針對性的可視化分析;縱向以學生個體在學習過程中積累的變動數據為根據,橫向細分考察點為依托,繪制學生個體在學習過程中的數據變化模型,對整個學習過程進行可視化研究。
【關鍵詞】英語教學 可視化分析 學習成效
我國英語教學在網絡課程、移動學習、智能測評等方面近年來發(fā)展迅猛。結合我國實際的教學環(huán)境以及新近發(fā)展起來的大數據可視化分析模型,探索更有針對性更加有效的英語教學模式,以更大限度的提高學生學習熱情,改善學習成績,培養(yǎng)全面發(fā)展的英語人才。
一、中國英語教育的規(guī)模與社會需求
全球化進程和頻繁的國際交流推動著我國的英語教育發(fā)展,同時也導致外語類教學消費的泡沫現象。針對高校英語專業(yè)和英語增長和英語類考試泛濫的現狀,導致了學生數量與教學質量之間的矛盾。我國高校英語教育規(guī)模和社會需求的快速發(fā)展,但也隨之帶來了師資不足、教材陳舊、教學手段落后、理論和實際脫離等一系列問題。在飛速發(fā)展的大數據時代,如何在保障英語教育規(guī)模的同時,建設英語專業(yè)教材、深化英語專業(yè)教學改革、確保英語專業(yè)教學質量已經成為當前迫切需要解決的問題。
二、大數據分析模型在學生英語學習過程中的應用
大數據概念在教育領域的發(fā)展體現在:開創(chuàng)教育理念的新思維新視角的同時,也給教育實踐探索帶來了新技術、新方法。通過數據記錄學生學習的能力、效果、時間、水平、成績、思維流程等,能夠直接、具象的掌握學生的學習進度。通過大數據系統(tǒng),對這些信息和數據進行記錄、整理、統(tǒng)計、分析,使得教師能更科學全面地掌握學生的學習動向,也使得學生和家長能及時客觀地了解個體發(fā)展情況。
通過大數據分析模型著重闡述了如何對學生英語水平進行切面橫向的評價,同時進行分析研究,查缺補漏,制定個性化學習方案,教師實行定制化的施教方案,有針對性地對學生的英語學習進行指導和教授知識點,有效提高學生英語水平。
從縱向的時間維度來講,以學生個體在學習過程中積累的變動數據為根據,橫向細分考察點(聽說讀寫譯的子考察點)為依托,這樣可以繪制出學生個體在學習過程中的數據變化模型,制作出來評分圖,對比以前的評分圖,可以實現對該學生整個學習過程進行可視化研究,并隨時調整學習方法和施教方案,有針對性地加強薄弱點的學習,掌控學生的學習效果。
同前面所述一樣可以繪制出學生的學習水平評價表,可以清晰地記錄學生的學習軌跡,如果條件允許還可以制定學習記錄檔案,這不僅能成為學生學習成長的指引工具,也有助于鍛煉學生的分析解決問題能力和邏輯思維。
三、大數據分析法在英語教學當中的應用
1.大數據分析模型在學習群體中的分類應用。對一個學習群體來講,主要從以下四個方面進行分類研究,考查點分別是基礎綜合水平、學生學習目標要求、英語學習薄弱點和學生的性格特點等。該四個考查點每個以滿分100分計,基礎綜合水平時根據學生目前的學習狀況做個全面客觀的測試,可以從聽說讀寫譯等五個基礎點進行測試,為考慮英語教學是為學生英語學習的全面發(fā)展,故每個基礎點滿分為20分,進行考察統(tǒng)計;學生學習目標要求是指根據學生當前狀況,同時結合學生家長、學生本人以及學校的期望和要求,制定合理的學習目標;英語學習薄弱點主要通過綜合水平的考查就可得出學生學習的評估結論;性格特點是指在英語學習過程當中該學生適合的一種學習方法,以上四個方面具體參考下面表格進行分類:
通過基礎綜合水平(從聽說讀寫譯等五個方面進行考核)、學習薄弱點、性格特點、學習目標要求(學生自己的學習水平,學生家長、學生本人以及學校的期望和要求)這四個方面,將學生群體分成幾類,清楚了解他們在英語學習過程中存在的問題,可針對性地進行施教,同時對學習過程進行圖表追蹤,可以直觀反映學生在學習過程中的進步情況。傳統(tǒng)的教育教學評價模式和大數據的評價模式有較大的差別,大數據時代的教育,更加注重ρ生多方面的考核,對學生的了解更具有針對性,施教方法和教材的選用都能體現個性化,會更客觀和全面地對學生進行考核、評價、分析和研究。
通過對學生群體從以上四個大方向的了解分析,進行有針對性的施教,前三個方面是從學生當前自身的了解,后一項是對其學習目標的確認,首先,在了解以上各方面的狀態(tài)下,結合學生的基礎綜合水平高低將其目標分段實現,同時,結合其學習薄弱點,進行重點練習和學習,鞏固以前基礎,提升重點知識水平,針對不同性格的學生,采用不同的學習和練習方法,比如性格開朗具有語言天賦的學生更能在聽說應用中提高知識水平,性格內向的學生在讀寫和記憶知識方面更能發(fā)揮他們的優(yōu)勢。
2.大數據分析模型在學生個性化英語學習中應用。
(1)英語教學評價指標體系介紹。以單個學生為例,由評價老師組成評價小組,取平均值對學生進行橫向切面的英語水平數據分析,評價表設計為:聽(詞0.2、句0.2、文0.2、邏輯關系0.3、習語0.1)說(發(fā)音0.5、斷句0.3、語氣語調0.2)、讀(詞匯0.3、句型0.3、語法0.4)寫(詞匯0.5、格式行文0.2、組織結構0.3)譯(口譯0.4、筆譯0.4、速記0.2)。
通過以上表格對學生的英語水平進行全方位的數據分析,需要說明的是評分等級可以是上面模糊指標,也可以是精確的得分,通過建立科學準確的數學模型,可以輕而易舉的展現出某一學生的優(yōu)勢和不足,同時上表還可以結合學生的目標要求拆開來用,針對某一或幾個大類進行評價分析,最終可視化地得出學生英語水平表,之后針對學生的不足制定出個性化的學習和施教方案。按照英語水平數據分析評價模型表,就某一學生實際英語水平考查得分用柱狀圖進行可視化分析。
從圖1可以看出該學生的能力水平中等偏上,但是翻譯水平很差,讀寫水平良好,聽說能力一般,總體水平都有待提高,特別是翻譯水平需要特別注意。經過分析,針對該學生教師首先著重從鍛煉其翻譯能力為重,制定專門能夠提高翻譯水平的施教方案和策略,同時注意對聽說讀寫等方面能力的學習和提高。
下面再聽力水平為例進行分析,研究哪些細分方面能力水低而導致該生的聽力水平一般。以聽力水平考查得分為例,
由上圖可以輕松看出來該生的英語聽力水平一般,具體原因除在詞匯方面表現良好以外,其他細分能力點的水平都很普通,在全文聽力理解表現較差,對語句理解一般,全文邏輯關系掌握較差,英語習語的了解水平低,說明該生需要著重訓練語句及全文的聽力理解邏輯關系和英語習語的學習,結合英語聽力能力的不足點,制定個性化學習和施教方案,有針對性地彌補不足;同時從時間維度來看,可以隔一段時間對該學生的水平進行評價,做出評分圖,對比以前的評分圖可以看出該學生的提升幅度和當前的能力水平,適時調整學習方法和側重點,優(yōu)化調整施教方案。
四、結束語
“數據驅動社會,分析變革教育”的大數據時代已經到來,改變和優(yōu)化傳統(tǒng)的教育教學方法是時代所趨,更是學生學習的內在所需。教育數據資源共享,利用大數據分析模型開展教育和教學工作,提高學生英語學習水平,降低學習成本,實現大數據分析方法的最大的價值。
【摘要】 互聯(lián)網醫(yī)療助力于分級診療,即是要做好“小病到社區(qū),大病到醫(yī)院”。文章擬選用基于大數據分析技術設計出一種更智能、更快捷的社區(qū)老人智能醫(yī)療服務系統(tǒng)。該系統(tǒng)采用互聯(lián)網技術和大數據分析技術,將手機APP與信息協(xié)作平臺相結合,在社區(qū)內建立一個較為完善的醫(yī)療服務系統(tǒng)。
【關鍵詞】 “互聯(lián)網+” 大數據 “三角服務”模型 智能醫(yī)療服務系統(tǒng)
在人口快速老齡化、家庭規(guī)模日益小型化和機構養(yǎng)老發(fā)展不足等多重因素的影響下,發(fā)展社區(qū)養(yǎng)老逐漸成為一種必然選擇。建立起基于“互聯(lián)網+”和大數據分析的社區(qū)老人智能醫(yī)療服務系統(tǒng),在市區(qū)大醫(yī)院、社區(qū)醫(yī)療站以及社區(qū)老年人三者之間建立起信息網絡,使社區(qū)老年人的健康問題得到更好的保障。
一、系統(tǒng)概述
現如今,大型醫(yī)院普遍存在床位緊張、人員調配效果不佳、管理體系不健全等問題。建立社區(qū)老人智能醫(yī)療服務系統(tǒng)是完善現有醫(yī)療體系急需解決的主要問題,同時,隨著物聯(lián)網技術的不斷發(fā)展,將互聯(lián)網與大數據分析技術用于社區(qū)醫(yī)療服務系統(tǒng),已成為該方面的一項新技術。
二、技術分析
根據上述分析,需要開發(fā)一套基于“互聯(lián)網+”和大數據分析的社區(qū)老人智能醫(yī)療服務系統(tǒng),此系統(tǒng)可以最優(yōu)化利用資源,幫助老人方便、快捷的解決突發(fā)狀況。為滿足需求,該方案需要具備以下技術:1)概率統(tǒng)計。收集社區(qū)老人的體溫、心率等生命體征數據。以河師大社區(qū)為例,運用概率統(tǒng)計技術采集社區(qū)老人的生命體征數據。2)大數據分析。分析老人生命體征數據。在信息協(xié)作平臺上,利用大數據分析、數據挖掘和人工智能中不確定性推理技術,對采集到的老年人信息進行分析及推斷。3)互聯(lián)網技術。構建“三角服務”模型。運用互聯(lián)網技術,構建一個以老人為中心,社區(qū)家庭、社區(qū)醫(yī)療站、市區(qū)醫(yī)院三大子系統(tǒng)相互連接的“三角服務”模型,實現智能管理。
三、設計方案
1、總體流程。整個醫(yī)療服務系統(tǒng)可分為線上和線下兩種服務方式。線上:系統(tǒng)按照固定方案進行老人身體數據采集;線下:社區(qū)醫(yī)療站會定期派專業(yè)人士到老人家里對其進行全方位檢查以及相關醫(yī)療知識的普及。
2、數據采集與處理。首先利用智能手環(huán)采集社區(qū)部分老年人的身體數據,通過社區(qū)中建立的互聯(lián)網網絡把數據傳輸到手機APP以及信息協(xié)作平臺上。分析老人生命體征數據。在信息協(xié)作平臺上,利用大數據分析和不確定性推理技術,對采集到的老年人信息進行分析及推斷。
3、“三角服務”模型?!盎ヂ?lián)網+”社區(qū)養(yǎng)老中最為核心的就是系統(tǒng)模型的構建,運用互聯(lián)網技術,構建一個以老人為中心,社區(qū)家庭、社區(qū)醫(yī)療站、市區(qū)醫(yī)院三大系統(tǒng)相互連接的“三角服務”模型(如圖1所示)。
若采集到的老人的身體數據發(fā)生了變化,則會通過報警系統(tǒng)反饋到社區(qū)醫(yī)療站,社區(qū)醫(yī)療站則做出最快的反應,一方面,會到老人家中對老人進行急救,另一方面,會及時將老人的存檔發(fā)送給醫(yī)院,并聯(lián)系醫(yī)院進行一系列的急救措施,從而節(jié)約了救援時間。
4、構建智能醫(yī)療服務系統(tǒng)。開發(fā)社區(qū)老人智能醫(yī)療服務系統(tǒng)。即開發(fā)一個集智能醫(yī)療設備、智能醫(yī)護終端設備和帶有功能模塊的智能醫(yī)護平臺為一體的服務系統(tǒng)。將采集到的老人身體數據存于專門的數據庫中,在信息協(xié)作平臺上將社區(qū)老人、社區(qū)醫(yī)療站和市區(qū)大醫(yī)院三者建立成一個相互共享的網絡,實現數據信息的共享。手機APP與信息協(xié)作平臺相聯(lián)系,能夠通過移動設備查看網絡平臺的信息,市區(qū)大醫(yī)院的醫(yī)療系統(tǒng)與社區(qū)醫(yī)療站的數據庫相連接,從而便于實現信息的共享。
結語:本系統(tǒng)是基于“互聯(lián)網+”和大數據分析的社區(qū)老人智能醫(yī)療服務系統(tǒng),是物聯(lián)網在醫(yī)療領域的應用,目的是為社區(qū)老人提供更便捷的醫(yī)療服務。將大數據分析技術與智能醫(yī)療服務系統(tǒng)相結合,在概率統(tǒng)計的基礎上,將手機APP與信息協(xié)作平臺相聯(lián)系,通過移動設備查看網絡平臺的信息,便于實現信息的共享與交流,醫(yī)療服務更趨于智能化。
【摘要】 隨著我國移動通信網絡用戶的增加,優(yōu)化通信網絡成為一種必然。大稻菔貝為移動通信網絡優(yōu)化提供了新技術,掌握大數據時代特征,充分利用大數據技術,完成移動通信網絡的優(yōu)化過程,是當下移動運營商發(fā)展的主要任務之一。
【關鍵詞】 大數據分析 移動通信網絡優(yōu)化 運用
移動通信網絡運行故障具有較多的原因,大數據時代,通信運營商應根據大數據的特征,采取大數據技術對其進行分析和優(yōu)化。
一、目前網絡優(yōu)化中的困難
移動通信網絡優(yōu)化是利用數據采集等手段分析網絡運行慢的原因,并予以解決。這一問題看似簡單,但實際上存在很多困難。包括技術上的、資金上的。比如通信網絡資源龐雜,2G、3G、4G網同時運行?;窘ㄔO需求不斷增加,網絡產生的數據不斷的增多,對龐雜網絡運行狀態(tài)的分析需要掌握云計算等大數據分析技術。再比如,優(yōu)化網絡需求大量的資金,新建基站和網絡維護同時運行,給移動通信運營商帶來困難。部分通信網絡建成后無法及時投入使用,造成大量的資源浪費,對網絡運行高峰期,運行差異很難把握,基站的建設存在些許不合理。另外,同一小區(qū)的用戶類型具有多樣化特征,用戶的使用需求也有所不同。對于通信運營商而言,要致力于滿足所有用戶需求,這就對基站和天線的性能具有較高的要求,優(yōu)化通信頻譜率成為主要問題。但是優(yōu)化網絡頻譜率并不容易,目前依然受到技術和資金上的限制。對同一時間段,不同業(yè)務模型的整理也需要采取大數據分析技術,采用傳統(tǒng)的技術無法解決。
二、大數據分析在移動網絡優(yōu)化中的運用
2.1網絡性能大數據存儲
數據采集是網絡優(yōu)化的首要任務,主要包括對通信網性能的采集、話務量的采集和信號測試三部分。通信網性能主要是指通信網絡的接入效果、經緯度以及入載波頻點等基本參數,用來判斷網絡的運行速度和是否存在運行故障。話務量的采集主要包括移動信道的可利用率,接話率和掉話率等,采集話務量有助于運營商正確建立基站和設置天線的頻譜參數,使網絡輸出更加合理。信號測試數據主要是現場測試,是對正在運行的移動通信網絡信號狀況進行測試。包括DT數據和CQT數據測試。移動通信網絡的需求增多,使用人數增多,每天都會產生大量的數據,這些數據包括種不同類型。因此,對于傳統(tǒng)的數據分析方式明顯不能滿足數據分析的需求,無法了解網絡運行的基本狀態(tài)。而要完成對數據的分析,首先系統(tǒng)要具有大數據存儲功能,虛擬化技術是目前用于移動大數據存儲的主要方式,該方式能夠提供高容量,能夠對數據進行完整的存儲,并且關注存儲細節(jié)處理和可擴展儲存。使用虛擬化存儲,能夠將內部數據、外部數據和多廠商的全部數據進行統(tǒng)一存儲于一個平臺之上。并在對數據中心改變其動態(tài)容量,大大降低了存儲資源的空間,降低成本,滿足大數據時代的通信要求。目前,通信公司已經開始著手研發(fā)虛擬化技術,來應對大數據處理。
2.2大數據在網絡優(yōu)化中的具體運用
網絡優(yōu)化的關鍵是正確進行網絡定位和網絡分析,解決網絡運行中的掉話和干擾問題。隨著基站建設的增多,建設不合理導致的信號覆蓋不全問題大量存在,天線角度設置問題也時有發(fā)生。而對于移動通信運行而言,技術的更新始終是最困難的。上文我們分析,網絡優(yōu)化的主要問題就是數據的采集,實際上這一過程包括優(yōu)化準備、問題查找與分析,優(yōu)化調整實施和提取印證幾部分。其中數據采集、問題分析、優(yōu)化調整是網絡優(yōu)化的核心,并且需要重復進行,在移動通信網絡運行過程中經常發(fā)生。按照上文我們分析的移動通信網絡優(yōu)化階段,并結合大數據的特征,首先將優(yōu)化目標定位為網絡基站的檢查,隨后進行數據的測試和網絡運行的測試。檢查基站是否存在露覆蓋和重復覆蓋現象,通過大數據分析手段獲得基站的覆蓋信息,并對其進行適當的調整,滿足覆蓋需求并降低干擾。準備好測試工具,對數據進行相關測試并存儲于云盤空間,利用虛擬化技術對網絡平臺數據進行提取,從而正確分析移動通信網絡運行問題所在,重點解決網絡信號不足、無主小區(qū)和頻繁切換問題。將整個優(yōu)化階段分為兩部分,即天線射頻優(yōu)化調整和后臺參數優(yōu)化。天線射頻優(yōu)化就是對基站天線的調整,基站天線的覆蓋角度是影響信號輸出的重要原因,將天線調整于合理的范圍內,可以保證通信運行合理。后臺參數調整則包括鄰區(qū)、基站扇區(qū)功率調整,并且還包括設置信道、切換參數、接入參數的調整。根據調整計劃調整后臺參數,從才能保證移動通信網絡的分布,為移動通信網絡優(yōu)化打下基礎。對于網絡優(yōu)化而言,還需要技術人員根據需求不斷的調整,逐漸促進移動通信網絡優(yōu)化的合理性,保證參數的合理范圍,最終確保通信網的快速運行。
總結:大數據時代已經到來,對于移動通信而言,用戶增多,需求增多,每天產生的數據只能用海量來形容。應對大數據時代的特征,移動網絡的優(yōu)化也應充分采用云計算等技術。分析網絡運行中存在的問題,對通信網信道衰落,信號影響因素進行處理,促進我國移動通信網絡的發(fā)展,滿足客戶需求。
【摘要】 通信網絡監(jiān)控系統(tǒng)在我國有著重要的意義,企業(yè)和個人越來越注重隱私。適應這一需求需要企業(yè)基于大數據的特征,分析客戶需求,滿足客戶需求,幫助客戶建立專業(yè)的、優(yōu)質的通信網絡監(jiān)控體系。
【關鍵詞】 大數據 通信網絡監(jiān)控系統(tǒng) 應用
通信網絡監(jiān)控系統(tǒng)存在的意義是發(fā)現通信問題并解決通信問題。移動通信系統(tǒng)快速發(fā)展的同時,還應注重用戶體驗,致力于建立人性化服務體系。通信網絡監(jiān)控包括多種不同模式,其中最常見的是以告警為出發(fā)點的設備和以客戶感知為出發(fā)點的設備。前者主要是關注設備的被破壞程度,但無法反應網絡的優(yōu)良程度,主要用于故障解決。但是要將客戶放在第一位,筆者認為,還需要采取更先進的通信網絡監(jiān)控模式,建立從客戶體驗出發(fā)的監(jiān)控體系,嚴把質量關。文章將這兩種模式進行了對比分析,肯定了大數據時代應該以滿足客戶為目標的企業(yè)發(fā)展戰(zhàn)略,致力于促進該時期通信網絡監(jiān)控行業(yè)的發(fā)展。
一、以告警為出發(fā)點的網絡監(jiān)控體系
以告警為出發(fā)點的網絡監(jiān)控體系目前依然是監(jiān)控市場的主流,這一監(jiān)控體系主要用于對網絡故障進行及時的處理。移動通信業(yè)在發(fā)展過程中,監(jiān)控部門應把握問題的輕重緩急,合理利用時間,提供優(yōu)質服務以滿足客戶服務。其主要原理就是在設備出現問題時及時發(fā)出警報,這樣就可避免一些損失。在故障的處理中,依然要堅持這一原則,從而快速消除故障,確保通信穩(wěn)定。大數據時代,物聯(lián)網、云計算等新興模式的出現使以告警為出發(fā)點的網絡監(jiān)控體系稍顯落后。這一時期的數據多且復雜,能夠促發(fā)報警的數據多,一旦出現報警又不能及時出臺解決策略,將影響網絡用戶體驗,因此告警系統(tǒng)的功能應進一步拓寬。以告警為出發(fā)點的網絡監(jiān)控體系存在一定的問題,比如對報警系統(tǒng)過于依賴,接口不穩(wěn)定等原因都會導致目標脫離監(jiān)控。
同時,這一時期的客戶感知度無法真實的從客戶那里得到,還必須通過破壞程度來判斷,但是這中間存在一定的偏差。發(fā)出警報要么影響網絡安全,要么影響業(yè)務輸出,因此很難最終確定原因。
當然,以告警為出發(fā)點的監(jiān)控體系能夠大量應用,其一是他具有大量的市場需求,其二是技術設計容易實現,第三是一定程度上可以保證用網安全。未來,針對這一網絡通信模式,還應致力于提高網絡服務質量。并且要做好一定的預防工作,不能總是等到故障出現采取處理。
二、以客戶感知為出發(fā)點的網絡監(jiān)控系統(tǒng)
以客戶感知為出發(fā)點的網絡監(jiān)控系統(tǒng)是近年來提出的一種新的監(jiān)控模式,與大數據時代的要求保持一致,且在大數據背景下很容易實現。其實現的主要流程是通過大數據采集海量客戶感知信息,并將其進行整理后形成客戶的習慣和興趣點,從而分析和對比用戶需求。結合已有的信息進行告警設備的重新設置或者調整,可以第一時間保證用戶的用網安全。建立不同區(qū)域的服務質量等級,根據服務數據特征分析原因,提出意見,并且形成客戶感知度報告,以此來進行網絡的優(yōu)化,最大化的發(fā)揮了監(jiān)控系統(tǒng)的作用,對其過程進行如下分析。
2.1客戶感知信息數據的采集
信息的采集是實現通信網絡監(jiān)控的前提。信息的采集可以是多渠道的,可以動用戶終端設備,也可以是寬帶客戶??梢栽诮K端設備上安裝軟件,記錄用戶的位置,并以區(qū)域和時間為軸線分析用戶移動通信網絡的信號強度、掉話次數,下載速度等數據,根據需求對通信網絡進行適當的參數調整,可以提高客戶的用網體驗。寬帶用戶的收集是將信息收集軟件安裝于計算機端,記錄客戶的位置、下載速率等基本信息,并將數據上傳至感知信息接收平臺。最后在感知終端這一模擬客戶終端的收集下獲得用戶數據,感知終端是一種特殊的終端,他集無線網、寬帶網和窄帶與一體,是靠模擬的方式完成收集相關參數??梢詫⑵浒惭b于通信網絡中的某個節(jié)點上,并利用PING測試本節(jié)點和下游設備的參數,并且可以收集線下的服務參數。以收集大客網絡的情況信息。該系統(tǒng)的安裝位置隨意,具有特殊性,應用較為廣泛,能夠正確的反應客戶的信息,對通信監(jiān)控系統(tǒng)的優(yōu)化具有積極作用。
2.2客戶感知信息的處理
在感知信息系統(tǒng)中,對通信網絡監(jiān)控系統(tǒng)的信息進行收集后,還需要采取一定的辦法對其進行處理。處理信息是大數據時代,移動通信網絡監(jiān)控的主要目的,處理數據才能解決問題。當然這一過程是復雜的,需要通過數據庫、資源庫和設備預警等多項技術相結合,并且要不斷的更新技術,形成區(qū)域網絡服務質量圖,并且要始終堅持以人文本的原則。Y合已有的網絡結構庫、資源庫、設備告警庫等進行分析處理,形成區(qū)域網絡服務質量視圖。
三、總結
網絡監(jiān)控體系在社會發(fā)展中發(fā)揮著重要作用,促進行業(yè)的發(fā)展具有必要性。大數據一定程度上改變企業(yè)的商業(yè)模式和營銷模式。因此了解大數據時代的特征,并且基于大數據進行通信網絡監(jiān)控系統(tǒng)的分析,能夠促進其發(fā)展。文章分析了基于大數據的移動通信網絡監(jiān)控系統(tǒng)的應用。
摘 要:自始以來,由于地理位置的影響我國的石油資源處于緊缺的狀態(tài),傳統(tǒng)的人工技術已不能滿足我國石油需求的問題,那么將大數據技術應用于油田的建設中是一項急不可待的工程。文章以新疆油田公司為例,利用數據挖掘技術發(fā)掘油田隱藏的數據價值,提高數據的使用效率,利用數據找到合適油田,指導生產工作,更好地節(jié)約成本,提高綜合效益。
關鍵詞:油田生產;大數據;數據挖掘
前言
新疆油田重油開發(fā)公司是以稠油開采為主的采油廠。有著將近10年的數字油田建設歷史。而且中心數據庫已經做得很成熟,主要包括五大業(yè)務板塊數據。即勘探業(yè)務板塊、開發(fā)業(yè)務板塊、生產業(yè)務板塊、經營業(yè)務板塊的數據庫。數據庫包括的內容主要有單井、區(qū)塊的日月報數據、試井與生產測井數據、分析化驗數據、井下作業(yè)和地理信息數據等。數據庫的數據資源種類齊全,質量高。2010年新疆油田重油開發(fā)公司正式開始進行智能化油田建設工作,利用物聯(lián)網診斷單井問題,使用大數據技術對油田進行全面感知、分析預測、優(yōu)化決策找到油水井的生產規(guī)律,從而有助于油田生產工作進行。
1 油田大數據的概念及處理流程
大數據有四個特點即量大(Volume)、快速生產(Velocity)、類型豐富(Variety)、真實性(Veracity),被稱為4V[1]。由于數據的數量非常大,就將數據組成數據集,進行管理、處理實現數據的價值。大數據對數據庫的整理流程是將數據轉化為信息,將信息轉化為知識,再將知識轉化為智慧。這個過程應用于油田可以理解為是對油田的生產和管理工作。大數據的七個處理步驟包括:對數據的提取和收集、清洗數據、分析數據找到潛在的內在價值規(guī)律、建立預測模型、對結果進行可視化的估計、驗證結果、評估模型。
2 大數據分析平臺及體系架構研究
新疆油田為了滿足生產應用,構建了一個有效的大數據分析平臺及體系架構。此平臺主要包括四個基礎架構:數據抽取平臺、進行分布式的存儲平臺、大數據的分析與展示平臺。最底層是數據抽取平臺主要是實現數據的整合,將數據轉化成適合進行數據挖掘或者建模的形式,構建可靠的樣本數據集。存儲平臺主要是對數據進行匯總、建模、分析,最后將處理好的數據進行儲存。其功能與數據倉庫相似。大數據分析層,是在大數據建模的工具和算法基礎上,挖掘隱藏的數據模式和關系,利用數據軟件進行分類、建模,生成預測的結果,結合專家經驗利用測試的樣本選定評價方案不斷提高模型的精度,更好的用于油田的決策。數據應用層主要是把建立的模型設計為運行軟件,運用建模方法實現數據的可視化界面設計,更好的實現人機交互。
3 大數據分析技術研究
進行大數據分析時我們經常采用兩大技術即大數據預處理和抽取技術,大數據分析技術。
3.1 大數據抽取及預處理技術
大數據預處理和抽取技術的原理是指將不同名稱,不同時間,不同地點的多種不同結構和類別的數據抽取處理成一種所表達的算法和內涵一致便于處理類型的數據結構[2]。在檢查數據缺失、數據異常時可以使用數據清洗方法確定有用的數據,一般采用剔除法或估計值法、填補平均值替換錯誤的數據。為了滿足建模所需的大量數據,創(chuàng)建新的字段時需要進行數據庫的構建。將原始數據用一定的方法如歸一法轉換為可用于數據挖掘的數據,這個過程為數據轉換。
3.2 大數據分析技術
應用于油田的大數據分析技術為:因子分析技術、聚類分析技術、回歸分析技術和數據挖掘技術。其中的因子分析技術是指,利用少數的因子對多個指標和因素間的相關性進行描述,一般將密切相關的多個變量歸納為一類,這一類數據就屬于一個影響因子,用較少的因子反應大量數據的信息。聚類分析技術是指把具有某種共同特性的事物或者物體歸屬于一個類型,并按照這些特性劃分為幾個類別,同種類型的事物相似性較高。這樣更利于辨別預先未知的事物特征?;貧w分析是指在一組數據的基礎之上,研究一個變量和其他變量間隱藏的關系。利用回歸方程,進行回歸分析,從而有規(guī)律地把變量之間的不規(guī)則,不確定的復雜關系簡單得表示出來。
在使用大數據進行分析時,數據挖掘技術是最關鍵的一門技術。該技術將大量復雜的、隨機性的、模糊的、不完整的數據進行分析,挖掘出對人類未來有用的數據,即提前獲得未知信息的過程[3]。數據挖掘功能分為預測功能和描述功能。數據預測是指對數據進行處理推算,完成預測的目的。數據描述是展現集體數據的特性。數據挖掘功能是與數據的目標類型有關,有的功能適用于不同類型的數據,有的功能則只適用于特定功能的數據。數據挖掘的作用就是讓人們能夠提前得到未知的消息,提升數據的有效性,使其可以應用于不同的領域。
4 大數據分析在油田生產中的應用研究
4.1 異常井自動識別
油田生產過程中影響最大的一個因素是異常井的出現,因此生產管理人員加大了對異常井的重視。最初,異常井的識別主要是依靠生產部門的生產人員,必須經過人工查閱許多關于油田生產的資料才能確定異常井,這種人工檢閱的方法存在很多缺陷。比如說大量的檢索工作、耗費時間長等,對異常井的診斷和措施制定造成很大的困難。異常井是指油井當天的產油量和上個月相比波動很大,并大于正常的波動范圍。目前廣泛采用數據挖掘技術和聚類分析技術對異常井進行識別,提高效率。為了實現算法編譯使用技術,系統(tǒng)架構B/S模式進行,能夠及時發(fā)現異常井的存在。
4.2 異常井智能診斷
異常井診斷是油田每天進行生產必須要完成的工序。而大部分油田采用人工方法對其進行異常診斷,工作量極大,影響因素較多,診斷結果的可靠性較低,對后期進行計劃實施造成很大的影響。這時可以采用智能診斷方法,利用灰度圖像處理技術和人臉識別算法建立抽油井的特征功圖庫,對比油井當前的功圖和所建立的特征功圖,實現異常井的診斷。若是相似則不屬于異常井,反之,則為異常井。但是有時一種工況可能會有許多中表現方式,致使功圖解釋存在很多種狀況,可以采取因子分析法,分析每個工況下關聯(lián)的因子間是如何變化,然后建立參數診斷數據庫,對比相關因子的指標項,找到異常的原因,采取適合的方案進行修改,從而提高單井的生產效率。
4.3 間抽井開關井計劃制訂
當油田開發(fā)進入后期階段就會出現很多問題,過度開發(fā)使得地層的能量越來越少,致使更多供液不足的井開發(fā)出來。將這類井稱之為間歇出油井。新疆油田一般會使用人工方法制訂間歇出油井的開關時間計劃,但是對于計劃的合理性沒有進行檢驗。若是能夠控制好間歇出油井的開關時間,對油田實現節(jié)能減排是至關重要的。這時可以采用因子分析方法和回歸分析法進行研究,利用數據挖掘技術找出影響間歇出油井的開關時間的因素,建立合適的分析模型,對模型進行線性回歸,進行歸一化處理。從而為業(yè)務人員提供制訂間歇出油井開關時間的合理方案,達到節(jié)能減排的效果。
4.4 油井清防蠟預測
目前油田上對于油井清蠟采取平均每口井一個月清洗一次蠟的措施,按照人工計劃進行,出現了許多問題。比如,一些井還沒有結蠟就已被清洗,有些井已經結蠟,卻沒有得到及時清洗。這樣既浪費大量的人力物力,而且還對油田的生產效率產生不利影響。若是利用因子分析法,將收集的關于結蠟周期、清蠟方式、清蠟用量、油井狀況等數據進行分析,建立油井Y蠟模型,再利用回歸分析法對建立的模型建立曲線方程,進行預測,找到結蠟時間,推斷出結蠟周期,更好的指導油田清蠟工序的進行,提高油田的精細化管理。
5 結束語
總之,對比以前利用人工進行油田生產可以發(fā)現大數據對于油田生產是非常必要的,可以更快的挖掘油田的生產作業(yè)規(guī)律,解決油田生產的困難。而且,可以利用油田數據進行可視化分析,關注問題的主要影響因素找到管理中存在的不足,預防未來問題的出現。大數據的核心價值就是通過以往大量數據進行分析,預測出未來,從而更好地指導油田的生產工作。
自改革以來,我國社會經濟取得了巨大的發(fā)展,同時也帶動了各行各業(yè)的迅猛崛起和發(fā)展,市場競爭日益激烈。而隨著大數據時代的到來,大數據分析逐漸成為當今社會各界的談論熱點,各大企業(yè)也想通過大數據分析來使自身的競爭力得到有效提升。但是每個企業(yè)對大數據分析的理解和應用等方面均存在部分差異,我們該如何使大數據分析充分發(fā)揮它應用的作用,進而有效提升企業(yè)的管理水平,這點成為企業(yè)需要解決的首要任務之一。本文將大數據分析在企業(yè)管理中的應用作為論述的重點,希望能為廣大的管理人員提供幫助,進而有效促進我國企業(yè)管理水平的提升。
由于大數據時代的到來,大數據分析漸漸成為社會各界關注的重點之一,各個行業(yè)都或多或少地涉及以及正在應用大數據分析。有人曾說:在二十一世紀中,如果不緊跟大數據時代的發(fā)展步伐,就很可能與時代脫軌,在市場競爭中毫無優(yōu)勢可言。但現代很多企業(yè)對大數據的相關含義以及作用等的理解不夠科學和全面,在這一前提下,要想使大數據分析真正發(fā)揮應有的效用是很難的?;诖耍疚牟坏珜Υ髷祿暮x做了簡要介紹,還從企業(yè)管理方面出發(fā),說明了大數據分析應用時需要注意的相關事項,旨在提高國內企業(yè)的管理水平。
大數據分析簡述
近些年來,信息技術得到了驚人的發(fā)展和成熟,同時它也真正走入了人們的生產、生活中,各行業(yè)的日常運作和發(fā)展也離不開現代信息系統(tǒng)的支持。特別是上世紀90年代數據倉庫技術產生后,給各行業(yè)的發(fā)展帶來了翻天覆地的變化,同時信息、數據規(guī)模開始呈PB級增長的趨勢。從前的企業(yè)僅僅將信息系統(tǒng)視為企業(yè)運行程序的一類輔佐系統(tǒng),對其中龐大信息、數據并沒有足夠的重視,所以數據的作用并未得到真正的發(fā)揮。但通過長期的觀察和研究,企業(yè)發(fā)現利用數據分析不但能減少工作人員的任務量,還能夠對客戶的多樣化需求進行全面、準確地分析,進而有利于企業(yè)效益的增長,因此,“大數據分析”的概念就產生了。大數據分析的根本是在龐大的數據中尋找并發(fā)現價值,利用大數據分析充分挖掘潛藏的商業(yè)機遇與價值。但如果企業(yè)對大數據分析的理解僅僅停留在分析數據與數據分析的話,就會掉進技術的陷阱中,進而嚴重影響企業(yè)的經濟效益。大數據分析中的“大”是由企業(yè)數據分析的原點和數據處理的方法共同決定的,因此大數據中的重點不該單單放在“大”上。大數據擁有“4V”的特性,也就是Variety多樣、Vohame大量、Value價值、Velocity高速。
大數據分析的中心理念是脫離以往數據分析的方式,并在龐大的數據里深入尋找和挖掘企業(yè)的潛在價值和機遇,進而提升企業(yè)的經濟效益。當使用者脫離了信息系統(tǒng)的傳統(tǒng)視角。所關心的重點從系統(tǒng)自身成功轉移到信息篩選的數據上時,就可以在龐大的數據中充分發(fā)現潛在的企業(yè)價值和商機。
為了更加清晰全面的了解大數據分析在企業(yè)管理中的作用,下面將以CapitalOne公司為例進行說明。長時間以來,Capital One都是通過對客戶行為數據的分析來針對客戶具體情況制定產品以及相應服務方案的,大數據分析系統(tǒng)會對客戶的人口統(tǒng)計特征及消費模式等進行分析,從而為用戶指定針對性的服務方案。大數據分析技術在Capital One公司的應用不僅提升了Capital One的利潤提升空間,同時對提升其在同類企業(yè)中的綜合競爭實力也具有積極的意義。大數據分析技術應用之前,Capital One公司制定客戶服務項目過程中存在著一定的盲目性,針對性不高,經常出現客戶與產品不對應的情況,不僅公司利潤增加不明顯。同時部分客戶也會對產品或者是服務產生一定的反感,對企業(yè)長遠發(fā)展是十分不利的。如表1所示為Capital One公司大數據分析前后數據對比。
企業(yè)管理中大數據分析的作用
提高企業(yè)內部數據統(tǒng)計的真實性。通常來說,企業(yè)內部需要收集的信息、數據是和企業(yè)管理或者運營有關的,以利于企業(yè)活動的正常開展。在以前,企業(yè)收集的數據均采用傳統(tǒng)的人工統(tǒng)計,并使用報表方式,這樣大大降低了數據統(tǒng)計的工作效率,也存在許多人為失誤,導致數據統(tǒng)計的真實性始終得不到提高。數據統(tǒng)計結果的目的是為了幫助企業(yè)管理層做出正確、科學、合理的有關決策,但由于數據統(tǒng)計的可信度不高,所以很可能造成管理層的決策失誤,進而影響企業(yè)的運營效益。但自從大數據分析出現后,操作人員能夠對數據統(tǒng)計結果的真實性開展再次檢驗,并從多方位出l針對數據統(tǒng)計的結果開展深層次的解析,以有效保障統(tǒng)計數據的可靠性和真實性。
從前企業(yè)中各個部門為了增加自身的效益和績效難免會擅自改動上報數據,由于采用的是單口徑方式,所以最終將出現多種數據統(tǒng)計結果的現象,存在很大的干擾性。但如果利用了大數據分析,就可以從多方位對數據進行分析,不同部門的上報數據將彼此牽制和影響,從而有效保障了數據的真實性。需要注意的是,要想充分達到數據彼此牽制的目的,就必須利用數據結果的最終效益進行調節(jié)。
例如,當生產車間定時上報自身的產量數據時,應當完成當天的產量兌現率、當周兌現率以及當月兌現率,而要想達到上報數據產量,就一定要按時達到產量。然后當月的上報總產量就將自動求和每天的產量,一旦中間過程產生沖突就說明車間上報數據存有問題,最后將準確地反映在企業(yè)的財務成本口徑中,進而有效提高企業(yè)內部數據統(tǒng)計的真實性。
給企業(yè)管理提供情報支持。通常來說,大中型的企業(yè)均將設立情報部門,它們的工作核心是深入、準確地探究企業(yè)產業(yè)的前沿情況、市場競爭情況等方面。從前企業(yè)的情報分析工作一般僅依靠情報員的相關經驗與專業(yè)知識技能,由情報員自身的觀察力與直覺進行情報收集和判斷,進而得出情報探究的最終結果。盡管傳統(tǒng)的人工情報分析可以獲得一定成果結論,但其中的不確定性和風險性較大,因為情報員的主觀洞察力和判斷力的準確性是個未知數,不能有效保障結論的可靠性。然而由于近代科學信息技術的飛速發(fā)展和成熟,人的主觀能動性所具有的局限性愈加突出,企業(yè)對情報員的相關標準和要求也在逐漸提升。
這時大數據分析的產生給現代企業(yè)的情報分析工作提供了無限可能,在一定程度上促進了企業(yè)管理水平的提高。大數據所具有的“4V”特征和現代企業(yè)情報分析的高標準、高要求等完全符合。具體來說就是高速化特征符合現代企業(yè)情報分析的時間性要求,數據分析注重數據的時效性;大規(guī)模特征符合現代企業(yè)情報分析的廣泛性,數據分析注重數據的數量;多樣化特征符合現代企業(yè)情報分析的來源廣泛性。數據分析注重收集的多渠道化;價值特征符合現代企業(yè)情報分析的終極目標,也是大數據分析的本質,從數據中充分挖掘數據的價值。