根據(jù)集團信息化規(guī)劃,遵循“互聯(lián)網(wǎng)+”的理念,建設集團大數(shù)據(jù)平臺,實現(xiàn)集團數(shù)據(jù)資源的集中及整合,構建集團統(tǒng)一的數(shù)據(jù)模型,提高企業(yè)數(shù)據(jù)的處理效率與共享程度。實現(xiàn)對集團企業(yè)內部數(shù)據(jù)和外部數(shù)據(jù)的分析挖掘,對內對外提供數(shù)據(jù)服務。為全網(wǎng)提供決策支持、產(chǎn)品創(chuàng)新、交叉營銷、服務支撐、風險管控以及流程優(yōu)化等支撐服務。
集團大數(shù)據(jù)平臺將在Hadoop和云計算等技術的基礎上,對金融大數(shù)據(jù)平臺、量收系統(tǒng)、生產(chǎn)系統(tǒng)、CRM系統(tǒng)、電商平臺、數(shù)據(jù)分析綜合服務平臺的歷史數(shù)據(jù)、數(shù)據(jù)模型、報表應用等進行移植,全面整合集團業(yè)務數(shù)據(jù)。數(shù)據(jù)來源涵蓋集團所有的生產(chǎn)和管理系統(tǒng),并可接入同業(yè)及相關市場甚至互聯(lián)網(wǎng)信息,建立從業(yè)務層到管理層到?jīng)Q策層的智能分析體系,模擬量化風險和收益,實現(xiàn)對集團各種業(yè)務數(shù)據(jù)進行分類、管理、統(tǒng)計和分析等功能,給各級管理人員提供各類準確的統(tǒng)計分析預測數(shù)據(jù),使其能夠及時掌握全面的經(jīng)營狀況,為宏觀決策提供支持;為基層業(yè)務人員提供詳盡的數(shù)據(jù),供其對各自的工作目標、當前和歷史狀況進行準確的把握,對業(yè)務活動進行有效支撐;滿足集團經(jīng)營管理及決策支持,建設國內一流,世界領先的大數(shù)據(jù)平臺。
本方案提供統(tǒng)一的運維監(jiān)控服務。本方案涉及到的所有軟件的部署都通過Docker打包成鏡像文件,以便非??旖莸牟渴饘嵤炔肯到y(tǒng)通過鏡像數(shù)據(jù)接口交互層進行交互。通過外部接口層納入集團運維平臺進行統(tǒng)一監(jiān)控
一站式大數(shù)據(jù)平臺提供集群自動化部署服務。用戶只需要安裝管理平臺軟件,就可以在友好的圖形化界面上安裝、部署、配置所需要的服務。整個安裝過程不需要用戶使用任何終端命令或者代碼。
平臺提供了強大的在線擴容功能,不需要宕機停庫,不需要停止業(yè)務,就可以添加新的節(jié)點,實現(xiàn)擴容。節(jié)點添加完成之后可以立即對新添加的節(jié)點進行角色的分配,一旦配置成功,則新加的節(jié)點就會馬上投入運算。擴容之后的數(shù)據(jù)節(jié)點也不需要停機進行數(shù)據(jù)重分布,系統(tǒng)自動選擇空閑的時間進行數(shù)據(jù)的重新分布。同時,擴容的操作可以方便的在界面進行操作。
平臺通過專門的監(jiān)控服務對集群的狀態(tài)進行監(jiān)控,包括服務器CPU、內存、網(wǎng)絡和磁盤的利用率和健康狀態(tài),以及分布式應用系統(tǒng)的狀態(tài),并在故障發(fā)生或者某項指標超過預設閥值時時提供告警功能。管理員可通過瀏覽器訪問集群的監(jiān)控和管理界面進行日常的監(jiān)控和維護,系統(tǒng)提供圖標信息展示。管理員可以便捷了解到集群的計算資源是否處于空閑狀態(tài)、哪些服務器的負載過高,甚至判斷集群的組網(wǎng)及機架安排是否合理等。管理員也可通過對各個節(jié)點的各個角色的日志信息進行檢索,獲得更加精確的信息。
平臺提供計算任務管理和作業(yè)管理,包括作業(yè)的上傳、配置、啟動、停止、刪除和狀態(tài)查看等功能。
在平臺中,資源可以從多個方面進行管理。從資源管理模塊的層面,用戶通過配置不同的Scheduler來定義不一樣的資源使用策略,目前支持FIFO Scheduler、Fair Scheduler以及Capacity Scheduler,實現(xiàn)作業(yè)動態(tài)調整,支持對任務系統(tǒng)資源占用進行實時調配,改變作業(yè)調度優(yōu)先級等操作。
通過集群監(jiān)控系統(tǒng)向集團運維監(jiān)控平臺發(fā)送監(jiān)控消息,提供對接接口,實現(xiàn)大數(shù)據(jù)平臺與集團運維監(jiān)控平臺的互通,實現(xiàn)統(tǒng)一監(jiān)控。
平臺通過專門的監(jiān)控服務對集群的狀態(tài)進行監(jiān)控,包括服務器CPU、內存、網(wǎng)絡和磁盤的利用率和健康狀態(tài),以及分布式應用系統(tǒng)的狀態(tài),并在故障發(fā)生或者某項指標超過預設閥值時提供告警功能。管理員可通過瀏覽器訪問集群的監(jiān)控和管理界面進行日常的監(jiān)控和維護,系統(tǒng)提供圖表信息展示。管理員可以便捷的了解到集群的計算資源是否處于空閑狀態(tài)、哪些服務器的負載過高,甚至判斷集群的組網(wǎng)及機架安排是否合理等。管理員也可通過對各個節(jié)點的各個角色的日志信息進行檢索,獲得更加精確的信息。
平臺提供功能完整,性能優(yōu)異的ETL框架支持平臺建設,針對數(shù)據(jù)的預處理,中間的轉換清洗,包括寫入目標時針對異常數(shù)據(jù)的捕獲。整個過程由平臺提供的調度平臺,元數(shù)據(jù)管理平臺提供支撐,讓各部分之間緊密合作,又各司其職。
針對此項目復雜的業(yè)務系統(tǒng)和管理,平臺提供完善的調度功能,以更好的對各個模塊進行良好調度管理。
調度平臺是平臺的數(shù)據(jù)流核心,調度平臺讓相關的業(yè)務系統(tǒng)、處理系統(tǒng)按照一定的業(yè)務邏輯,在客戶的安排下,像流水線一樣,或串行,或并行,按照一定的依賴關系,在每日,每周定時觸發(fā),依次執(zhí)行。平臺提供完善的接口和管理模塊,讓眾多的作業(yè)管理簡易高效。
本方案提供的大數(shù)據(jù)平臺支持多種環(huán)境,以便于后續(xù)進行多種數(shù)據(jù)分析與挖掘,并提供多個接口對數(shù)據(jù)進行導出,以便于客戶在體外進行數(shù)據(jù)分析;也提供數(shù)據(jù)沙盤給特定的數(shù)據(jù)分析師進行數(shù)據(jù)分析,數(shù)據(jù)沙盤也提供多個數(shù)據(jù)以及產(chǎn)品接口,以便于進行數(shù)據(jù)探索。
本方案的平臺采用Hadoop平臺,它本身是一個并發(fā)存儲、并發(fā)計算的高效平臺,選用了 Discover的挖掘模塊,它是在對開源的R全面支持的基礎上,結合SparkR進行了代碼的重大改造。并對常用的R算法進行了并行化改造,這些改造正是基于大數(shù)據(jù)中關鍵的體量巨大這個維度進行的優(yōu)化。之前的數(shù)據(jù)挖掘由于在單機上進行,而由于數(shù)據(jù)挖掘需要對數(shù)據(jù)進行大量的衍生和關聯(lián)運算,會讓待分析的數(shù)據(jù)集積聚擴大,因而很多數(shù)據(jù)挖掘針對海量數(shù)據(jù)只能采用抽樣的策略進行模型訓練,讓挖掘效果受到很大影響。在并發(fā)R算法的支撐下,只要節(jié)點數(shù)足夠,原則上可以處理任意體量的數(shù)據(jù)。
平臺支持R、ANSI SQL、Python、Java、C/C++等語言,采用B/S架構,提供圖形化界面操作支持,操作界面支持簡體中文。支持多數(shù)據(jù)來源輸入輸出提供表格、圖形、地圖等可視化元素展示功能,將提供以下相關功能和特性:
標準企業(yè)報表,固定報表等。
參數(shù)驅動報表,各種基于參數(shù)的報表。
周期性報表,例如周報,月報,季報等,系統(tǒng)支持管理員定義周期性運行,亦支持業(yè)務用戶自定義重復運行方式,用戶或管理員可以定義輸出格式,包括PDF,Excel,Word,PPT等各種格式;系統(tǒng)同時提供基于事件的觸發(fā)方式。
支持鉆取功能,提供基于事件的腳本控制能力,以滿足各種復雜報表需求。
復雜中國式報表,包括中國式表頭、復雜布局、特殊功能等各種能力。
提供豐富的圖形展現(xiàn)功能,支持包括餅圖、條形、線形、儀表盤、趨勢圖及各種圖形;支持Flash圖形。
支持報表導出到Excel、Word、PPT、HTML和PDF等格式,導出時可以選擇導出整個報表還是部分內容;系統(tǒng)支持導出數(shù)據(jù)快照,以便日后審計等。
支持將報表導出成原生Excel,報表中的圖形(非Flash)能導出為原生Excel圖形,能夠在導出后的Excel中進一步編輯,支持導出Excel公式,透視表等。
提供數(shù)據(jù)導出功能,用戶能將所查看的報表中數(shù)據(jù)進行有選擇的導出。
提供報表版本管理能力,為不同的執(zhí)行結果保留不同的版本。
提供基于角色和用戶的權限控制,管理員可以為不同的角色和用戶設置相應的功能選項及權限。
多語言多時區(qū)支持,系統(tǒng)為不用語言環(huán)境用戶提供多語言支持,用戶在登錄時可以選擇時區(qū)及語言,系統(tǒng)將自動切換至相應的UI(僅限UI)。