大數據產品平臺方案當前位置 您的位置:首頁 > 方案 > 大數據 > 大數據 > 大數據產品平臺方案
遠行大數據產品平臺方案
遠行大數據產品方案

隨著近年來企業信息化建設的不斷深化、社會化網絡的興起,以及移動互聯網等新一代信息技術的廣泛應用,全球數據規模及其存儲容量正在迅速增長,數據的類型也變得復雜多樣。海量多樣化的數據對信息的有效存儲、快速讀取、檢索提出了挑戰;且其中所蘊藏的巨大商業價值也引發了對數據處理、分析的巨大需求。當前,大數據已逐漸滲透到各個行業和業務職能領域,數據成為企業戰略資產,企業戰略逐漸從"業務驅動"轉向"數據驅動"。如何通過收集和分析大量內部和外部的數據,獲取有價值的信息將成為指導企業經營決策、業務運作中的核心環節。

cpfa.png

  • 數據采集:實現將異構數據從系統外部采集并傳輸到大數據平臺的過程,包括數據爬取、提取、清洗、轉換和裝載等,保證數據獲取和驗證數據的有效性。
  • 數據存儲與分析:負責海量多態數據的存儲及處理,以混搭架構模式實現多種數據存儲策略;對經過存儲和處理后的數據進行分析,主要包括自然語言處理、數據統計分析以及數據挖掘。
  • 數據服務:將屏蔽底層針對各類數據服務需求的數據處理過程,將加工后的數據、應用等通過集中的數據服務提供功能,為外部合作伙伴提供數據服務能力,簡化數據共享邏輯,集約化數據分析能力。
  • 數據應用:通過固定報表、多維分析等方式展現數據,對內支撐企業管理分析、經營分析、服務分析、銷售分析及產品開發;對外支撐產品化的數據服務以及數據提供。
  • 數據管控:實現數據全生命周期管理,提升企業數據標準、數據質量、數據安全、元數據管理等基礎數據管控能力。
數據采集

sjcj.png

數據存儲

從大數據的數據特征可知,其數據結構復雜多樣,且體量巨大,需要改變目前以結構化為主體的單一存儲方案。要求滿足不同的存儲需求,支持SMP、MPP、RDBMS等多種架構的數據庫以及內容數據庫、分布式緩存數據庫等技術能力。本方案將采用如下的策略:

  • 對非結構化數據采用分布式文件系統進行存儲;
  • 對結構松散無模式的半結構化數據采用面向文檔的分布式key/value存儲引擎;
  • 對海量的結構化數據采用shared-nothing的分布式并行數據庫系統存儲;
  • 支持行、列混合存儲;支持存儲的在線、線性擴展;
  • 構建各存儲引擎之間的連接器(DaaS),使得非結構化數據在處理成結構化信息后,能方便的和分布式數據庫中的關系型數據快速融通,保證大數據分析的敏捷性。
數據分析

數據分析層主要是對經過存儲和處理后的數據進行OLAP分析、搜索引擎、專題分析、數據挖掘、標簽分析等:

  • 基于Apache Hadoop框架,具備分布式并發的大規模計算能力;有效集成Impala運算框架,實現互動式的查詢,查詢效率比Hive有數量級的提升,提供實時的大量數據并行處理;
  • 支持非結構化數據分析能力(如文本分析和挖掘技術、視頻分析技術,網絡爬蟲關鍵字分析技術、客戶標簽化處理等);
  • 支持對非結構化數據向結構化數據轉換的處理能力,實現基于結構化數據和非結構化數據混合環境下的數據分析處理;
  • 提供數據分析模型管理和分析應用創建能力;實現對各種數據分析能力通過良好的技術封裝,形成數據分析組件,為上層提供數據分析服務。
數據展現

數據展現能夠迅速和有效地簡化與提煉數據流,幫助用戶交互篩選大量的數據,可視化所提供的洞察力有助于使用者更快更好地從復雜數據中得到新的發現:

  • 本平臺有效集成HighCharts、D3.js可視化展現技術,支撐柱狀圖、散點圖、分層條形圖、圓圖、樹圖、分支圖等近20種圖形的展示;
  • 本方案可以將數據源、分析過程及挖掘結果進行可視化規范化,采用了層疊式和拓展式的互動方式讓用戶去探索圖形。
平臺技術特性
  • 高效數據采集:支持對結構化數據、半結構化數據、非結構化數據的采集適配,采用緩存、讀寫分離、傳輸壓縮等機制實現對各類數據的高效傳輸,支持Oracle、Mysql、Hdfs、SysbaseIQ、GreenPlum等主流數據庫高效數據采集;
  • 多種數據存儲策略:支持SMP、MPP、RDBMS等多種架構的數據庫以及內存數據庫、分布式緩存等,實現分布式文件系統、分布式key/value存儲、shared-nothing、行/列混合存儲等多種存儲策略;
  • 充分融合主流挖掘模型:有效集成Rhadoop、Mahout等開源挖掘工具,大大豐富分析手段;
  • 數據服務能力封裝:屏蔽底層針對各類數據服務需求的數據處理過程,將加工后的數據、應用等通過集中的數據服務提供功能,為外部應用提供數據服務能力,簡化數據共享邏輯,集約化數據分析能力;
  • 自動化的數據分析過程:實現將采集、存儲、處理、分析等核心處理環節實現集中化、自動化的分布式作業調度,圖形化的調度處理機制,使得分析過程可配置、可監控、可審計。
6合至尊ios下载安装