數據蒐集

通過數據蒐集功能,豐富平臺中的資料,滿足後續分析需求:

  • 1.規則式導入:將收集的Excel檔按照預定義的規則導入到資料庫中
  • 2.數據填報:使用者可通過表單或清單的方式採集或修改資料,支援手機操作
  • 3.填報流程:支援多人填報,支援多分支、子流程和會簽的審核機制

數據處理(ETL)

數據處理指的是在數據分析之前對數據進行清洗、轉換、載入,簡稱ETL:

  • 1、自助加工數據,無須依賴數據庫開發
  • 2、視覺化數據處理工作流,易於操作
  • 3、內置常用行與列的預處理節點
  • 4、相容SQL語法擴展ETL功能

自助ETL具備以下四個特點:

一體化:集成在Synapse中,無需獨立部署就可以使用。

視覺化:完全介面化直接操作,業務人員都能參與。

高性能:分散式計性能強悍,採用業界先進架構,能夠處理海量數量,最大規模可以達到PB級,數據量處理的性能是同類型傳統工具的10倍。

強功能:大量元件兼顧一般數據處理,與高級數據處理。

跨庫整合

企業數據存儲在不同的服務器甚至不同類型的數據庫中。當用戶查詢的數據范圍很廣且不限於一個數據庫時,需要跨多個數據庫進行相關的查詢分析。我們不需要傳統的方式:通過ETL提取到統一的數據庫,我們提供跨數據庫的聯合數據源。 跨庫集成的亮點

跨庫集成的亮點

  • 1.無需落地
    Synapse提供直接跨庫查詢,內置數據跨庫查詢引擎,在內存中關聯,無需數據落地。省略了中間提取環節,保證了查詢數據的實時性。
  • 2. 快速部署,開箱即用
    系統內置跨數據庫引擎,無需額外安裝部署。
  • 3、加工速度快,擴展性好
    針對海量大數據跨庫查詢,內置跨庫引擎,通過線性擴展、並行處理方案,滿足企業成長需求。
  • 4. 高性能應用
    跨數據庫數據源支持應用於數據集的定義。我們的常規數據分析底層結構是基於數據源直連我們的數據連接進行數據分析和展示。 這種情況下,如果我們的數據量比較小,一般是沒有問題的,但是一旦我們的數據達到一定的水平,我們的報表性能就會出現很大的瓶頸。 這時候我們可以直接使用緩存內存庫機制來保證系統的長壽命。並且是擴展能力最重要的保證。

數據管控與查詢

Synapse支持豐富的資料來源接入,但一般並不能直接使用接入的業務庫直接進行資料分析。 所以在報表開發前的取數過程,把需要的資料整合成一個資料集合,可以理解為我們基於資料庫獲取我們需要的資料,也是資料分析師和最終業務用戶進行交互分析前的準備步驟。

資料查詢能力亮點

  • 1.視覺化的數據準備
    Synapse提供強大的介面化資料管理能力,由使用者自行在來源資料關係的基礎上構建自己的業務所需資料集。 如視覺化查詢就能讓使用者在一個視覺化介面拖拉拽即可輕鬆完成資料模型的構建,使我們的分析用戶更快、更直觀地獲取到準備好的資料,從而更快、更智慧地進行業務決策。
  • 2. 支援跨庫查詢
    自助資料集支援跨庫查詢,當使用者查詢資料的範圍比較廣並不限於一個資料庫時,可以跨多個庫進行查詢。 提供跨資料庫查詢功能,支援將不同的資料來源關聯,應對不同介面資料統一訪問問題。
  • 3.快取記憶體機制
    系統支援資料抽取功能的資料集:自助資料集、視覺化資料集、SQL資料集、存儲過程資料集、Java資料集、即席查詢、透視分析。 大部分資料集都支援通過資料抽取從來源資料庫中抽取原始資料到快取記憶體庫,它可以保證秒級獲取大級別量的資料結果,提高系統性能。

MPP資料庫服務

隨著分散式、並行化技術成熟應用,MPP引擎資料庫逐漸表現出強大的高吞吐、低時延計算能力,採用MPP架構能達到“億級秒開。 Synapse MPP DW列式資料庫,主要用於資料分析領域。

它自包含了存儲和計算能力,完全自主實現了高可用,而且支援完整的SQL語法包括JOIN等,技術上有著明顯優勢。 相比於hadoop體系,以資料庫的方式來做大資料處理更加簡單易用,學習成本低且靈活度高。

我們在計算層做了非常細緻的工作,竭盡所能榨幹硬體能力,提升查詢速度。它實現了單機多核並行、分散式運算、向量化執行與SIMD指令、代碼生成等多種重要技術。

我們從數據分析場景需求出發,定制開發了一套全新的高效列式存儲引擎,並且實現了資料有序存儲、主鍵索引、稀疏索引、資料Sharding、資料Partitioning、TTL、主備複製等豐富功能。 我們提供任何DW的移轉與建置,並提供企業數據規模硬體需求的評估。