
通過數據蒐集功能,豐富平臺中的資料,滿足後續分析需求:
數據處理指的是在數據分析之前對數據進行清洗、轉換、載入,簡稱ETL:
自助ETL具備以下四個特點:
一體化:集成在Synapse中,無需獨立部署就可以使用。
視覺化:完全介面化直接操作,業務人員都能參與。
高性能:分散式計性能強悍,採用業界先進架構,能夠處理海量數量,最大規模可以達到PB級,數據量處理的性能是同類型傳統工具的10倍。
強功能:大量元件兼顧一般數據處理,與高級數據處理。
企業數據存儲在不同的服務器甚至不同類型的數據庫中。當用戶查詢的數據范圍很廣且不限於一個數據庫時,需要跨多個數據庫進行相關的查詢分析。我們不需要傳統的方式:通過ETL提取到統一的數據庫,我們提供跨數據庫的聯合數據源。 跨庫集成的亮點
跨庫集成的亮點
Synapse支持豐富的資料來源接入,但一般並不能直接使用接入的業務庫直接進行資料分析。 所以在報表開發前的取數過程,把需要的資料整合成一個資料集合,可以理解為我們基於資料庫獲取我們需要的資料,也是資料分析師和最終業務用戶進行交互分析前的準備步驟。
資料查詢能力亮點
隨著分散式、並行化技術成熟應用,MPP引擎資料庫逐漸表現出強大的高吞吐、低時延計算能力,採用MPP架構能達到“億級秒開。 Synapse MPP DW列式資料庫,主要用於資料分析領域。
它自包含了存儲和計算能力,完全自主實現了高可用,而且支援完整的SQL語法包括JOIN等,技術上有著明顯優勢。 相比於hadoop體系,以資料庫的方式來做大資料處理更加簡單易用,學習成本低且靈活度高。
我們在計算層做了非常細緻的工作,竭盡所能榨幹硬體能力,提升查詢速度。它實現了單機多核並行、分散式運算、向量化執行與SIMD指令、代碼生成等多種重要技術。
我們從數據分析場景需求出發,定制開發了一套全新的高效列式存儲引擎,並且實現了資料有序存儲、主鍵索引、稀疏索引、資料Sharding、資料Partitioning、TTL、主備複製等豐富功能。 我們提供任何DW的移轉與建置,並提供企業數據規模硬體需求的評估。