一間主要在説明資料的科學團隊,在研究時發現更快速的資料的 新型雲端資料庫 ,該 新型雲端資料庫 為資料科學團隊,提供了一種更強大的方式來存儲、更新、更快、且可用於分析和共用大量不同的資料。

 

TileDB 新型雲端資料庫

TileDB包含一個新的多維陣列資料格式、一個快速的、可嵌入的、開源的c++存儲引擎和資料科學工具集成,以及一個易於資料管理和無伺服器計算的雲服務。

開發人員說,傳統資料庫不適合資料科學使用,因為它們沒有經過雲端優化,而雲端物件存儲則受到物件的不變性、最終一致性和IO請求限制的影響。另一個問題是,有些格式缺乏對有效資料更新的足夠支援。最後,開發人員指出有限的資料儲存範圍是一個問題,因為大多數科學應用程式資料需要至少兩種單獨的檔案格式來處理陣列資料和資料泛型;多維陣列的用途,例如線性代數;和OLAP操作的資料流程。

 

TileDB 新型雲端資料庫 將更強大

該團隊在創建TileDB時從存儲層開始,並表示它是唯一同時處理稠密和稀疏多維陣列的格式和存儲引擎。它在多個存儲後端支援高效的陣列IO,包括AWS S3等雲端物件存儲。TileDB它還提供快速、高度且並行的、無鎖的、批量的更新,這些更新被設計為在雲端上處理不可變物件時特別有效。所有的更新邏輯和功能(比如時間記錄)都內置在格式和存儲引擎中。

 

TileDB新型雲端資料庫的連結

TileDB提供了一個獨立的、可嵌入的c++庫,它附帶了C、c++、Python、R、Java和Go中的api,並且可以直接訪問TileDB陣列。該圖書館集成了Spark, Dask, PrestoDB, MariaDB, Arrow和地理空間圖書館,如PDAL, GDAL和Rasterio。TileDB將盡可能多的計算下推到存儲中,比如來自SQL引擎的過濾條件和來自Dask和Spark的資料流程計算。

 

付費型TileDB Cloud新型雲端資料庫

除了資料庫之外,還有TileDB Cloud,這是一種按需付費的服務,您可以使用它與其他用戶共用雲端上的TileDB陣列,並在這些陣列上執行無伺服器雲端運算。

TileDB 新型雲端資料庫 是一個旨在幫助數據科學團隊更快發現的數據庫,它為他們提供了一種更自然的方式來分析和共用大量不同數據,從而可以避免浪費時間來解決性能限制,數據存儲格式不足以及不熟悉的問題。