在這大數據時代,數據可說是企業最寶貴的資產。隨著雲端架構的快速發展,許多企業也導入了相關技術以便管理越來越多的數據,並秉持著「一筆數據都不能刪」的原則。根據 TechOrange 《雲端 AI 應用大調查》報告指出,約 37% 企業認為,數據管理和分析自動化是企業 2023 年最優先關注的重點 IT 投資項目。
然而,過多的數據不僅可能會額外耗費大量成本,甚至還可能成為資安漏洞。
把數據通通存下來不好嗎?
這些瑣碎的數據大多難以確定價值,但大多數企業總會有個迷思,認為數據存著總是比較心安,也許哪一天會用上。而有些企業雖制定了內部政策,規定組織定期銷毀前僱員數據、財務數據等內容,但仍會擔心,萬一在過程中誤刪了重要數據該怎麼辦?
根據估計,組織儲存的數據中,約有 30% 屬於多餘、過時或瑣碎的資料,而 Splunk 的一項研究更發現,有高達 60% 的組織認為自己有一半以上的數據都屬於「暗數據」,根本無法確定它們的價值。
然而,這些數據其實就像是駭客眼中的肥羊,很容易成為資安漏洞。另一方面,大量的過時數據也容易讓操作變得混亂,進而降低生產力。
想要妥善管理資訊,IT 管理者應該有效地創建出屬於自己的一套流程,來識別、搜尋並刪除無用資訊。
創立明確的數據管理策略,可以這樣做
想要知道何時刪除數據,首先,要正確分析相關數據,並深入了解這些數據的使用情況,分別根據「數據類型」(長期 or 短期)以及「數據使用狀況」來確認究竟要刪除哪些數據。透過這樣的客觀分析方法,未來在與客戶溝通時,或許也能更容易獲得支持。
怎樣的數據才能算得上是有意義、高質量的數據?數據公司 techtarget 提出了一個建議,認為企業須考量到數據的準確性、完備性、一致性、從眾性、完整性、可適時存取性,再搭配使用的時機、相關預算等方面去調整。在規劃路徑時,也務必考慮法規、數據長期價值和每階段轉移的成本。
例如,當初步分類數據後,就可以往下制定數據的移動流程。最一開始資料會放在主要儲存區,接著是存放較少使用的資料區域(cold data),其它更少使用的數據就可以進入封存區、用戶空間之外的隱藏位置,或是就刪除資料。
建立顧客溝通管道,妥善取得共識
當內部建立了相關策略後,需要進一步確認這些決定是經過所有利益相關者同意的。
身為數據管理者,有責任向使用者和關係人說明數據使用和刪除的策略,確保他們了解數據的期限、寬限期、刪除方式等等內容。大部分企業在得知有寬限期時,會更容易同意這樣的工作流程。
如果企業堅持要保留長期數據,也要讓公司決策者充分了解存取這些數據的額外步驟及成本。例如,放到 AWS Glacier Deep Archive 的數據可能需要幾個小時才能存取,而且還需額外收取程序費。
另一方面,刪除數據並非零成本的事情,除了要考慮讀取/寫入速度之外,也要注意刪除時所消耗的系統性能。以主題公園的拍照服務舉例,假設每天客人的照片容量為 100k,最多保留 30 天,那麼,在第 30 天時,系統便須同時處理 100k 的新照片並刪除 100k 的容量。
換言之,假設系統刪除數據的速度跟加入新數據的速度一樣快,可能會需要額外添購儲存設備來保存過期數據。相反的,如果能做好管理、層層移動,就能更容易減少負載問題。
本文開放合作夥伴轉載,參考資料:venturebeat、techtarget1/2、digitaljournal,圖片來源:Unsplash