So với Cơ sở dữ liệu, Kho dữ liệu hay Hồ dữ liệu, có lẽ Data Mart (Tập hợp dữ liệu) còn là một thuật ngữ khá xa lạ và khó hiểu đối với những người lần đầu tiên tiếp xúc. Nếu bạn đang muốn hiểu rõ hơn về Data Mart và nhận biết được sự khác biệt của nó với những hệ thống lưu trữ khác thì hãy đọc ngay bài viết này của FSI để nạp thêm nhiều kiến thức mới mẻ nhé!
Định nghĩa Data Mart
Data Mart là phiên bản thu nhỏ của kho dữ liệu được thiết kế để phục vụ nhu cầu sử dụng của một phòng ban, đơn vị hoặc nhóm người có chức năng cụ thể trong tổ chức/doanh nghiệp như tiếp thị, kinh doanh, nhân sự, pháp chế, tài chính. Các bộ phận ấy cũng đồng thời nắm quyền kiểm soát phần mềm.
Sở dĩ, Data Mart được cho là phiên bản thu nhỏ của kho dữ liệu bởi nó có kích thước nhỏ hơn và thường chỉ tập trung thu thập dữ liệu từ một vài nguồn. Do đó, Data Mart linh hoạt hơn so với kho dữ liệu, cho phép người dùng nhanh chóng truy cập thông tin chi tiết quan trọng mà không mất thời gian tìm kiếm trong toàn bộ hệ thống lưu trữ rộng lớn.
Phân loại Data Mart
Có 3 kiểu Data Mart phổ biến mà các doanh nghiệp nhất định phải biết để lựa chọn loại thích hợp áp dụng trong mô hình kinh doanh của mình:
Data Mart phụ thuộc
Data Mart phụ thuộc được xây dựng trên một kho dữ liệu trung tâm. Các nguồn dữ liệu, bao gồm cả dữ liệu của bên thứ ba trước tiên được tải vào kho dữ liệu trung tâm, sau đó những dữ liệu cần thiết sẽ được chọn lọc truyền tới Data Mart.
Lợi thế của mô hình này là phần lớn việc quản lý dữ liệu đều diễn ra trong kho lưu trữ trung tâm nên không đòi hỏi nhiều kỹ thuật ở cấp độ Data Mart. Tuy nhiên, các vấn đề quan trọng như công nghệ, dữ liệu và lưu trữ (bao gồm cả sao lưu) đều được xử lý tập trung, nếu kho dữ liệu ngoại tuyến vì bất kỳ lý do gì thì các kho dữ liệu phụ thuộc cũng ngừng hoạt động cùng với chúng.
Nếu bạn đang muốn phát triển một hoặc nhiều dữ liệu vật lý, thì cần thiết phải lập trình dữ liệu dưới dạng phụ thuộc này.
Data Mart độc lập
Các Data Mart độc lập không dựa vào kho dữ liệu trung tâm thậm chí kho dữ liệu trung tâm không nhất thiết phải tồn tại. Thay vào đó, các kho dữ liệu độc lập hoạt động như các thực thể riêng biệt tập trung vào nhu cầu của các bộ phận cụ thể. Mô hình này là lựa chọn lý tưởng cho các đơn vị kinh doanh riêng lẻ muốn chạy kho dữ liệu phù hợp nhất với họ.
Tất nhiên, sự độc lập này luôn đi kèm với chuyên môn quản trị kỹ thuật cao tại mỗi Data Mart. Ngoài ra, nếu dữ liệu cần được tổng hợp trên các kho dữ liệu thì bạn sẽ phải xây dựng các truy vấn truy cập vào nhiều kho dữ liệu. Do đó, với các kho dữ liệu độc lập, điều quan trọng hơn cả là phải tổ chức cách đặt tên tiêu chuẩn cho các bảng và trường để tạo báo cáo giữa các dữ liệu chéo dễ dàng hơn.
Data Mart kết hợp
Data Mart kết hợp có chứa cả một số dữ liệu phụ thuộc vào kho trung tâm và một số tồn tại độc lập. Mô hình này hiệu quả như một bước chuyển tiếp cho các kho dữ liệu mới. Các nguồn dữ liệu mới dành riêng cho từng chủ đề dễ triển khai hơn dưới dạng các dữ liệu độc lập. Khi chúng đã chứng minh được giá trị của mình, chúng có thể được đưa đến kho dữ liệu trung tâm, nếu cần.
Mô hình kết hợp là một cách tốt để tích hợp các hoạt động mua lại (M&A). Công ty mua lại coi dữ liệu của công ty con là một kho dữ liệu độc lập và lập kế hoạch làm cho dữ liệu ấy tuân thủ các chính sách dữ liệu của chính doanh nghiệp mẹ, sau đó tích hợp chúng với nhau.
Một cân nhắc đáng kể là nguồn nhân lực cần thiết để chạy mô hình kết hợp. Nó đòi hỏi chuyên môn quản trị kỹ thuật ở cả kho dữ liệu trung tâm và ở cấp độ Data Mart.
Cấu trúc Data Mart
Các kiến trúc dữ liệu cấp lược đồ có liên quan đến nhau của Data Mart bao gồm: Ngôi sao, bông tuyết và bảng không chuẩn hóa.
Ngôi sao
Cấu trúc hình sao là cấu trúc đơn giản nhất trong ba cấu trúc và làm giảm độ phức tạp của việc triển khai các Data Mart. Trong cấu trúc hình sao, một bảng dữ kiện liên quan đến một sự kiện hoặc quy trình kinh doanh cụ thể (ví dụ: dữ liệu bán hàng) nằm ở trung tâm của ngôi sao, được bao quanh bởi một số bảng thứ nguyên. Bảng dữ kiện liên kết với các bảng thứ nguyên nhưng lại không có sự phụ thuộc giữa các bảng thứ nguyên. Ví dụ: bảng dữ kiện bán hàng có thể liên quan trực tiếp đến bảng thứ nguyên liệt kê tên các sản phẩm, số lượng, màu sắc,…. Chúng được kết nối thông qua mã định danh sản phẩm. Khi các bảng thứ nguyên này phát triển, bạn bắt đầu thấy một mô hình ngôi sao trong đó bảng trung tâm tương tác với một lớp một chiều duy nhất của các bảng có liên quan.
Bông tuyết
Hãy xem xét trường hợp trong đó một Data Mart có cấu trúc hình sao chứa các bảng thứ nguyên mà bản thân chúng phải tuân theo các thứ nguyên khác thì đây chính là cấu trúc bông tuyết. Các bảng thứ nguyên được chuẩn hóa để bảo vệ tính toàn vẹn của dữ liệu và giảm thiểu sự dư thừa dữ liệu.
Mặc dù phương pháp này yêu cầu ít không gian hơn để lưu trữ các bảng thứ nguyên, nhưng đây là một cấu trúc phức tạp có thể khó bảo trì và tác động tiêu cực đến hiệu suất do các bảng bổ sung.
Các bảng không chuẩn hóa
Các cấu trúc hình sao và bông tuyết đều yêu cầu các truy vấn báo cáo đôi khi phải trải qua các “liên kết” mở rộng để kết nối dữ liệu trong nhiều bảng. Tùy thuộc vào lượng dữ liệu có liên quan, những liên kết này sẽ làm giảm khả năng phản hồi của báo cáo.
Một cách khác là sử dụng các bảng không chuẩn hóa, loại bỏ các liên kết và thực hiện các truy vấn hiệu quả hơn. Cấu trúc bảng không chuẩn hóa tập hợp tất cả dữ liệu cần thiết vào một bảng sẽ tạo ra các truy vấn nhanh hơn và có khả năng tạo ra dữ liệu dư thừa. Mặc dù dữ liệu dư thừa này làm cho việc chèn và cập nhật trở nên đắt đỏ hơn, nhưng các bảng không chuẩn hóa mang đến lợi ích còn lớn hơn các chi phí đó.
Ưu điểm và nhược điểm của Data mart
Ưu điểm
Ưu điểm lớn nhất của Data Mart là tính hiệu quả, cả về chi phí và quyền truy cập dữ liệu. Một chiến lược Data Mart được xây dựng tốt có thể cung cấp cho các lãnh đạo đơn vị kinh doanh và bộ phận quyền truy cập rất nhanh vào dữ liệu họ cần.
Một ưu điểm khác là các Data Mart có thể độc lập với nhau, do đó, sự cố ngừng hoạt động tại kho dữ liệu trung tâm không nhất thiết phải ảnh hưởng đến các tập hợp dữ liệu riêng lẻ.
Khi một Data Mart bao gồm dữ liệu của bên thứ ba được cấp phép, lợi thế chính là chi phí giấy phép sẽ thấp hơn vì cơ sở người dùng cho dữ liệu nhỏ hơn so với khi nó ở trong kho dữ liệu.
Nhược điểm
Vì một tập hợp dữ liệu chỉ chứa dữ liệu mà một bộ phận doanh nghiệp cần, nên bản thân nó không cung cấp khả năng hiển thị đối với tập hợp dữ liệu rộng hơn. Tương tự, trong mô hình Data Mart độc lập không bao gồm kho dữ liệu trung tâm, doanh nghiệp có thể không có quyền truy cập sẵn sàng vào báo cáo siêu dữ liệu chéo.
Một số nhược điểm bổ sung:
- Không nhất thiết phải là giải pháp phù hợp cho mọi nhóm và quá nhiều Data Mart sẽ trở nên khó quản lý.
- Chiến lược tự động truyền dữ liệu có thể dẫn đến chi phí ngoài ngân sách. Nếu một công ty cấp phép dữ liệu tiếp thị cho 10 người trong bộ phận tiếp thị của mình, nhưng dữ liệu được truyền đến các kho dữ liệu khác, thì công ty phải trả thêm phí.
- Khi triển khai các kho dữ liệu độc lập, các chi tiết thường bị bỏ qua như cú pháp tên trường có thể đột nhiên trở nên cực kỳ quan trọng để căn chỉnh ở mức cao. Nếu không, bạn rất dễ gặp rắc rối khi tạo báo cáo để chạy.
Sự khác biệt giữa Data Mart và các hệ thống lưu trữ dữ liệu khác
Data Mart so với cơ sở dữ liệu
Data Mart đóng vai trò là yếu tố trực diện cho dữ liệu của một bộ phận. Bạn có thể sử dụng Data Mart để truy xuất và phân tích thông tin. Trong khi đó, cơ sở dữ liệu có nhiệm vụ thu thập, quản lý và lưu trữ thông tin.
Data Mart so với kho dữ liệu
Data Mart chia sẻ nhiều đặc tính của kho dữ liệu. Điểm khác biệt giữa chúng là kho dữ liệu chứa dữ liệu của toàn công ty về nhiều chủ đề khác nhau. Trong khi đó, tập hợp dữ liệu lưu trữ thông tin liên quan chặt chẽ với một chủ đề cụ thể. Nhiều tổ chức đang sử dụng các công nghệ như chia sẻ dữ liệu để đưa tập hợp dữ liệu của họ lên kho dữ liệu trung tâm. Bằng cách này, các tổ chức có thể hoạt động linh hoạt hơn nhờ phân phối quyền sở hữu và tách biệt khối lượng công việc.
Data Mart so với hồ dữ liệu
Vì hồ dữ liệu lưu trữ dữ liệu chưa qua xử lý, một số thông tin có thể bị trùng lặp hoặc không có giá trị với công ty. Trong khi đó, Data Mart lưu trữ dữ liệu đã qua xử lý, đáp ứng một nhu cầu cụ thể. Hồ dữ liệu có thể là nguồn của tập hợp dữ liệu. Các doanh nghiệp xác định xu hướng dữ liệu bằng cách xem xét dữ liệu lịch sử trong tập hợp dữ liệu, tuy nhiên, họ sử dụng hồ dữ liệu để phân tích chuyên sâu thông tin được lưu trữ.
Với các nội dung mà FSI đã tổng hợp và chia sẻ, hy vọng bạn sẽ nhận biết được sự khác biệt cơ bản giữa Data Mart với cơ sở dữ liệu, kho dữ liệu hay hồ dữ liệu. Từ đó, có thêm cho mình một sự lựa chọn mới mẻ mà hữu ích để giải quyết bài toán lưu trữ dữ liệu hiệu quả.