Database SQL Server

Thảo luận loạt bài về database mechanism hôm nay chúng ta sẽ phân tích thêm các khái niệm của cơ sở dữ liệu truyền thống nhé

- Normalization: chuẩn càng cao dư thừa dữ liệu càng ít, độ chính xác cao và hi sinh nhiều về scale out. Trong #cqrs người ta đi ngược lại với khái niệm de-normalization để query nhanh hơn và distributed hơn

- Partitioning: query trên những tập data nhỏ và vừa (column hoặc row) để tăng tốc độ xử lý, có thể tận dụng các phép toán song song. Truy vấn trên các logical unit data, nhưng dữ liệu vẫn ở trong cùng database

- Sharding: Khi lượng dữ liệu lớn dần theo thời gian (điều không thể tránh khỏi ở đa phần ứng dụng) thì người ta hay nói đến sharding database, tức là tác vụ tách các table cùng schema riêng ra, gọi là các shard, và lưu ở nhiều physical machine hay node. Nếu ta tách theo các row thì ta được Horizontal Sharding, còn nếu ta tách theo column thì ta được Vertical Sharding

- Replication: tái tạo 1 hoặc toàn bộ transaction (bao gồm schema) lên các vùng geo khác nhau, làm tăng mức độ sẵn có khi truy xuất của toàn hệ quản trị cơ sở dữ liệu. 

- Bổ sung thêm các phân tích về ACID và BASE, và tại sao lại cần message-driven để tái tạo các transaction log khi mà các database khác không phải là database truyền thống mà có thể là bất kỳ cơ chế lưu trữ nào phù hợp (e.g. blob store, CDN, NoSQL, NewSQL, Messaging platform, …), và làm thế nào để thỏa mãn BASE. Các khó khăn trong thực tế khi quyết định phân chia database theo isolated bounded components. Việc không đủ nguồn lực quản trị các kiểu CSDL mới (e.g. Neo4J, Kafka, …) sẽ vô tình đẩy người quyết định công nghệ sang dùng các dịch vụ đang có của đám mây => vendor lock-in. Và phân tích thêm sự phức tạp của việc quản lý nhiều loại CSDL phân rã trên toàn cầu (ví dụ: hệ thống có 4 service, mỗi service xài 2 kiểu CSDL, mỗi CSDL có thể là sharding, replica sang 3 thị trường, tổng cộng phải quản lý hơn 4 x 2 x 3 = 24 

Tác giả: Thang Chung và Phi Huynh tham khảo từ cộng đồng Việt Nam Microservices Group