Thế nào là lập mô hình dữ liệu?

Lập mô hình dữ liệu là quá trình tạo dựng một hình ảnh trình bày trực quan hoặc kế hoạch chi tiết xác định các hệ thống thu thập và quản lý thông tin của tổ chức bất kỳ. Kế hoạch chi tiết hay mô hình dữ liệu này hỗ trợ các bên liên quan khác, chẳng hạn như các nhà phân tích, nhà khoa học và kỹ sư về dữ liệu, trong việc tạo ra một cái nhìn thống nhất về dữ liệu của tổ chức. Mô hình này vạch ra dữ liệu mà doanh nghiệp thu thập, mối quan hệ giữa các tập dữ liệu khác nhau cũng như phương pháp lưu trữ và phân tích dữ liệu sẽ được áp dụng.

Tại sao lập mô hình dữ liệu lại quan trọng?

Hiện nay, các tổ chức thu thập một lượng lớn dữ liệu từ nhiều nguồn khác nhau. Tuy nhiên, dữ liệu thô là chưa đủ. Bạn cần phân tích dữ liệu để thu được thông tin chuyên sâu hữu ích có thể hướng dẫn bạn đưa ra những quyết định kinh doanh mang lại lợi nhuận. Để phân tích dữ liệu chính xác, bạn cần thu thập, lưu trữ và xử lý dữ liệu hiệu quả. Có một số công nghệ cơ sở dữ liệu và công cụ xử lý dữ liệu cũng như tập dữ liệu khác nhau đòi hỏi những công cụ khác nhau để phân tích hiệu quả.

Lập mô hình dữ liệu trao cho bạn cơ hội nắm bắt dữ liệu và đưa ra lựa chọn công nghệ đúng đắn để lưu trữ và quản lý dữ liệu này. Tương tự như cách một kiến trúc sư thiết kế kế hoạch chi tiết trước khi xây dựng nhà ở, các bên kinh doanh liên quan sẽ thiết kế một mô hình dữ liệu trước khi họ vạch ra các giải pháp cơ sở dữ liệu cho tổ chức của mình.

Lập mô hình dữ liệu mang lại những lợi ích sau:

  • Giảm số lượng lỗi trong quá trình phát triển phần mềm cơ sở dữ liệu
  • Thúc đẩy tốc độ và hiệu quả thiết kế cũng như tạo cơ sở dữ liệu
  • Tạo ra sự nhất quán trong tài liệu dữ liệu và thiết kế hệ thống trong toàn tổ chức
  • Tạo điều kiện thuận lợi cho hoạt động giao tiếp giữa các kỹ sư dữ liệu và nhóm nghiệp vụ thông minh

Mô hình dữ liệu có những loại nào?

Lập mô hình dữ liệu thường bắt đầu bằng việc biểu diễn dữ liệu theo khái niệm và sau đó biểu diễn lại dữ liệu theo ngữ cảnh của công nghệ đã chọn. Các nhà phân tích và bên liên quan tạo ra một số loại mô hình dữ liệu khác nhau trong giai đoạn thiết kế dữ liệu. Sau đây là ba loại mô hình dữ liệu chính:

Mô hình dữ liệu khái niệm

Các mô hình dữ liệu khái niệm mang lại cái nhìn toàn cảnh về dữ liệu. Loại mô hình dữ liệu này giải thích những thông số sau:

  • Dữ liệu bên trong hệ thống
  • Các thuộc tính dữ liệu và điều kiện hoặc ràng buộc về dữ liệu
  • Các quy tắc kinh doanh liên quan đến dữ liệu
  • Cách thức sắp xếp dữ liệu tốt nhất
  • Các yêu cầu về bảo mật và tính toàn vẹn của dữ liệu

Các bên kinh doanh liên quan và nhà phân tích thường tạo ra mô hình khái niệm. Đó là một hình ảnh trình bày theo kiểu sơ đồ đơn giản không tuân theo quy tắc lập mô hình dữ liệu chính thức. Điều quan trọng ở đây là mô hình đó giúp các bên liên quan bất kể biết về kỹ thuật hay phi kỹ thuật đều có thể chia sẻ tầm nhìn chung và đồng thuận về mục đích, phạm vi cũng như thiết kế dự án dữ liệu của họ.

Ví dụ về mô hình dữ liệu khái niệm

Ví dụ: Mô hình dữ liệu khái niệm dành cho một đại lý ô tô có thể hiển thị các thực thể dữ liệu như sau:

  1. Một thực thể Showrooms (Phòng trưng bày) biểu diễn thông tin về các cửa hàng tiêu thụ khác nhau mà đại lý sở hữu
  2. Một thực thể Cars (Xe ô tô) biểu diễn một số xe ô tô mà đại lý hiện đang trữ trong kho
  3. Một thực thể Customers (Khách hàng) biểu diễn mọi khách hàng có thể thực hiện giao dịch mua tại đại lý
  4. Một thực thể Sales (Giao dịch bán hàng) biểu diễn thông tin về giao dịch bán hàng thực tế
  5. Một thực thể Salesperson (Nhân viên bán hàng) biểu diễn thông tin về mọi nhân viên bán hàng làm việc cho đại lý

Mô hình khái niệm này cũng sẽ bao gồm những yêu cầu kinh doanh, chẳng hạn như:

  • Mọi chiếc xe ô tô phải thuộc về một phòng trưng bày cụ thể.
  • Mọi giao dịch bán hàng phải có ít nhất một nhân viên bán hàng và một khách hàng liên kết với nhân viên bán hàng đó.
  • Mọi chiếc xe ô tô phải có tên thương hiệu và mã số sản phẩm.
  • Mọi khách hàng phải cung cấp số điện thoại và địa chỉ email của mình.

Do đó, các mô hình khái niệm đóng vai trò là cầu nối giữa những quy tắc kinh doanh và hệ thống quản lý cơ sở dữ liệu vật lý căn bản (DBMS). Mô hình dữ liệu khái niệm cũng được gọi là mô hình miền.

Mô hình dữ liệu logic

Mô hình dữ liệu logic ánh xạ các lớp dữ liệu khái niệm với cấu trúc dữ liệu kỹ thuật. Loại mô hình này cung cấp thêm chi tiết về khái niệm dữ liệu và mối quan hệ dữ liệu phức tạp đã được xác định trong mô hình dữ liệu khái niệm, ví dụ:

  • Các loại dữ liệu của nhiều thuộc tính khác nhau (ví dụ: chuỗi hoặc số)
  • Mối quan hệ giữa các thực thể dữ liệu
  • Thuộc tính chính hoặc trường chủ chốt trong dữ liệu

Các kiến trúc sư và nhà phân tích dữ liệu cùng nhau hợp tác để tạo ra mô hình logic. Họ tuân theo một trong số vài hệ thống lập mô hình dữ liệu chính thức để tạo ra hình ảnh trình bày. Đôi khi, các nhóm linh hoạt có thể chọn bỏ qua bước này và trực tiếp chuyển từ mô hình khái niệm sang mô hình vật lý. Tuy nhiên, những mô hình này rất hữu ích đối với quá trình thiết kế các cơ sở dữ liệu lớn gọi là kho dữ liệu và quá trình thiết kế hệ thống báo cáo tự động.

Ví dụ về mô hình dữ liệu logic

Ví dụ: tại đại lý ô tô của chúng ta, mô hình dữ liệu logic sẽ mở rộng mô hình khái niệm và xem xét sâu hơn những lớp dữ liệu như sau:

  • Thực thể Showrooms (Phòng trưng bày) có các trường như tên và vị trí là dạng dữ liệu văn bản và số điện thoại là dạng dữ liệu số.
  • Thực thể Customers (Khách hàng) có trường địa chỉ email với định dạng [email protected] hoặc [email protected]. Tên trường có thể không được dài quá 100 ký tự.
  • Thực thể Sales (Giao dịch bán hàng) có tên khách hàng và tên nhân viên bán hàng dưới dạng các trường, cùng với đó là ngày bán hàng dưới dạng loại dữ liệu ngày và số tiền dưới dạng loại dữ liệu thập phân.

Do đó, các mô hình logic đóng vai trò là cầu nối giữa mô hình dữ liệu khái niệm với công nghệ cơ sở và ngôn ngữ cơ sở dữ liệu được nhà phát triển sử dụng để tạo cơ sở dữ liệu. Tuy nhiên, những mô hình này không mang tính áp đặt về mặt công nghệ và bạn có thể triển khai chúng bằng bất kỳ ngôn ngữ cơ sở dữ liệu nào. Những kỹ sư dữ liệu và bên liên quan thường đưa ra các quyết định công nghệ sau khi họ đã tạo ra một mô hình dữ liệu logic.

Mô hình dữ liệu vật lý

Mô hình dữ liệu vật lý ánh xạ các mô hình dữ liệu logic với công nghệ DBMS cụ thể và sử dụng thuật ngữ của phần mềm. Ví dụ: loại mô hình này cung cấp chi tiết về những thông số sau:

  • Loại trường dữ liệu như được biểu diễn trong DBMS
  • Mối quan hệ dữ liệu như được biểu diễn trong DBMS
  • Chi tiết bổ sung như tinh chỉnh hiệu suất

Các kỹ sư dữ liệu tạo ra mô hình vật lý trước khi triển khai bản thiết kế cuối cùng. Họ cũng tuân theo các kỹ thuật lập mô hình dữ liệu chính thức để đảm bảo đã bao quát tất cả các khía cạnh của thiết kế.

Ví dụ về mô hình dữ liệu vật lý

Giả sử đại lý ô tô đã quyết định tạo ra một kho lưu trữ dữ liệu trong Amazon S3 Glacier truy xuất linh hoạt. Mô hình dữ liệu vật lý của họ mô tả những thông số sau:

  • Trong Sales (Giao dịch bán hàng), số tiền bán hàng là loại dữ liệu kiểu số thực (float) và ngày bán hàng là loại dữ liệu kiểu nhãn thời gian.
  • Trong Customers (Khách hàng), tên khách hàng là loại dữ liệu kiểu chuỗi.
  • Trong thuật ngữ của S3 Glacier truy xuất linh hoạt, vault là vị trí địa lý của dữ liệu của bạn.

Mô hình dữ liệu vật lý của bạn cũng bao gồm những chi tiết bổ sung như Khu vực AWS bạn sẽ tạo vault của mình. Do đó, mô hình dữ liệu vật lý đóng vai trò là cầu nối giữa mô hình dữ liệu logic và bản triển khai công nghệ cuối cùng.

Kỹ thuật lập mô hình dữ liệu có những loại nào?

Các kỹ thuật lập mô hình dữ liệu là những phương pháp khác nhau mà bạn có thể sử dụng để tạo ra các mô hình dữ liệu khác nhau. Các cách tiếp cận đã phát triển theo thời gian nhờ các đổi mới trong khái niệm cơ sở dữ liệu và quản trị dữ liệu. Sau đây là các loại lập mô hình dữ liệu chính:

Lập mô hình dữ liệu phân cấp

Đối với việc lập mô hình dữ liệu phân cấp, bạn có thể biểu diễn mối quan hệ giữa những yếu tố dữ liệu khác nhau như định dạng giống hình cây. Các mô hình dữ liệu phân cấp biểu diễn mối quan hệ một-nhiều, với các lớp dữ liệu cha mẹ hoặc dữ liệu gốc ánh xạ tới một số lớp con.

Trong ví dụ về đại lý ô tô, lớp cha mẹ Showrooms (Phòng trưng bày) sẽ có cả hai thực thể Cars (Xe ô tô) và Salespeople (Nhân viên bán hàng) dưới dạng lớp con vì một phòng trưng bày sẽ bao gồm một số chiếc xe ô tô và nhân viên bán hàng đang làm việc tại đó.

Lập mô hình dữ liệu đồ thị

Theo thời gian, việc lập mô hình dữ liệu phân cấp đã phát triển thành lập mô hình dữ liệu đồ thị. Các mô hình dữ liệu đồ thị biểu diễn những mối quan hệ dữ liệu coi các thực thể bình đẳng như nhau. Các thực thể có thể liên kết với nhau theo mối quan hệ một-nhiều hoặc nhiều-nhiều mà không cần bất kỳ khái niệm cha mẹ hay khái niệm con nào.

Ví dụ: một phòng trưng bày có thể có một số nhân viên bán hàng, đồng thời, một nhân viên bán hàng cũng có thể làm việc ở một số phòng trưng bày nếu ca làm thay đổi theo vị trí.

Lập mô hình dữ liệu quan hệ

Lập mô hình dữ liệu quan hệ là phương thức lập mô hình phổ biến, trực quan hóa các lớp dữ liệu dưới dạng bảng. Các bảng dữ liệu khác nhau kết hợp hoặc liên kết với nhau bằng các khóa biểu diễn mối quan hệ thực thể trong đời thực. Bạn có thể sử dụng công nghệ cơ sở dữ liệu quan hệ để lưu trữ dữ liệu có cấu trúc, đồng thời, mô hình dữ liệu quan hệ là phương pháp hữu ích để biểu diễn cấu trúc cơ sở dữ liệu quan hệ.

Ví dụ: đại lý ô tô sẽ có các mô hình dữ liệu quan hệ biểu diễn bảng Salespeople (Nhân viên bán hàng) và bảng Cars (Xe ô tô) như sau đây:

Salesperson ID (ID nhân viên bán hàng) Name                (Tên)
1 Jane
2 John

 

Car ID (ID xe ô tô) Car Brand (Thương hiệu xe ô tô)
C1 XYZ
C2 ABC

Salesperson ID (ID nhân viên bán hàng) và Car ID (ID xe ô tô) là các khóa chính xác định duy nhất các thực thể riêng biệt trong đời thực. Trong bảng về phòng trưng bày, những khóa chính này đóng vai trò là các khóa ngoại liên kết các phân đoạn dữ liệu.

 

Showroom ID (ID phòng trưng bày) Showroom name (Tên phòng trưng bày) Salesperson ID (ID nhân viên bán hàng) Car ID            (ID xe ô tô)
S1 NY Showroom 1 C1

 

Trong các cơ sở dữ liệu quan hệ, những khóa chính và khóa ngoại này kết hợp với nhau để biểu thị mối quan hệ dữ liệu. Bảng ở trên cho thấy phòng trưng bày có thể có các nhân viên bán hàng và xe ô tô.

Lập mô hình dữ liệu thực thể – mối quan hệ

Việc lập mô hình dữ liệu thực thể – mối quan hệ (ER) sử dụng các sơ đồ chính thức để biểu diễn mối quan hệ giữa các thực thể trong cơ sở dữ liệu. Các kiến trúc sư dữ liệu sử dụng một số công cụ lập mô hình ER để biểu diễn dữ liệu.

Lập mô hình dữ liệu hướng đối tượng

Việc lập trình hướng đối tượng sử dụng các cấu trúc dữ liệu được gọi là đối tượng để lưu trữ dữ liệu. Những đối tượng dữ liệu này là các yếu tố trừu tượng của thực thể trong đời thực có trong phần mềm. Ví dụ: trong một mô hình dữ liệu hướng đối tượng, đại lý xe ô tô sẽ có các đối tượng dữ liệu như Customers (Khách hàng) với những thuộc tính như tên, địa chỉ và số điện thoại. Bạn sẽ lưu trữ dữ liệu khách hàng để mọi khách hàng trong đời thực được biểu diễn dưới dạng đối tượng dữ liệu khách hàng.

Các mô hình dữ liệu hướng đối tượng khắc phục nhiều hạn chế của mô hình dữ liệu quan hệ và trở nên phổ biến trong cơ sở dữ liệu đa phương tiện.

Lập mô hình dữ liệu thứ nguyên

Điện toán doanh nghiệp hiện đại sử dụng công nghệ kho dữ liệu để lưu trữ lượng lớn dữ liệu để phân tích. Bạn có thể sử dụng các dự án lập mô hình dữ liệu thứ nguyên để lưu trữ và truy xuất dữ liệu với tốc độ cao từ một kho lưu trữ dữ liệu. Các mô hình thứ nguyên sử dụng dữ liệu trùng lặp hoặc dư thừa và ưu tiên hiệu suất hơn so với việc sử dụng ít không gian hơn để lưu trữ dữ liệu.

Ví dụ: trong các mô hình dữ liệu thứ nguyên, đại lý ô tô có các thứ nguyên như Car (Xe ô tô), Showroom (Phòng trưng bày) và Time (Thời gian). Thứ nguyên Car (Xe ô tô) có các thuộc tính như tên và thương hiệu; tuy nhiên thứ nguyên Showroom (Phòng trưng bày) có các thứ bậc như tiểu bang, thành phố, tên phố và tên phòng trưng bày.

Quá trình lập mô hình dữ liệu là gì?

Quá trình lập mô hình dữ liệu tuân theo trình tự gồm các bước mà bạn phải thực hiện lặp đi lặp lại cho đến khi tạo ra mô hình dữ liệu toàn diện. Trong bất kỳ tổ chức nào, nhiều bên liên quan khác nhau cùng chung tay để tạo ra một chế độ xem dữ liệu hoàn chỉnh. Mặc dù các bước thay đổi dựa trên loại lập mô hình dữ liệu, sau đây là nội dung tổng quan chung.

Bước 1: Xác định các thực thể và thuộc tính

Xác định tất cả các thực thể trong mô hình dữ liệu của bạn. Mỗi thực thể cần phải riêng biệt về mặt logic so với tất cả các thực thể khác và có thể biểu diễn người, địa điểm, sự vật/sự việc, khái niệm hoặc sự kiện. Mỗi thực thể là riêng biệt vì sở hữu một hoặc nhiều thuộc tính duy nhất. Bạn có thể coi các thực thể là danh từ và thuộc tính là tính từ trong mô hình dữ liệu của mình.

Bước 2: Xác định các mối quan hệ giữa những thực thể

Mối quan hệ giữa các thực thể khác nhau là trọng tâm của việc lập mô hình dữ liệu. Các quy tắc kinh doanh ban đầu xác định những mối quan hệ này ở cấp độ khái niệm. Bạn có thể coi các mối quan hệ là động từ trong mô hình dữ liệu. Ví dụ: nhân viên bán hàng bán ra nhiều chiếc xe ô tô hoặc phòng trưng bày tuyển dụng nhiều nhân viên bán hàng.

Bước 3: Xác định kỹ thuật lập mô hình dữ liệu

Sau khi hiểu rõ thực thể và mối quan hệ của chúng về mặt khái niệm, bạn có thể xác định kỹ thuật lập mô hình dữ liệu phù hợp nhất với trường hợp sử dụng của bạn. Ví dụ: bạn có thể lập mô hình dữ liệu quan hệ dành cho dữ liệu có cấu trúc và lập mô hình dữ liệu thứ nguyên dành cho dữ liệu phi cấu trúc.

Bước 4: Tối ưu hóa và lặp đi lặp lại

Bạn có thể tối ưu hóa mô hình dữ liệu hơn nữa để phù hợp với các yêu cầu công nghệ và hiệu suất của bạn. Ví dụ: nếu dự định sử dụng Amazon Aurora và ngôn ngữ truy vấn có cấu trúc (SQL), bạn sẽ nhập trực tiếp các thực thể của mình vào bảng và sử dụng khóa ngoại để chỉ định rõ mối quan hệ. Ngược lại, nếu chọn sử dụng Amazon DynamoDB, bạn sẽ cần cân nhắc các mẫu truy cập trước khi lập mô hình bảng của mình. Vì DynamoDB ưu tiên tốc độ, trước tiên, bạn cần xác định cách thức bạn sẽ truy cập dữ liệu và sau đó lập mô hình dữ liệu theo dạng mà mô hình đó sẽ được truy cập.

Thông thường, bạn sẽ lặp đi lặp lại việc xem xét sửa đổi những bước này vì công nghệ và yêu cầu của bạn thay đổi theo thời gian.

AWS có thể trợ giúp như thế nào đối với việc lập mô hình dữ liệu?

Cơ sở dữ liệu AWS bao gồm hơn 15 công cụ cơ sở dữ liệu để hỗ trợ các mô hình dữ liệu đa dạng. Ví dụ: bạn có thể sử dụng  Dịch vụ cơ sở dữ liệu quan hệ của Amazon (Amazon RDS) để triển khai các mô hình dữ liệu quan hệ và  Amazon Neptune để triển khai các mô hình dữ liệu đồ thị.

Bạn cũng có thể sử dụng AWS Amplify DataStore để lập mô hình dữ liệu nhanh hơn và dễ dàng hơn, từ đó xây dựng các ứng dụng di động và ứng dụng web. Giao diện để xác định mô hình dữ liệu với mối quan hệ sẽ mang tính trực quan và dựa trên mã, từ đó giúp bạn tăng tốc quá trình phát triển ứng dụng của mình.

Về TechX Corp. 

TechX Corp. là đối tác AWS tại Việt Nam được thành lập năm 2019 bởi các chuyên gia có trên 15 năm kinh nghiệm đến từ các công ty đa quốc gia và tập đoàn đi đầu về chuyển đổi số. Sứ mệnh của TechX là tạo lập môi trường cho những con người đầy đam mê, nhiệt huyết thỏa sức khám phá và kiến tạo, mang đến những sản phẩm công nghệ đơn giản và thân thiện, góp phần đẩy nhanh quá trình xây dựng một Việt Nam số trên nền tảng công nghệ điện toán đám mây.

TechX 2 năm liền nhận danh hiệu Đối tác AWS của năm – AWS Partner of the Year tại Việt Nam