Amazon QuickSight ML Insights và những điều cần biết

Amazon QuickSight được ra mắt vào tháng 11 năm 2016 như một dịch vụ phân tích kinh doanh nhanh chóng, được hỗ trợ bởi đám mây để xây dựng hình ảnh hóa, thực hiện phân tích đặc biệt và nhanh chóng có được thông tin chi tiết về doanh nghiệp từ nhiều nguồn dữ liệu khác nhau.

Vào năm 2018, ML Insights dành cho QuickSight (Enterprise Edition) đã được công bố để bổ sung tính năng dự báo và phát hiện bất thường dựa trên công nghệ máy học (ML) hỗ trợ công nghệ máy học bằng một vài cú nhấp chuột.

Những thông tin chi tiết này được tạo tự động dưới dạng thông tin chi tiết được đề xuất (Suggested Insights) và bạn cũng có thể thêm thông tin chi tiết tùy chỉnh vào phân tích của mình. Vì chúng được viết ra ở định dạng tường thuật nên bất kỳ người dùng không am hiểu kỹ thuật nào cũng có thể dễ dàng sử dụng chúng và là một cách tuyệt vời để tăng mức độ chấp nhận cho các biểu đồ phân tích của bạn.

Hãy cùng tìm hiểu sâu hơn về cách xây dựng những thông tin chi tiết này và cách thiết lập chính xác dữ liệu của bạn để tối đa hóa tính năng Suggested Insights.

ML Insights là gì?

QuickSight sử dụng ML để giúp khám phá thông tin chi tiết và xu hướng ẩn trong dữ liệu của bạn. Nó thực hiện điều đó bằng cách sử dụng mô hình ML theo thời gian và với khối lượng dữ liệu ngày càng tăng được đưa vào QuickSight, liên tục học hỏi và cải thiện khả năng của nó để cung cấp ba tính năng chính:

  • ML-powered anomaly detection – Phát hiện các ngoại lệ cho thấy sự khác biệt đáng kể từ tập dữ liệu. Điều này có thể giúp xác định những thay đổi đáng kể trong chỉ số kinh doanh của bạn, chẳng hạn như các cửa hàng hoặc sản phẩm hoạt động kém hoặc các mặt hàng bán chạy nhất.
  • ML-powered forecasting – Phát hiện xu hướng và tính thời vụ để dự báo dựa trên dữ liệu lịch sử. Điều này có thể giúp dự đoán doanh số bán hàng, đơn đặt hàng, lưu lượng truy cập trang web và hơn thế nữa.
  • Autonarratives – Nhúng câu chuyện vào trang tổng quan, thêm những đoạn văn tường thuật vào các báo cáo của bạn để kể câu chuyện về dữ liệu bằng ngôn ngữ đơn giản. Điều này có thể giúp truyền đạt sự hiểu biết chung về dữ liệu trong tổ chức. Bạn có thể sử dụng chữ ký được đề xuất hoặc bạn có thể tùy chỉnh các phép tính và ngôn ngữ để đáp ứng các yêu cầu riêng từ doanh nghiệp.

Hoạt động ML mô hình như thế nào?  Các phương pháp tốt nhất để thiết lập dữ liệu

Để tối đa hóa hiệu quả của mô hình RCF, dữ liệu đang được nhập cần phải chứa các thuộc tính nhất định:

  • At least one metric – Bất cứ thứ gì bạn đang đo lường (đơn vị đã bán, đơn đặt hàng, v.v.).
  • At least one dimension – Danh mục hoặc phần mà bạn xem xét chỉ số (danh mục sản phẩm, ngành, loại khách hàng, v.v.).
  • Khối lượng dữ liệu – dataset requirements của bạn tùy thuộc vào mục tiêu của bạn:
    • Anomaly detection – Yêu cầu ít nhất 15 điểm dữ liệu. Ví dụ: nếu bạn có Bicycles làm danh mục sản phẩm và muốn phát hiện sự bất thường ở cấp độ hàng ngày, bạn cần có ít nhất 15 ngày giao dịch (bạn có thể có nhiều hàng cho nhiều giao dịch trong một ngày nhất định) cho Bicycles trong tập dữ liệu.
    • Forecasting – Điều này hoạt động tốt nhất với một tập dữ liệu lớn đơn giản vì bạn càng có nhiều lịch sử, mô hình càng có thể trích xuất các mẫu và xu hướng tốt hơn và tạo ra các giá trị có thể xảy ra trong tương lai. Nếu bạn có dữ liệu tổng hợp hàng ngày, bạn cần ít nhất 38 ngày dữ liệu.
  • At least one date column – Nếu chúng tôi muốn phân tích các điểm bất thường hoặc dự báo trong tập dữ liệu.

QuickSight hỗ trợ nhiều loại kết nối, như Amazon Simple Storage Service (Amazon S3), Amazon Athena và Apache Spark. Để biết thêm thông tin về các kết nối được hỗ trợ và một số ví dụ về kết nối, hãy tham khảo các Amazon QuickSight Connection examples.

Bắt đầu với Suggested Insights

Hãy sử dụng tập dữ liệu mẫu và xem qua ví dụ về cách sử dụng tính năng Suggested Insights

Để bắt đầu, hãy tải xuống bộ dữ liệu mẫu từ miền công cộng. Đối với bài đăng này, chúng tôi sử dụng House Sales in King County, USA. Bạn cần có tài khoản Kaggle để tải xuống tài nguyên.

  1. Tải xuống và giải nén tệp.

Nếu bạn kiểm tra tệp CVS, bạn sẽ nhận thấy nó có trường phù hợp (date), chỉ số (price, bedrooms) và danh mục (zipcode, waterfront).

Tùy thuộc vào nhu cầu phân tích của bạn là gì, ngay cả phòng ngủ cũng có thể là một danh mục mà bạn phân tích giá. Vì vậy, các chỉ số và danh mục của bạn cuối cùng phụ thuộc vào mục tiêu phân tích của bạn.

  1. Đăng nhập vào tài khoản QuickSight của bạn hoặc đăng ký tài khoản QuickSight Enterprise Edition để sử dụng ML Insights.

Trước tiên, chúng tôi cần tạo tập dữ liệu trước khi có thể tạo phân tích QuickSight.

  1. Chọn New dataset.
  2. Chọn Upload a file..
  3. Chọn tệp CSV đã giải nén.
  4. Trong cửa sổ bật lên, xác nhận cài đặt tải lên tệp, sau đó chọn Edit settings and prepare data.

Bạn được chuyển hướng đến trình chỉnh sửa chuẩn bị dữ liệu. Đây là một trong những chức năng quan trọng nhất nhưng hay bị bỏ qua trong QuickSight.

Trình chỉnh sửa này cho phép bạn xem xét các trường đã nhập của mình và các kiểu dữ liệu của chúng, chỉ định xem trường sẽ được sử dụng làm dimension hoặc measure, cùng với nhiều chức năng nhập dữ liệu quan trọng khác. Đối với bộ dữ liệu sản xuất, bạn nên dành thời gian xem lại cách thiết lập tập dữ liệu tại đây.

Đối với tệp CSV mẫu của chúng tôi, tệp này được nhập vào QuickSight SPICE theo mặc định. SPICE là một công cụ trong bộ nhớ để truy vấn nhanh dữ liệu đã nhập. Để biết thêm chi tiết, hãy xem Importing data into SPICE.

  1. Chọn Save & publish để bắt đầu nhập tệp CSV vào công cụ SPICE.

Tên tập dữ liệu mặc định là tên tệp đã được nhập, vì vậy trong trường hợp của chúng tôi, nó là kc_house_data. Bạn có thể chọn tập dữ liệu trên trang Datasets để xem thống kê nhập cho tập dữ liệu.

  1. Chọn Create analysis để bắt đầu tạo phân tích QuickSight của bạn.

Trang trình soạn thảo phân tích bắt đầu bằng cách hiển thị Sheet 1 trên không gian làm việc của bạn. Ở trên cùng bên phải, thông tin về việc nhập dữ liệu của bạn được hiển thị lại (điều này trở nên quan trọng khi nhập hoặc làm mới các tập dữ liệu lớn vì công việc nhập có thể vẫn đang diễn ra).

Hãy bắt đầu bằng cách tạo hình ảnh đầu tiên của chúng tôi. Loại trực quan mặc định là AutoGraph, sẽ cố gắng chọn loại trực quan tốt nhất dựa trên các trường đang được chọn.

  1. Chọn trường date

Trực quan thay đổi thành Count of Records by Date, với tập hợp ngày được đặt thành Day.

  1. Để thay đổi tổng hợp thành hàng tháng, hãy chọn mũi tên xuống bên cạnh date trên trục X.
  2. Chọn trường price

AutoGraph phát hiện rằng ngày là một dimension (màu xanh lam) và giá là một measure (màu xanh lá cây) vì những thứ này được thiết lập như vậy trong trình chỉnh sửa tập dữ liệu (tôi đã đề cập trước đó về tầm quan trọng của trình biên tập chuẩn bị dữ liệu).

Bởi vì các trường này đã được thiết lập dưới dạng dimension và measure, Đồ thị tự động AutoGraph tự động thay đổi thành Sum of Price by Date.

Hình ảnh trực quan này không hữu ích lắm. Những gì chúng ta thực sự đang tìm kiếm là giá trung bình mỗi tháng.

  1. Đối với Field wells, hãy chọn price cho Value và thay đổi tổng thành Average.

Bây giờ chúng ta có một hình ảnh đẹp cho chúng ta thấy giá bán nhà trung bình ở Quận Kings theo tháng.

Bây giờ đến phần thú vị — ML Insights!

  1. Trong menu bên trái, chọn Insights.

QuickSight đã chạy mô hình RCF cùng với các tính toán thống kê khác và đã tạo ra thông tin chi tiết sẵn sàng được thêm vào.

Những thông tin chi tiết được đề xuất này thay đổi dựa trên loại hình ảnh và dữ liệu hiện có trong hình ảnh trực quan. Chúng tôi xem xét thông tin chi tiết được đề xuất thay đổi như thế nào ở phần sau trong bài đăng này.

Hai thông tin chi tiết hữu ích ngay lập tức là Highest Month  Lowest Month.

Di chuột qua thông tin chi tiết về Highest Month và chọn dấu cộng để thêm vào Sheet 1.

Chúng ta có thể bắt đầu sắp xếp lại thông tin chi tiết và hình ảnh cũng như định dạng trường giá để tạo cho bố cục hiện tại một cái nhìn bóng bẩy hơn.

  1. Đối với bài đăng này, hãy thay đổi định dạng của trường price thành 1,2345 để xóa số thập phân.
  2. Bạn cũng có thể thêm tiêu đề cho thông tin chi tiết và đổi tên date của trục X thành Aggregate.

  1. Để thêm một trang tính khác, hãy chọn dấu cộng bên cạnh Sheet 1..
  2. Theo mặc định, chúng tôi bắt đầu lại với AutoGraph visual.
  3. Dưới Visual types¸ chọn the vertical bar chart.
  4. Chọn trường price và zipcode
  5. Thay đổi tổng hợp giá từ Sum thành Average.
  6. Chọn Insights trong menu bên trái.

Thông tin chi tiết được đề xuất hiện hiển thị một tập hợp dữ liệu nổi bật hoàn toàn khác so với Sheet 1.

Mặc dù biểu đồ thanh dọc có thể đã cho bạn biết ba mã zip trên cùng và ba mã zip dưới cùng, nhưng Suggested Insights đã nhận ra loại phân tích và chọn thông tin chi tiết tốt nhất để hiển thị.

Dù bạn có thể xây dựng hình ảnh để miêu tả câu chuyện, nhưng Suggested Insights sẽ đẩy nhanh quá trình hiển thị các điểm nổi bật trong dữ liệu của bạn và thêm chúng vào biểu đồ để nhanh chóng cung cấp cho người đọc những thông tin chi tiết quan trọng nhất.

Phát hiện bất thường

Điểm bất thường trong QuickSight được mô tả là một điểm dữ liệu nằm ngoài mô hình phân phối tổng thể. Tính năng phát hiện bất thường được hỗ trợ bởi ML trong QuickSight cho phép bạn xác định các nguyên nhân và mối tương quan để đưa ra quyết định dựa trên dữ liệu.

Chúng ta đã nói về việc chuẩn bị dữ liệu để phát hiện sự bất thường trước đó. QuickSight đã chạy mô hình RCF trong quá trình nhập dữ liệu. Ngay sau khi hình ảnh được thêm vào, QuickSight sẽ thông báo cho bạn trên hình ảnh nếu nó đã phát hiện ra “Anomaly Insight”. Phần này của Suggested Insights. Bạn có thể chọn Setup anomaly detection để thêm phần này vào trang tính của mình.

Bạn cũng có thể thêm thông tin chi tiết về ML theo cách thủ công để phát hiện các điểm bất thường.

  1. Hãy quay lại Sheet 1 với biểu đồ đường được hiển thị.
  2. Khi bạn chọn thông tin chi tiết được đề xuất đầu tiên, nó sẽ bắt đầu tạo một tiện ích con để phát hiện điều bất thường.

Bạn có thể thêm tối đa năm trường dimension (không phải trường được tính toán, trừ khi chúng được tạo trong màn hình chuẩn bị dữ liệu). QuickSight phân chia các chỉ số bằng cách sử dụng các trường trong phần Categories. Chúng tôi sử dụng trường date (thời gian của chúng tôi), price (chỉ số của chúng tôi) và yr_built (danh mục của chúng tôi) để tạo thông tin chi tiết về phát hiện bất thường. Câu hỏi mà chúng tôi đang cố gắng trả lời là “Có bất kỳ mức chênh lệch giá hàng tháng nào dựa trên năm xây dựng không?”

  1. Chọn Get started để thiết lập tính năng phát hiện bất thường.
  2. Đối với Combinations to be analyzed, hãy chọn các kết hợp trường của bạn.

Chọn Exact có nghĩa là ngày và giá được phân tích dựa trên dimension yr_built. Bạn cũng có thể chọn Hierarchical hoặc All. Các tùy chọn sau này trở nên có liên quan khi bạn chọn nhiều dimension trong danh sách Categories. Để biết thêm thông tin về các tùy chọn này, hãy tham khảo  Adding an ML insight to detect outliers and key drivers.

  1. Chọn Save để quay lại Sheet 1.

Tiện ích của chúng tôi được định cấu hình tại thời điểm này.

  1. Chọn Run now để bắt đầu phân tích dữ liệu cho các điểm bất thường.

Dựa trên khối lượng dữ liệu và số lượng điểm dữ liệu trong phân tích, có thể mất một lúc để chạy phát hiện bất thường.

Hãy nhớ rằng cần ít nhất 15 điểm dữ liệu để chạy trường hợp bất thường, nhưng sau đó bạn có thể thay đổi tập hợp trường để có chế độ xem thu nhỏ và do đó xem điểm bất thường ở cấp độ cao hơn.

Ví dụ: nếu bạn chọn trường date và thay đổi Aggregate thành Monthly, bạn sẽ nhận được các điểm bất thường hàng đầu ở cấp độ hàng tháng.

Trong trường hợp thử nghiệm của chúng tôi, QuickSight đã xác định được điểm bất thường hàng đầu. Đây là một tiện ích tuyệt vời ngay lập tức thu hút người đọc đến những điểm nổi bật trong dữ liệu ngoại lệ và có thể yêu cầu điều tra thêm.

Dự báo

Với dự báo được hỗ trợ bởi ML, bạn có thể dự báo các chỉ số kinh doanh chính của mình trong QuickSight một cách dễ dàng. Thuật toán ML trong QuickSight được thiết kế để xử lý các tình huống phức tạp trong thế giới thực. QuickSight không chỉ cung cấp khả năng tạo dự báo mà còn cung cấp Forecast dưới dạng Suggested Insight.

  1. Quay lại Sheet 1, chọn biểu đồ đường và mở rộng Insights.

Ở dưới cùng, bạn sẽ thấy thông tin chi tiết về dự báo được đề xuất. Thông tin chi tiết về dự báo, cùng với tất cả các thông tin chi tiết được đề xuất khác, rất linh hoạt theo nghĩa là khi dữ liệu của bạn cập nhật hoặc khi người dùng áp dụng bộ lọc, các giá trị trong thông tin chi tiết sẽ cập nhật ngay lập tức. Khi bạn thêm điều này vào trang tính của mình, bạn thậm chí có thể tùy chỉnh số khoảng thời gian trong tương lai mà bạn muốn thông tin chi tiết hiển thị cho dự báo bằng cách chỉnh sửa Narrative và sau đó chỉnh sửa forecast Calculation.

Điều gì sẽ xảy ra nếu chúng tôi muốn tùy chỉnh dự báo giá trên biểu đồ đường này và thêm nó vào trực quan?

  1. Chọn menu tùy chọn (ba chấm) ở trên cùng bên phải của hình ảnh và chọn Add forecast
  2. Đối với Periods forward, nhập 6

Đó là khoảng thời gian được chọn cho hình ảnh.

  1. Đặt Prediction interval thành 70.

Đây là khoảng thời gian giữa các điểm dữ liệu. Nó làm cho dự báo rộng hơn hoặc hẹp hơn. Khoảng thời gian rộng hơn có nghĩa là khoảng cách giữa các điểm dữ liệu rộng hơn, có nghĩa là thay đổi ròng cao hơn và ngược lại.

  1. Đặt Seasonality thành Automatic.

Tính thời vụ có tính đến các xu hướng phức tạp theo mùa trong dữ liệu của bạn. Bạn có thể thử nghiệm với cả hai cài đặt để xem nó ảnh hưởng như thế nào đến dự báo. Đối với kịch bản của chúng ta, vì doanh số bán nhà là theo mùa, nên chúng ta chọn Automatic.

  1. Chọn Apply.

Chỉ với một vài cú nhấp chuột, chúng ta đã thêm dự báo vào hình ảnh của mình, như được hiển thị trong ảnh chụp màn hình sau. Vùng tô bóng màu cam thể hiện giới hạn trên và giới hạn dưới của giá dự báo.

 

Đây là một cách tuyệt vời khác để thêm thông tin vào dữ liệu của bạn và nhanh chóng cho phép các nhà phân tích tập trung vào các điểm và xu hướng dữ liệu chính.

Kết luận

Tính năng Suggested Insights trong QuickSight cho phép bạn tăng tốc độ khám phá và làm nổi bật các phần tử dữ liệu chính. Bạn có thể tìm thấy thông tin chi tiết trong dữ liệu của mình nhanh hơn và vì chúng được viết ra ở định dạng tường thuật nên người dùng không chuyên về kỹ thuật rất dễ dàng nhanh chóng có được thông tin chi tiết về các xu hướng thú vị nhất trong dữ liệu mà không cần tham gia các khoá đào tạo về ML.

Về TechX Corp. 

TechX Corp. là đối tác AWS tại Việt Nam được thành lập năm 2019 bởi các chuyên gia có trên 15 năm kinh nghiệm đến từ các công ty đa quốc gia và tập đoàn đi đầu về chuyển đổi số. Sứ mệnh của TechX là tạo lập môi trường cho những con người đầy đam mê, nhiệt huyết thỏa sức khám phá và kiến tạo, mang đến những sản phẩm công nghệ đơn giản và thân thiện, góp phần đẩy nhanh quá trình xây dựng một Việt Nam số trên nền tảng công nghệ điện toán đám mây.

TechX 2 năm liền nhận danh hiệu Đối tác AWS của năm – AWS Partner of the Year tại Việt Nam