Kiến thức cơ bản về Thống kê cho Data Analyst

Nếu bạn là một người hoàn toàn mới, bạn đang thắc mắc Thống kê (Statistics) là gì, các khái niệm xung quanh nó thì bạn đến đúng nơi rồi đấy.

Bài viết này sẽ cho bạn một cái nhìn tổng quát nhất về Thống kê cũng như những khái niệm xung quanh lĩnh vực này.

Lưu ý là bạn không cần quan tâm đến các kiến thức nền cao siêu về Toán đâu. Nào chúng ta hãy cùng bắt đầu khám phá trong bài viết này nhé!

Định nghĩa về Thống kê

Khi nói về Statistics thì điều gì sẽ xuất hiện trong suy nghĩ của bạn đầu tiên?

Đối với hầu hết mọi người, nó nói đến các sự kiện, dữ liệu số học như số liệu về tỉ lệ thất nghiệp, giá nông sản, số lượng các kết hôn và ly hôn, … Dưới đây là 2 định nghĩa phổ biến của Thống Kê:

Thống kê là những dữ kiện hay dữ liệu, xuất hiện dưới dạng số(numerical) hoặc không phải dạng số (nonnumerical), được tổ chức và tóm tắt, để cung cấp thông tin hữu ích và dễ tiếp cận cho một chủ đề cụ thế nào đó.

Thống kê là khoa học về tổ chức và tóm tắt thông tin dạng số hoặc không phải dạng số.

Nhiệm vụ của các nhà thống kê (statistician) là phân tích dữ liệu nhằm mục đích tổng quát hóa (generalization) và đưa ra các kết luận.

Ví dụ :Một nhà phân tích chính trị (political analyst) có thể sử dụng một phần dữ liệu từ bỏ phiếu của người dân để dự đoán xem ai là người có khả năng đắt cử mà không cần phải có toàn bộ dữ liệu.

Theo mình thì các bạn đừng nên dịch từ Generalization ra tiếng việt, bạn có thể hiểu nó là hành vi đưa ra một nhận định, kết luận cho đại diện cho toàn bộ tập dữ liệu (population) từ những dữ liệu mẫu được thu thập (sample), vì trong nhiều trường hợp thu thập toàn bộ dữ liệu cần thiết là việc không khả thi và tốn kém.

Nếu phải bắt buộc dịch mình sẽ dùng từ Khái quát hóa.

Các loại Thống kê

Statistics được chia làm 2 loại chính: Descriptive Statistics (Thống kê mô tả) và Inferential Statistics (Thống kê suy luận)

Descriptive statistics consists of methods for organizing and summarizing information.

Thống kê mô tả bao gồm việc xây dựng đồ thị, bảng số liệu và tính toán các chỉ sốmô tả (descriptive measures) như: trung bình (mean), độ biến thiên (variation), bách phân vị (percentiles).

Trước khi tìm hiểu về Inferential Statistics thì chúng ta sẽ đi qua khái niệm về Population và Sample, Census trước, chắc là bạn đã nghe 3 từ này ở đâu đó rồi đúng không nào

Population: The collection of all individuals or items under consideration in a statistical study.
Sample: That part of the population from which information is obtained.

Population là toàn bộ phần tử hay đối  tượng được cho là có mặt trong nghiên cứu của bạn không phải dịch ra là dân số đâu nhé, trong khi đó Sample chỉ là một phần trong đó, mình hay gọi là một tập con (subset).

Ví dụ sau đây sẽ giúp bạn hiểu rõ 2 khái niệm này

Population and Sample

Giả sử bạn đang thực hiện nghiên tiền bầu cử, thì việc phỏng vấn toàn bộ người trong độ tuổi đi bầu (Population) là bất khả thi, mất rất nhiều thời gian và rất đắt đỏ.

Nên thay vào đó chúng ta sẽ chọn ra khoảng vài nghìn cử tri (Sample) để thực hiện lấy ý kiến .

Từ tập dữ liệu Sample này các nhà thống kê sẽ thực hiện Thống kê suy luận để đưa ra kết luận đại diện cho toàn bộ người trong độ tuổi đi bầu hay Population đấy các bạn.

Inferential statistics consists of methods for drawing and measuring the reliability of conclusions about a population based on information obtained from a sample of the population.

Thống kê mô tả bao gồm các phương pháp nhằm rút ra và đo lường mức độ tin cậy của các kết luận về toàn bộ tập dữ liệu Population dựa trên tập dữ liệu mẫu Sample thu được.

Thống kê mô tả và thống kê suy luận có mối liên hệ chặt chẽ với nhau.

Bạn gần như phải luôn luôn sử dụng các kỹ thuật của thống kê mô tả để tổ chức, tóm tắt các thông tin thu được từ tập Sample trước khi thực hiện thống kê suy luận.

Hơn nữa nhờ thống kê mô tả cho bạn thông tin về đặc điểm, tính chất của Sample, giúp bạn hiểu rõ dữ liệu hơn, dẫn đến việc lựa chọn các phương pháp phân tích suy luận phù hợp.

Nó giống như việc thăm khám, chẩn đoán bệnh xong thì mới cho thuốc được vậy.

Phân loại các nghiên cứu Thống kê

Nếu như mục đích của nghiên cứu là kiểm tra và khám phá thông tin, những đặc điểm đặc biệt, thông tin hữu ích có trong bản thân dữ liệu thôi thì đây là nghiên cứu thiên hướng mô tả (Descriptive Statistics).

Các Reports và Dashboards mà các bạn Data Analyst xây dựng cho công ty là một ví dụ.

Đây là một ví dụ cho Thống kê mô tả vì nó chỉ là một bảng tóm tắt kết quả mà thôi, không có bất kì suy luận nào.

Kết quả bỏ phiếu tổng thống mỹ năm 1948

Tuy nhiên nếu như dữ liệu thu thập được là một Sample thuộc Population nào đấy, sau đó sử dụng chúng để đưa ra kết luận cho Population thì nó là Thống kê suy luận.

Một nhóm nghiên cứu đã tiến hành thí nghiệm về tốc độ giữa báo và sư tử bằng cách đo thời gian hoàn thành 1 km của 20 con báo và 20 con sư tử, kết luận cho thấy báo chạy nhanh gấp đôi sư tử.

Đây là một nghiên cứu thống kê suy luận vì thứ nhất chúng ta dùng tập mẫu 20 con báo và 20 con sư tử (Sample) để đưa ra kết luận về toàn bộ cá thể báo, sư tử (Population), rõ ràng việc lấy mẫu toàn bộ sư tử và báo là bất khả thi, thứ hai sau khi thí nghiệm chúng ta đã đưa ra kết luận mang tính suy luận về tốc độ của 2 loài này.

Quá trình phát triển của Thống kê

Theo lịch sử, thống kê mô tả có trước thống kê suy luận, điều tra dân số đã có trước đây rất lâu từ thời La Mã, qua nhiều thế kỉ những ghi chép về các số liệu sinh, tử, hôn nhân, thuế suất dẫn đến sự phát triển tự nhiên của thống kê mô tả.

Trong khi đó thống kê suy luận chỉ mới phát triển gần đây, bước tiến lớn nhất bắt đầu từ nghiên cứu của Karl Pearson (1857–1936) và Ronald Fisher (1890–1962) đã xuất bản những phát hiện của họ vào những năm đầu thế kỉ XX. Sau đó thống kê suy luận đã được áp dụng trong hầu hết các lĩnh vực của cuộc sống.

Các hiểu biết về thống kê sẽ giúp bạn nhận định xem những điều bạn đọc trên báo chí hay Internet có chính xác hay không.

Như ví dụ ở trên nhóm nghiên cứu sinh thực nghiệm trên 40 sư tử và báo để đưa ra kết luận về vài chục ngàn cá thể báo, sư tử trên thế giới có chính xác hay không ?

Observational Studies vs Designed Experiments

Bên cạnh việc phân loại các nghiên cứu thuộc thống kê mô tả hay suy luận chúng ta còn phải phân biệt chúng là Nghiên cứu quan sát hay Thí nghiệm được thiết kế.

Trong nghiên cứu quan sát các nhà nghiên cứu chỉ cần quan sát các đặc điểm và ghi nhận số liệu đo lường của tập Sample. Trong Designed Experiment các nhà nghiên cứu sẽ thực hiện các liệu pháp (treatment) và kiểm soát đối tượng thí nghiệm (có tác động lên tập mẫu đó các bạn) sau đó mới ghi lại các đặc điểm và số liệu đo lường.

Observational Study chỉ cho chúng ta thấy được mối liên kết (association) trong khi Designed Experiment lại cho chúng ta thấy được mối quan hệ nguyên nhân, kết quả, mình sẽ đưa ra một vài ví dụ cho bạn dễ hiểu hơn nhé

  • Observational Study: Các nhà nghiên cứu muốn xem xét giả thuyết học thêm giờ buổi tối có khiến trẻ có thành tích tốt hơn hay không ? Họ đã lấy ý kiến trên 100 trẻ và cho kết quả là … Đây là nghiên cứu quan sát vì người thực hiện không tác động vào đối tượng nghiên cứu
  • Designed Experiment: Các nhà nghiên cứu muốn kiểm tra một giả thiết là giảm độ sáng màn hình giúp tăng tuổi thọ của pin, họ đã tập hợp 30 cái laptop lại là, 15 trong số đó hạ độ sáng màn hình xuống mức 3, 15 cái kia giữ ở cài đặt mặc định, … Rõ ràng họ đã tác động vào vật thể quan sát và điều chỉnh nó (tăng giảm độ sáng màn hình) nên đây là một nghiên cứu được thiết kế.

Tổng kết

Khám phá hành trình đầy thú vị về lĩnh vực Thống kê, từ định nghĩa cơ bản đến sự phân loại giữa Thống kê mô tả và Thống kê suy luận. Chúng ta cũng đi sâu vào những loại nghiên cứu Thống kê, như quan sát và thí nghiệm được thiết kế. Hơn nữa, bài viết nhấn mạnh sự phát triển lịch sử của Thống kê và vai trò quan trọng của nó trong việc đưa ra quyết định thông tin.

Về TechX Corp.

TechX Corp. là đối tác AWS tại Việt Nam được thành lập năm 2019 bởi các chuyên gia có trên 15 năm kinh nghiệm đến từ các công ty đa quốc gia và tập đoàn đi đầu về chuyển đổi số. Sứ mệnh của TechX là tạo lập môi trường cho những con người đầy đam mê, nhiệt huyết thỏa sức khám phá và kiến tạo, mang đến những sản phẩm công nghệ đơn giản và thân thiện, góp phần đẩy nhanh quá trình xây dựng một Việt Nam số trên nền tảng công nghệ điện toán đám mây.

TechX 2 năm liền nhận danh hiệu Đối tác AWS của năm – AWS Partner of the Year tại Việt Nam