Kiểm Định Giả Thuyết ( Hypothesis Testing Là Gì ? Định Nghĩa, Ví Dụ, Giải Thích

Lý thuyết về thống kê – Statistics đặc biệt là kiểm định là một trong những nền tảng kiến thức cơ bản và quan trọng chắc có lẽ những ai học, nghiên cứu và làm việc trong ngành Data analytics, hay Data mining nói riêng và Data Science nói chung đều biết và được học qua.

Đang xem: Hypothesis testing là gì

Statistics chính là một phần của khoa học dữ liệu. Kiến thức thống kê hỗ trợ các nhà phân tích trong việc sử dụng những phương pháp thích hợp để thu thập dữ liệu, tóm tắt dữ liệu, phân tích, đưa ra các kết luận, kiểm chứng các kết luận, và trình bày kết quả một cách phù hợp. Thống kê là một quá trình quan trọng không thể thiếu khi chúng ta thực hiện các dự án nghiên cứu trong kinh tế, cũng như ở các lĩnh vực khác từ khoa học, sinh học, cho đến y học, v.v. Thống kê là một ngành khoa học có ý nghĩa, hữu ích với phạm vi ứng dụng rộng rãi bởi các doanh nghiệp, tổ chức khu vực chính phủ và đến tổ chức xã hội.

mister-map.com cũng đã giới thiệu đến các bạn 2 bài viết tóm lượt về thống kê mô tả (Descriptive Statistics), và thống kê suy luận (Inferential Statistics). Các bạn nào chưa biết, hoặc chưa có tìm hiểu về thống kê, thì nội dung trong bài viết phần này, và sắp tới về chủ đề kiểm định sẽ khó nắm bắt. Các bạn có thể tham khảo các bài viết về thống kê của mister-map.com dưới đây:

Tổng quan về Statistics: Khái niệm và ứng dụng của thống kê

Tổng quan về Statistics: Descriptive statistics (thống kê mô tả)

Tổng quan về Statistics: Inferential statistics (thống kê suy luận)

Lưu ý bài viết về chủ đề kiểm định lần này là phần tiếp nối của bài viết thống kê suy luận. Các lý thuyết quan trọng trong thống kê suy luận mà chúng tôi đề cập trong bài viết “Tổng quan về Statistics: Inferential statistics” các bạn có thể xem lại theo link ở trên, hoặc tham khảo các tài liệu liên quan khác về xác suất, các quy luật phân phối xác suất, ước lượng khoản tin cậy,… chúng tôi sẽ không trình bày lại chi tiết ở đây.

Ở bài viết thống kê suy luận vào năm ngoái, chúng ta đã tìm hiểu sơ về các công thức kiểm định tham số cơ bản trong thống kê tuy nhiên chưa đi vào ví dụ cụ thể, và các khía cạnh xung quanh. mister-map.com lần này quay trở lại với chủ đề kiểm định hay còn gọi Hypothesis Test sẽ giải thích rõ hơn về khái niệm, tầm quan trọng, giới thiệu lại công thức kiểm định theo cách diễn giải dễ hiểu nhất

Nhắc lại lần nữa, các lý thuyết kiểm định mà chúng tôi trình bày trong bài viết này chắc chắn có liên quan đến những thuật ngữ, là những mảng lý thuyết thống kê nền tảng của kiểm định như các tham số tổng thể, tham số mẫu, quy luật phân phối xác suất,… các bạn nào chưa biết, hoặc không hiểu vui lòng tìm hiểu lại thông quan tham khảo các bài viết trước của chúng tôi về thống kê, hay ở những tài liệu khác mà các bạn có. mister-map.com sẽ không giải thích lại.

*

Về Hypothesis Test, hay kiểm định được phân thành 2 nhóm chính, là kiểm định tham số (Parametric Hypothesis Test) – dành cho biến định lượng liên tục, dữ liệu là giá trị số thực, có giả định quy luật phân phối là phân phối chuẩn (Normal distribution), hoặc xấp xỉ phân phối chuẩn, kiểm định các giả thuyết liên quan đến các tham số mẫu, tham số tổng thể, thông tin về tổng thể nghiên cứu biết được qua tập dữ liệu; kiểm định phi tham số (Non-parametric Hypothesis Test) – dành cho biến định tính (định danh, thứ bậc), hay dữ liệu định lượng có phân phối chuẩn nhưng không rõ ràng, dữ liệu không có giả định về quy luật phân phối là phân phối chuẩn, dữ liệu có thể có phân phối bất kỳ, thông tin về tổng thể nghiên cứu không xác định rõ được từ tập dữ liệu, không gắn với bất kỳ tham số nào của tổng thể,…

Chủ đề kỳ này, gồm 2 phần bài viết, chúng ta sẽ tập trung trước vào kiểm định tham số. Bài viết phần 1, chúng ta sẽ đi vào tìm hiểu kiểm định là gì, các giả thuyết thống kê, cách vận hành của phương pháp kiểm định. Bài viết phần 2 lần sau sẽ trình bày về các công thức, các dạng kiểm định tham số với ví dụ cụ thể trong lĩnh vực kinh tế.

Chúng ta cùng đi vào phần 1 bài viết.

Kiểm định là gì và tại sao nó quan trọng?

Giải nghĩa tiếng Việt Kiểm định được hiểu là kiểm tra, hay kiểm chứng những giả định, giả thuyết về sự vật, sự kiện nào đó trong đời sống xung quanh. Ở khía cạnh thống kê, khi được áp dụng cho các mục đích kinh doanh của lĩnh vực kinh tế, nhu cầu nghiên cứu của khoa học, xã hội thì kiểm định chính là xác thực độ tin cậy, độ chính xác của một giả định, giả thuyết nào đó về các đối tượng nghiên cứu, điều tra, hay phân tích để từ đó hỗ trợ việc ra quyết định.

Giả sử một chuyên gia cho rằng độ tuổi trung bình khi kết hôn của một người trưởng thành, sống trong khu vực đô thị là 28 tuổi (được làm tròn), một thầy giáo tại một trường đại học danh tiếng nói rằng tỷ lệ học sinh đạt điểm trúng tuyển đại học 25/30 thường chiếm 80% là tự học tại nhà, một nhân viên marketing sau khi khảo sát khách hàng báo cáo rằng các hoạt động quảng cáo trong năm qua có tỷ lệ chuyển đổi trung bình là 40% (tức 100 khách hàng nhìn thấy quảng cáo về sản phẩm, dịch vụ trên website, thì có 40 khách hàng đã liên hệ xin tư vấn), một chuyên gia y tế công bố khả năng tử vong lên đến 90% khi nhiễm Covid-19 tập trung ở những người lớn tuổi với độ tuổi trung bình trên 85, một nhân viên nhà máy báo cáo dây chuyền sản xuất mới sản xuất bánh snack trung bình 48.9 gram so với tiêu chuẩn là 50 gram,…

Làm cách nào chúng ta có thể đưa ra kết luận liệu những khẳng định ở trên hoàn toàn chính xác với thực tế? Nếu chỉ là nhận định chưa có căn cứ, chúng ta có thể xem là các giả thuyết, thì những giả thuyết này phản ánh đúng thực tế? Bao nhiêu % chính xác và ngược lại? Chúng ta có cơ sở để tin tưởng chúng không khi các chuyên gia, các nhà nghiên cữu, họ chỉ có thể điều tra, thu thập dữ liệu ở phạm vi cho phép, với nguồn lực hạn hẹp, chứ không thể điều tra hết tất cả?

Dĩ nhiên, làm sao một chuyên gia có khả năng tìm đến tất cả những người trưởng thành trong một thành phố để hỏi họ kết hôn vào năm bao nhiêu? Làm sao một thầy giáo có thể đi hết tất cả các trường cấp 3, khảo sát hết tất cả các tân sinh viên để hỏi họ hồi ôn thi có học thêm ở các trung tâm hay ở nhà? Hay nhân viên marketing làm cách nào khảo sát được hết tất cả khách hàng thân thiết để biết được độ hiệu quả của quảng cáo?…

Hoàn toàn không thể! Đây chính là lý do tại sao các chuyên gia về dữ liệu từ mấy chục năm trước đã nghiên cứu và phát minh ra những phương pháp kiểm định, và cho đến nay, chúng là công cụ không thể thiếu không chỉ ở lĩnh vực thống kê và rộng hê ở các lĩnh vực Data mining, cho đến Machine learning. Kiểm định cho phép chúng ta đưa ra các kết luận về đối tượng nghiên cứu một cách chính xác mà không cần phải thu thập mọi dữ liệu từ tổng thể chứa tất cả các đối tượng nghiên cứu.

Nói cách khác, kiểm định giúp chúng ta đưa ra các “phán đoán” về sự vật, hiện tượng, hay mọi thứ xung quanh một cách “thông minh hơn”, “tự tin hơn” cho dù chúng ta hoàn toàn không có thông tin về tất cả đối tượng nghiên cứu thông qua những công thức tính toán tiêu chuẩn, hợp lý, đã được kiểm chứng.

Kiểm định sau cùng là công cụ hỗ trợ để chúng ta xác định các giả thuyết, kết luận mà mình đưa ra có ý nghĩa hay không, và có khả năng xảy ra trong thực tế hay không.

Thống kê dữ liệu mục đích là nói cho chúng ta biết về dữ liệu, và bản thân chúng ta không quan tâm dữ liệu là gì, có gì, có hình dạng như thế nào mà chúng ta quan tâm thông qua dữ liệu chúng ta có được thông tin gì, chúng ta phân tích gì từ dữ liệu. Và bằng cách nào xác minh những gì chúng ta có, chúng ta phân tích là đúng, thì phải nhờ vào kiểm định. Kiểm định được coi là lý thuyết quan trọng nhất trong thống kê, và là phương pháp tổng hợp tất cả những mảng lý thuyết còn lại trong thống kê từ tóm tắt dữ liệu, tính toán các đặc trưng của mẫu, của tổng thể hay nói cách khác là các tham số, các giả định về quy luật phân phối xác suất,…và dĩ nhiên kiểm định là kiến thức “giá trị nhất” của thống kê, là cơ sở để lĩnh vực thống kê mãi tồn tại, và được ứng dụng phổ biến.

Như vậy, chúng ta đã tạm nắm sơ lược về kiểm định trong lĩnh vực thống kê, thấy được tác dụng của nó quan trọng như thế nào, hỗ trợ nâng cao độ tin cây của mọi thông tin mà chúng ta tiếp nhận hàng ngày. Tiếp theo chúng ta sẽ tìm hiểu bằng cách nào mà kiểm định lại hữu dụng như vậy.

Tham khảo từ những tài liệu, giáo trình thống kê tiêu chuẩn quốc tế, thì khái niệm chung dành cho kiểm định:

“Kiểm định là quy trình dựa trên những thông tin tìm được từ dữ liệu mẫu để đánh giá các kết luận về tổng thể nghiên cứu hoặc xác định các giả thuyết đưa ra về tổng thể có hợp lý hay không?”

Thông qua khái niệm trên, chúng ta có thể hiểu, từ dữ liệu mẫu chúng ta phải tìm ra các thông tin để tiến hành kiểm định. Các thông tin đó là gì?

Có thể bao gồm: trung bình mẫu (Mean), phương sai (Variance), độ lệch chuẩn (Standard deviation), tỷ lệ mẫu (Proportion). Chi tiết chúng ta sẽ tìm hiểu ở phần công thức tính giá trị kiểm định. Nếu có cái nào chưa biết, các bạn nên tìm hiểu và nghiên cứu trước khi xuống phần tiếp theo sau đây qua các tài liệu khác hoặc những bài viết của chúng tôi về thống kê.

Xem thêm: Nghĩa Của Từ Set Down Là Gì, 6 Cách Sử Dụng Cụm Động Từ Set Trong Tiếng Anh

Vấn đề phức tạp, khó hiểu, và dễ nhầm lẫn nhất, là nguy cơ khiến toàn bộ quy trình kiểm định có thể “sụp đổ” mà theo các chuyên gia không phải đến từ dữ liệu mẫu, hay đến từ các công thức tính toán mà nó chính là đến từ việc lập ra các giả thuyết. Giả thuyết đặt ra không hợp lý, sẽ dẫn đến các sai lầm loại I và loại II, và khiến chính kết quả kiểm định sẽ trở nên mơ hồ.

Giả thuyết là gì? Tại sao cần cẩn thận khi đặt giả thuyết? Các sai lầm trong kiểm định?

Giả thuyết thống kê (statiscal hypothesis) là một kết luận, là một phát biểu, là một giả sử, là một nhận định chưa được kiểm chứng nói về giá trị thực của một tham số tổng thể bất kỳ.

Ví dụ số tiền chi mua sắm ngày tết của các khách hàng tại một siêu thị trung bình là 5 triệu đồng, tổng thể nghiên cứu là khách hàng ghé vào siêu thị từ trước tết 2 tuần đến ngày 30 tết, số tiền trung bình 5 triệu độn là tham số trung bình số tiền chi của tổng thể. Như vậy câu trên là một giả thuyết.

Lưu ý, giả thuyết phải đúng, hoặc sai, không được “lấp lửng”.

Trong lĩnh vực thống kê, khi nói về kiểm định giả thuyết thì có 2 loại giả thuyết, nếu xét về góc độ nội dung giả thuyết. Thứ nhất là các giả thuyết thể hiện kết luận về đặc điểm của tổng thể nghiên cứu, các tham số của tổng thể nghiên cứu như ở trên (kiểm định 1 mẫu). Thứ hai, các giả thuyết về mối quan hệ giữa 2 hoặc nhiều đối tượng nghiên cứu các trong tổng thể. (kiểm định 2 mẫu)

Nếu xét trong một bài toán kiểm định, thì sẽ có 2 giả thuyết quan trọng.

Giả thuyết H0 (Null Hypothesis) là giả thuyết với mục đích kiểm chứng các số liệu, là giả thuyết ban đầu được nêu ra, là kết luận hay tuyên bố về các tham số tổng thể chưa biết trong thực tế, hay về mối quan hệ giữa hai hoặc các đối tượng nghiên cứu. Giả thuyết H0 được chấp nhận khi dữ liệu mẫu cung cấp các thông tin có tính “thuyết phục”về tổng thể nghiên cứu thông qua các công thức tính toán.

Giả thuyết H1 (Alternative Hypothesis) là giả thuyết đối, hay kết quả ngược lại của giả thuyết H0, còn được gọi là giả thuyết thay thế cho giả thuyết H0 là chỉ được chấp nhận khi dữ liệu mẫu cung cấp các thông tin có tính “thuyết phục” về tổng thể nghiên cứu mà ở đó bác bỏ giả thuyết H0, kết luận giả thuyết H0 không chính xác.

Các bạn nhìn có thể thấy đơn giản nhưng thực chất khó hiểu hơn bạn nghĩ.

Theo một số tài liệu khác, H0 và H1 được phân biệt như sau với H0 có thể là những giả thuyết thể hiện “hiện trạng hiện tại” của đối tượng nghiên cứu, và các giả thuyết được đưa ra mang tính “thăm dò”, các giả định được “tin” là đúng, nhưng không chắc chắn, cần xác định xem giả thuyết có sai hay không.

Còn giả thuyết H1 thì là giả thuyết được đưa ra vì mong muốn tìm kiếm các chứng cứ, các số liệu tính toán từ tập dữ liệu để bảo vệ luận điểm, hoặc dựa trên mục đích nghiên cứu, chứng minh giả thuyết. H1 còn được gọi là giả thuyết nghiên cứu (Research Hypothesis). Đây là điều dễ gây nhầm lẫn.

Theo các chuyên gia, thông thường các ứng dụng của phương pháp kiểm định thường dựa trên mục đích là tìm kiếm các chứng cứ, các dữ liệu để bảo vệ hay bác bỏ (do nghi ngờ về giả thuyết) một luận điểm, một giả thuyết đang được nghiên cứu để đánh giá độ chính xác. Ở những trường hợp như vậy, thì chúng ta nên bắt đầu xây dựng giả thuyết H1 trước và giả thuyết H0 sẽ ngược lại với giả thuyết H1. Các trường hợp còn lại, thì có thể bắt đầu với H0 trước.

Một cách khác để xác định giả thuyết H0 là nên đặt trước hay giả thuyết H1 là nên đặt trước, đó chính là dựa vào mức độ sai lầm của kiểm định.

Xem thêm: Tử Vi Miễn Phí Cung Song Ngư: Hôm Nay Chính Xác Nhất, Song Ngư Hôm Nay

Các sai lầm thường mắc khi kiểm định giả thuyết:

Giả thuyết H0 đúng (tức thực tế θ = θo) nhưng qua kiểm định chúng ta kết luận sai, nghĩa là θ ≠ θo vậy ta bác bỏ H0. Đây là sai lầm loại I tức chúng ta bác bỏ giả thuyết H0 khi giả thuyết này đúng.Giả thuyết H0 sai nhưng qua kiểm định chúng ta kết luận đúng, và không bác bỏ. Đây là sai lầm loại II, tức chúng ta không bác bỏ H0 khi giả thuyết này sai

*

Các bạn có thể nhìn qua hình ảnh vui nhộn dưới đây để tự nghiệm lại nhé.

Related Posts