” Coefficients Là Gì ? Nghĩa Của Từ Coefficients Trong Tiếng Việt

1 Ôn lại hành trình đã đi qua

Thân chào các bạn, đây là bài thực hành thứ 4 trong dự án Bayes for Vietnam, được reboot lại từ project cùng tên năm 2016. Mục tiêu của dự án này là phổ biến phương pháp thống kê theo trường phái Bayes cho các bạn bác sĩ và sinh viên y khoa, nhằm thay thế cho những công cụ thống kê truyền thống.

Đang xem: Coefficients là gì

Chúng ta đã đi qua 3 chặng đường, dùng Bayes thay thế cho Student t-test, Chisquared test và phân loại bằng hồi quy Logistic. Các bạn đã bắt đầu quen với cấu trúc ngôn ngữ STAN, quy trình chuyển giả thuyết nghiên cứu thành mô hình Bayes, khai thác phân phố hậu định. Qua 2 bài gần đây nhất, ta thấy rằng: 1) Phân tích theo trường phái Bayes có cấu trúc như nhau trong mọi bài toán:

theo đó, phân phối hậu định của một tham số Theta (xác suất điều kiện của theta khi có thông tin về biến kết quả outcome và matrix/vector dữ liệu) tỉ lệ với tích của hàm likelihood (xác suất có điều kiện cho phép ước tính kết quả khi có theta và dữ liệu) với phân phối tiền định (prior= một giả thuyết về phân phối của theta trước khi ta nhìn thấy dữ liệu và kết quả).

Vấn đề là ta phải chuyển câu hỏi nghiên cứu và dữ liệu thành mô hình Bayes, trong đó theta (hoặc outcome) là mục tiêu cần tìm phân phối hậu định, ta phải mô tả được quy luật của hàm likelihood, và cuối cùng, phải cân nhắc trong việc chọn prior. Khi đã phác thảo được mô hình trên giấy thì việc viết code chỉ còn là vấn đề kỹ thuật.

Theo nguyên tắc này, ta có thể thay thế tất cả những công cụ thống kê truyền thống dùng null hypothesis testing và p_value bằng phân tích Bayes.

Sự thay thế có thể thực hiện ở 2 cấp độ (theo 2 cách): hoặc chọn trị số thống kê (thí dụ t cho Student t test, Chisquare cho Pearson’s Chi2 test, và các effect sizes) làm mục tiêu để tìm phân phối hậu định, tức là vẫn bám sát vào truyền thống; hoặc chỉ giữ lại tinh thần của giải pháp mà không chấp chước vào các trị số quy ước, thí dụ thay vì tính t / Cohen’s d thì ta dùng mô hình GLM với likelihood Student-t để khảo sát trực tiếp phân phối hậu định của trung bình khác biệt; thay vì tính Chi2 và Cramer’s V thì ta so sánh trực tiếp 2 tỉ lệ bằng mô hình Binomial Bayes hoặc tính odds-ratio bằng 1 model logistic Bayes, tức là ta bỏ hẳn công cụ đi và chỉ dùng mô hình.

2 Phân tích tương quan theo Pearson

Bài toán phân tích tương quan rất thường gặp trong nghiên cứu y học. Phân tích tương quan là một giải pháp thống kê rất quan trọng trong nghiên cứu khoa học, nhờ nó mà người ta khám phá ra những quy luật sinh lý bệnh mới, tạo ra thuốc chữa bệnh, liên kết được thông tin mới và cũ, thay thế phương pháp đo lường, biomarker cũ bằng phương pháp mới ưu việt hơn.

Xem thêm: Why Nghĩa Là Gì ? (Từ Điển Anh Why Nghĩa Là Gì

Vấn đề là ta có 2 vector X và Y là biến liên tục, và ta muốn biết giữa chúng có sự tương quan hay không. Tùy theo tình huống mà câu hỏi này có thể được diễn đạt khác nhau, thí dụ:

Nếu ta chưa có giả thuyết nào về quan hệ nhân quả, đây sẽ là 1 phân tích mang ý nghĩa chung chung (vô hướng): ta có thể phát biểu giả thuyết: chứng minh X tương quan với Y, hay Y tương quan với X, hay chung chung: có sự tương quan giữa X và Y, hay: X và Y biến thiên cùng (ngược chiều), X và Y tỉ lệ thuận (nghịch)…

Nếu ta có giả thuyết về quan hệ nhân quả, một trong hai biến sẽ là kết quả (Y) và biến còn lại (X) là nguyên nhân. Giả thuyết có thể là: Y phụ thuộc vào X, hay: X gây hiệu ứng lên thay đổi của Y, hay: Sự thay đổi của X gây ra sự thay đổi của Y

Nếu X và Y có cùng bản chất nhưng khác nhau về phương pháp/điều kiện đo lường, hoặc nếu X và Y đều đại diện cho một hiện tượng nào đó, giả thuyết ở đây là: X và Y tương đương với nhau, X có thể thay thế cho Y, hay Y có thể được giải thích bởi X.

Nhưng trong thống kê, phân tích tương quan chỉ là việc đo lường variance của 2 biến số và khảo sát quan hệ giữa chúng, bao nhiêu phần variance của Y chung với X (có thể được giải thích bởi X).

Hệ số tương quan Pearson (kí hiệu : r, thuật ngữ đầy đủ : Pearson’s product moment correlation coefficient) là một trị số thống kê dùng để đo lường độ mạnh và chiều hướng của tương quan giữa 2 biến liên tục X và Y. Một cách tổng quát, r được xác định bằng tỉ số giữa Covariance 2 biến X,Y chia cho tích số của độ lệch chuẩn của chúng:

Hệ số r dao động trong khoảng -1 đến +1. Giá trị r=0 cho thấy không có tương quan giữa 2 biến. Giá trị r>0 biểu thị cho mối tương quan thuận (X và Y biến thiên cùng chiều), Giá trị r

Một hướng đi khác, tốt hơn, đó là dựng một mô hình hồi quy tuyến tính với Y là biến kết quả, X là hiệp biến số. Cách làm này cho ra kết quả phong phú hơn nhiều so với phân tích r đơn giản, vì ngoài độ mạnh, chiều hướng và ý nghĩa của tương quan, mô hình tuyến tính còn cho phép diễn giải mối tương quan theo thang đo tỉ lệ giữa Y và X, thí dụ ta có thể diễn giải : X tăng 1 đơn vị thì Y tăng beta1 đơn vị. Hệ số hồi quy beta do đó cũng có ý nghĩa tương đương với r. Beta và r cùng dấu vì chúng tỉ lệ thuận với nhau. Nếu beta=0 thì r cũng sẽ =0, do đó kiểm định t cho hệ số hồi quy beta giữa Y và X cũng chính là cho ý nghĩa thống kê của mối tương quan, chúng sẽ cho ra cùng trị số t, cùng p_value. Một mô hình tuyến tính còn cho phép đưa thêm biến số X2, X3… để xét mối tương quan riêng phần.

Một nguyên nhân khác khiến mô hình hồi quy tốt hơn Pearson’s r, đó là r nhạy hơn với việc thang đo của X bị chặn (giá trị của X trong mẫu không bao quát hết toàn bộ thang đo của nó trên thực tế), mô hình hồi quy ít bị ảnh hưởng bởi điều này.

Xem thêm: Định Nghĩa Của Intrinsic Là Gì, Nghĩa Của Từ Intrinsic, Nghĩa Của Từ Intrinsic, Từ Intrinsic Là Gì

Cuối cùng, mô hình hồi quy cho phép diễn giải kết quả với ý nghĩa nhân quả, có định hướng.

3 Nhược điểm của trường phái frequentist

Trường phái frequentist và null hypothesis testing (với p value) có vài nhược điểm, trong số đó nguy hiểm nhất là 2 vấn đề như sau :

Thứ nhất : Ý nghĩa thống kê hoàn toàn khác với ý nghĩa lâm sàng : Cả r và p value đều không cho phép kết luận về ý nghĩa lâm sàng :

Vấn đề này có thể được minh chứng qua thí dụ mô phỏng sau đây : Quan hệ giữa Y và X là vô cùng nhỏ bé (khoảng 1 phần triệu), tuy nhiên mô hình vẫn cho ra một giá trị p rất đẹp và 1 hệ số tương quan mạnh. Phi lý quá phải không các bạn ?

set.seed(123)sample=data.frame(X=c(1:50))%>%mutate(.,Y=0.000001*X+45+rnorm(50,0,0.000005))## Warning: package “bindrcpp” was built under R version 3.4.1sample%>%ggplot(aes(x=X,y=Y))+ geom_smooth(method=”lm”,color=”red”)+ geom_point(shape=21,size=2,color=”black”,fill=”red”)+ theme_bw()+ylim(44,46)

*

sample%>%lm(Y~X,.)%>%summary()## ## Call:## lm(formula = Y ~ X, data = .)## ## Residuals:## Min 1Q Median 3Q Max ## -1.006e-05 -3.111e-06 -4.097e-07 3.330e-06 1.080e-05 ## ## Coefficients:## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 4.500e+01 1.343e-06 3.351e+07 cor.test(sample$X,sample$Y)## ## Pearson”s product-moment correlation## ## data: sample$X and sample$Y## t = 21.673, df = 48, p-value Thứ hai : Độ lớn của r và ý nghĩa thống kê (p value) phụ thuộc vào cỡ mẫu, và chúng có thể mâu thuẫn nhau. Bản thân p value không cho biết độ mạnh tương quan và ngược lại. Ta có thể thấy điều này qua thí dụ sau :

Một mối tương quan mạnh (được mô phỏng theo công thức) nhưng cỡ mẫu quá thấp (n=5) sẽ cho ra kết quả p_value không có ý nghĩa thống kê

set.seed(123)sample=data.frame(X=c(1:5))%>%mutate(.,Y=X*rnorm(5,5,4)+rnorm(5,5,4))sample%>%ggplot(aes(x=X,y=Y))+ geom_smooth(method=”lm”,color=”red”,fill=”gold”)+ geom_point(shape=21,size=5,color=”black”,fill=”red”)+ theme_bw()

*

sample=data.frame(X=rnorm(1000,10,2.5))%>%mutate(.,Y=X*rnorm(1000,50,100)+rnorm(1000,100,50))sample%>%ggplot(aes(x=X,y=Y))+ geom_smooth(method=”lm”,color=”blue”,fill=”skyblue”)+ geom_point(shape=21,size=1,color=”black”,fill=”blue”,alpha=0.5)+ theme_bw()