Thông thường nhất, một phân phối được mô tả bằng giá trị trung bình và phương sai của nó, lần lượt là thời điểm đầu tiên và thời điểm thứ hai. Một biện pháp khác ít phổ biến hơn làhttps://en.wikipedia.org/wiki/Skewness(thời điểm thứ ba) và https://en.wikipedia.org/wiki/Kurtosis (thời điểm thứ tư). Hôm nay, chúng tôi sẽ cố gắng giải thích ngắn gọn về các số đo này và chúng tôi sẽ chỉ ra cách chúng tôi có thể tính toán chúng trong R.
Đang xem: Skewness là gì
Sự xiên xẹo
Độ lệch là thước đo tính không đối xứng của phân phối xác suất giả định là phân phối đơn phương thức và được cho bởi thời điểm chuẩn hóa thứ ba.
Chúng ta có thể nói rằng độ lệch cho biết phân phối cơ bản của chúng ta lệch bao nhiêu so với phân phối chuẩn vì phân phối chuẩn có độ lệch 0. Nói chung, chúng ta có ba loại độ lệch.
Đối xứng : Khi độ lệch gần bằng 0 và giá trị trung bình gần giống với trung vịĐộ lệch âm : Khi phần đuôi bên trái của biểu đồ phân bố dài hơn và phần lớn các quan sát được tập trung ở phần đuôi bên phải. Trong trường hợp này, chúng ta cũng có thể sử dụng thuật ngữ “lệch trái” hoặc “bên trái”. và giá trị trung vị lớn hơn giá trị trung bình.Độ lệch dương : Khi phần đuôi bên phải của biểu đồ phân bố dài hơn và phần lớn các quan sát được tập trung ở phần đuôi bên trái. Trong trường hợp này, chúng ta cũng có thể sử dụng thuật ngữ “lệch phải” hoặc “bên phải”. và giá trị trung vị nhỏ hơn giá trị trung bình.

Wikipedia
Công thức xiên
Độ lệch có thể được tính theo công thức sau:

Các giá trị và diễn giải độ xiên
Có nhiều cách tiếp cận khác nhau để giải thích các giá trị độ lệch. Một quy tắc ngón tay cái nói rằng:
Đối xứng : Giá trị từ -0,5 đến 0,5Dữ liệu bị lệch được kiểm duyệt : Giá trị từ -1 đến -0,5 hoặc từ 0,5 đến 1Dữ liệu bị lệch nhiều : Giá trị nhỏ hơn -1 hoặc lớn hơn 1
Hãy tính độ lệch của phân phối ba. Chúng tôi sẽ chỉ ra ba trường hợp, chẳng hạn như một trường hợp đối xứng, và một trường hợp lệch âm và dương tương ứng.
Xem thêm: Đtm Là Gì – Tại Sao Cần Phải Đánh Giá Tác Động Môi Trường
Chúng ta biết rằng bình thường phân phối là đối xứng.
set.seed(5) # normal x = rnorm(1000, 0,1) hist(x, main=”Normal: Symmetrical”, freq=FALSE) lines(density(x), col=”red”, lwd=3) abline(v = c(mean(x),median(x)), col=c(“green”, “blue”), lty=c(2,2), lwd=c(3, 3))

set.seed(5) # exponential x = rexp(1000,1) hist(x, main=”Exponential: Positive Skew”, freq=FALSE) lines(density(x), col=”red”, lwd=3) abline(v = c(mean(x),median(x)), col=c(“green”, “blue”), lty=c(2,2), lwd=c(3, 3))

set.seed(5) # beta x= rbeta(10000,5,2) hist(x, main=”Beta: Negative Skew”, freq=FALSE) lines(density(x), col=”red”, lwd=3) abline(v = c(mean(x),median(x)), col=c(“green”, “blue”), lty=c(2,2), lwd=c(3, 3))

Hãy xem cách chúng ta có thể tính toán độ lệch bằng cách áp dụng công thức:
set.seed(5) x= rbeta(10000,5,2) sum((x-mean(x))^3)/((length(x)-1)*sd(x)^3)
3.085474
library(moments) moments::skewness(x)# ORlibrary(e1071) e1071::skewness(x)KurtosisTrong thống kê, chúng tôi sử dụng phép đo kurtosis để mô tả “độ dài” của phân phối khi nó mô tả hình dạng của nó. Nó cũng là thước đo “đỉnh cao” của phân phối. Phân bố kurtosis cao có đỉnh nhọn hơn và đuôi dài hơn, trong khi phân bố kurtosis thấp có đuôi tròn hơn và mỏng hơn.

Điểm hướng dẫn
Hãy xem ba loại kurtosis chính.
Mesokurtic : Đây là phân phối chuẩnLeptokurtic : Phân bố này có đuôi béo hơn và đỉnh nhọn hơn. Kurtosis là “dương” với giá trị lớn hơn 3Thú mỏ vịt : Phân bố có đỉnh thấp hơn và rộng hơn và đuôi mỏng hơn. Kurtosis là “âm” với giá trị nhỏ hơn 3Công thức Kurtosis
Kurtosis có thể được bắt nguồn từ công thức sau:

Diễn giải Kurtosis
Kurtosis là giá trị trung bình của dữ liệu chuẩn hóa được nâng lên lũy thừa thứ tư. Bất kỳ giá trị chuẩn hóa nào nhỏ hơn 1 (tức là dữ liệu nằm trong một độ lệch chuẩn của giá trị trung bình, trong đó “đỉnh” sẽ là), hầu như không đóng góp gì vào kurtosis, vì việc nâng một số nhỏ hơn 1 lên lũy thừa thứ tư sẽ làm cho nó gần bằng không. Các giá trị dữ liệu duy nhất (quan sát được hoặc có thể quan sát được) góp phần vào kurtosis theo bất kỳ cách nào có ý nghĩa là những giá trị nằm ngoài vùng của đỉnh; tức là, các giá trị ngoại lai. Do đó, kurtosis chỉ đo lường các giá trị ngoại lệ; nó không đo lường gì về “đỉnh” .
Kurtosis trong thực hành
Hãy thử tính kurtosis của một số trường hợp:
Phân phối bình thường
set.seed(5) # normal x = rnorm(1000, 0,1) sum((x-mean(x))^4)/((length(x)-1)*sd(x)^4)<1> 3.058924Phân phối hàm mũ
set.seed(5) # exponential x = rexp(1000) sum((x-mean(x))^4)/((length(x)-1)*sd(x)^4)<1> 10.13425Phân phối beta
set.seed(5) # beta x = rbeta(1000,5,5) sum((x-mean(x))^4)/((length(x)-1)*sd(x)^4)<1> 2.634339Lưu ý rằng bạn cũng có thể tính kurtosis với các gói sau:
library(moments) moments::kurtosis(x)# OR library(e1071) e1071::kurtosis(x, type=1)+3Chúng tôi đã cung cấp một giải thích ngắn gọn về hai thước đo rất quan trọng trong thống kê và chúng tôi đã chỉ ra cách chúng tôi có thể tính toán chúng bằng R. Tôi đề nghị rằng ngoài việc chỉ chia sẻ giá trị trung bình và phương sai của phân phối, hãy thêm cả độ lệch và kurtosis kể từ khi chúng ta có hiểu rõ hơn về dữ liệu.
Ban đầu được xuất bản tại https://predictivehacks.com/skewness-and-kurtosis-in-statistics/.
Japanese Spanish German French Thai Portuguese Russian Vietnamese Italian Korean Turkish Indonesian Polish Hindi