” Chain Rule Là Gì ? Nghĩa Của Từ Chain Rule Trong Tiếng Việt

Một số kiến thức về Đại Số Tuyến Tính, Xác Suất Thống Kê, Toán Tối Ưu cần thiết cho Machine Learning.

Đang xem: Chain rule là gì

Bạn có thể download bản pdf đầy đủ hơn tại đây.

(đang trong thời gian xây dựng, cập nhật theo bài)

Trong trang này:

2. Norms (chuẩn) 3. Đạo hàm của hàm nhiều biến 3.3. Hai tính chất quan trọng 3.4. Đạo hàm của các hàm số thường gặp 3.5. Bảng các đạo hàm thường gặp

1. Lưu ý về ký hiệu

Trong các bài viết của tôi, các số vô hướng được biểu diễn bởi các chữ cái viết ở dạng không in đậm, có thể viết hoa, ví dụ (x_1, N, y, k). Các vector được biểu diễn bằng các chữ cái thường in đậm, ví dụ (mathbf{y}, mathbf{x}_1 ). Nếu không giải thích gì thêm, các vector được mặc định hiểu là các vector cột. Các ma trận được biểu diễn bởi các chữ viết hoa in đậm, ví dụ (mathbf{X, Y, W} ).

Đối với vector, (mathbf{x} = ) được hiểu là một vector hàng. Trong khi (mathbf{x} = ) được hiểu là vector cột. Chú ý sự khác nhau giữa dầu phẩy ((,)) và dấu chấm phẩy ((;)). Đây chính là ký hiệu mà được Matlab sử dụng.

Tương tự, trong ma trận, (mathbf{X} = ) được hiểu là các vector (mathbf{x}_j) được đặt cạnh nhau theo thứ tự từ trái qua phải để tạo ra ma trận (mathbf{X}). Trong khi (mathbf{X} = ) được hiểu là các vector (mathbf{x}_i) được đặt chồng lên nhau theo thứ tự từ trên xuống dưới dể tạo ra ma trận (mathbf{X}). Các vector được ngầm hiểu là có kích thước phù hợp để có thể xếp cạnh hoặc xếp chồng lên nhau.

Cho một ma trận (mathbf{W}), nếu không giải thích gì thêm, chúng ta hiểu rằng (mathbf{w}_i) là vector cột thứ (i) của ma trận đó. Chú ý sự tương ứng giữa ký tự viết hoa và viết thường.

2. Norms (chuẩn)

Trong không gian một chiều, việc đo khoảng cách giữa hai điểm đã rất quen thuộc: lấy trị tuyệt đối của hiệu giữa hai giá trị đó. Trong không gian hai chiều, tức mặt phẳng, chúng ta thường dùng khoảng cách Euclid để đo khoảng cách giữa hai điểm. Khoảng cách này chính là cái chúng ta thường nói bằng ngôn ngữ thông thường là đường chim bay. Đôi khi, để đi từ một điểm này tới một điểm kia, con người chúng ta không thể đi bằng đường chim bay được mà còn phụ thuộc vào việc đường đi nối giữa hai điểm có dạng như thế nào nữa.

Việc đo khoảng cách giữa hai điểm dữ liệu nhiều chiều, tức hai vector, là rất cần thiết trong Machine Learning. Chúng ta cần đánh giá xem điểm nào là điểm gần nhất của một điểm khác; chúng ta cũng cần đánh giá xem độ chính xác của việc ước lượng; và trong rất nhiều ví dụ khác nữa.

Xem thêm: bang bo tro azir

Và đó chính là lý do mà khái niệm norm (chuẩn) ra đời. Có nhiều loại norm khác nhau mà các bạn sẽ thấy ở dưới đây:

Để xác định khoảng cách giữa hai vector (mathbf{y}) và (mathbf{z}), người ta thường áp dụng một hàm số lên vector hiệu (mathbf{x = y – z}). Một hàm số được dùng để đo các vector cần có một vài tính chất đặc biệt.

Định nghĩa

Một hàm số (f() ) ánh xạ một điểm (mathbf{x}) từ không gian (n) chiều sang tập số thực một chiều được gọi là norm nếu nó thỏa mãn ba điều kiện sau đây:

(f(mathbf{x}) geq 0). Dấu bằng xảy ra (Leftrightarrow mathbf{x = 0} ). (f(alpha mathbf{x}) = |alpha| f(mathbf{x}), ~~~forall alpha in mathbb{R} ) (f(mathbf{x}_1) + f(mathbf{x}_2) geq f(mathbf{x}_1 + mathbf{x}_2), ~~forall mathbf{x}_1, mathbf{x}_2 in mathbf{R}^n)

Điều kiện thứ nhất là dễ hiểu vì khoảng cách không thể là một số âm. Hơn nữa, khoảng cách giữa hai điểm (mathbf{y}) và (mathbf{z}) bằng 0 nếu và chỉ nếu hai điểm nó trùng nhau, tức (mathbf{x = y – z = 0} ).

Điều kiện thứ hai cũng có thể được lý giải như sau. Nếu ba điểm (mathbf{y, v}) và (mathbf{z}) thẳng hàng, hơn nữa (mathbf{v – y} = alpha (mathbf{v – z}) ) thì khoảng cách giữa (mathbf{v}) và (mathbf{y}) sẽ gấp ( |alpha |) lần khoảng cách giữa (mathbf{v}) và (mathbf{z}).

Điều kiện thứ ba chính là bất đẳng thức tam giác nếu ta coi (mathbf{x}_1 = mathbf{ w – y}, mathbf{x}_2 = mathbf{z – w} ) với (mathbf{w}) là một điểm bất kỳ trong cùng không gian.

Một số chuẩn thường dùng

Giả sử các vectors (mathbf{x} = ), (mathbf{y} = ).

Nhận thấy rằng khoảng cách Euclid chính là một norm, norm này thường được gọi là norm 2:<||mathbf{x}||_2 = sqrt{x_1^2 + x_2^2 + dots x_n^2} ~~~ (1)>

Với (p) là một số không nhỏ hơn 1 bất kỳ, hàm số sau đây:<||mathbf{x}||_p = (|x_1|^p + |x_2|^p + dots |x_n|^p)^{frac{1}{p}} ~~(2)>

được chứng minh thỏa mãn ba điều kiện bên trên, và được gọi là norm p.

Nhận thấy rằng khi (p
ightarrow 0 ) thì biểu thức bên trên trở thành số các phần tử khác 0 của (mathbf{x}). Hàm số ((2)) khi (p = 0) được gọi là giả chuẩn (pseudo-norm) 0. Nó không phải là norm vì nó không thỏa mãn điều kiện 2 và 3 của norm. Giả-chuẩn này, thường được ký hiệu là (||mathbf{x}||_0), khá quan trọng trong Machine Learning vì trong nhiều bài toán, chúng ta cần có ràng buộc “sparse”, tức số lượng thành phần “active” của (mathbf{x}) là nhỏ.

Xem thêm: Phân Biệt Above Và Over And Above Là Gì ? Q&A: Phân Biệt Above Và Over

Có một vài giá trị của (p) thường được dùng:

Khi (p = 2) chúng ta có norm 2 như ở trên.

Khi (p = 1) chúng ta có:<||mathbf{x}||_1 = |x_1| + |x_2| + dots |x_n| ~~~~ (3)>là tổng các trị tuyệt đối của từng phần tử của (mathbf{x}). Norm 1 thường được dùng như xấp xỉ của norm 0 trong các bài toán có ràng buộc “sparse”. Dưới đây là một ví dụ so sánh norm 1 và norm 2 trong không gian hai chiều:

Related Posts