Mở đầu

Khi bạn bắt đầu học và làm machine learning, data analyses, AI nói chung, bạn chắc chắn phải đọc nhiều tài liệu tiếng anh và trong những tài liệu đó chắc chắn sẽ chứa rất nhiều từ vựng về toán học và thuật ngữ chuyên ngành.

Bình thường khi gặp những từ đó, ta có thể tra từ điển để tìm ra ý nghĩa của chúng, nhưng với từ điển, sẽ có rất nhiều ý nghĩa liên quan tới từ đó và những ý nghĩa đó làm chúng ta phải mò vào. Còn một điều nữa là có những từ mà từ điển không định nghĩa theo toán học hoặc không lấy ví dụ, giải thích theo toán học cho chúng ta dễ hiểu.

Vì những lý do đó nên bài này mình muốn tổng hợp và lấy ví dụ cho những từ vựng và thuật ngữ trong toán học giúp chúng ta nắm bắt được rõ ràng hơn.

Các từ vựng và thuật ngữ trong toán học

Từ vựng trong đại số và giải tích

  • Equation: phương trình, đẳng thức.
  • Distributive Property: tính phân phối của phép nhân. Ví dụ: a(b+c) = ab + ac
  • Linear equation: phương trình tuyến tính

Là một phương trình bậc nhất dạng f(x) = ax + b, phương trình tuyến tính có đồ thị luôn là một đường thẳng. 

  • linear regression: hồi quy tuyến tính
  • linear combination: tổ hợp tuyến tính
  • Intercept: cắt, giao tuyến.
  • Slope: độ dốc, hệ số góc
  • Systems of equations: cân bằng phương trình. Ví dụ: 2x + 14 = 8  <=>  2x = -6   <=>   x = -3
  • Exponential: lũy thừa. Ví dụ: 2^3 = 8
  • Radical: khai căn. Ví dụ: 9 = 3
  • Logarithm: logarit. Ví dụ: log28 = 3
  • Monomial: đơn thức. Ví dụ: 3x, 3x2, 5y, 5y3
  • Polynomial: đa thức, là tổng của các đơn thức. Ví dụ: 6x2 + 5x + 3
  • Factorization: phân tích nhân tử. Ví dụ: 16 = 1.16 = 2.8 = 4.4 nên 1, 2, 4, 8, 16 là các nhân tử (factor) của 16. Hay 6x2 = 1.6x2 = x.6x = 2x.3x nên 1, x, 2x, 3x, 6x, 6x^2 là các nhân tử của 6x2.
  • Greatest common factor: tìm ước chung lớn nhất (hay nhân tử chung lớn nhất). Ví dụ: UCLN(16, 8) = 8; UCLN(16, 10) = 2
  • Quadratic equation: phương trình bậc hai
  • Rate of change: tỉ lệ thay đổi yx, cho biết y thay đổi nhanh hay chậm khi x thay đổi. Slope cũng là rate of change.
  • Continuitytính liên tục của hàm số
  • Differentiation: vi phân
  • Differentiability: sự khả vi của hàm số
  • Derivative: đạo hàm
  • Analyze function: khảo sát hàm số.
  • Second order derivative: đạo hàm cấp 2
  • Optimizing function: tối ưu hóa hàm số
  • Critical point: điểm cực trị
  • Multivariate function: hàm nhiều biến số. Ví dụ: f(x, y) = ax + by
  • Multivariate Diiferentiation: Đạo hàm của hàm nhiều biến số.
  • Integration: tích phân
  • loss function: hàm mất mát
  • Matrix (số nhiều là matrices)ma trận
  • Identity Matrix: ma trận đơn vị
  • transpose: chuyển vị
  • conjugate transpose: chuyển vị liên hợp
  • invertible = nonsingular = nondegenerate: khả nghịch
  • singular = degenerate: không khả nghịch
  • inverse matrix: ma trận nghịch đảo
  • diagonal matrix: ma trận đường chéo
  • triangular matrix: ma trận tam giác
  • upper triangular matrix: ma trận tam giác trên
  • lower triangular matrix: ma trận tam giác dưới
  • determinant: định thức
  • span space: không gian sinh
  • rank: hạng của ma trận
  • orthogonal: trực giao
  • orthonormal: trực chuẩn
  • Matrix transformation: ma trận của biến đổi tuyến tính
  • Eigenvalue: trị riêng trong khái niệm ma trận.
  • Eigenvector: vecto riêng

 

Từ vựng trong phân tích dữ liệu

  • nominal data: dữ liệu được chia theo thang đo định danh, loại dữ liệu này phần lớn phân loại giống như category chứ không phân biệt dữ liệu nào lớn hơn hay tốt hơn.

VD: id, name, gender

  • ordinal data: dữ liệu được chia theo thang đo thứ bậc.

VD: level

  • qualitative data: dữ liệu mang tính định tính, nominal dataordinal data thuộc nhóm này.
  • quantiative data: dữ liệu mang tính định lượng, là những loại dữ liệu còn lại. Được phân chia theo từng nhóm mang tính rời rạc (discrete) hay liên tục (continous).

VD: cources là số khóa học đã học trước đó, thể hiện bằng những con số toàn vẹn nên là dữ liệu mang tính rời rạc (discrete), age, time (thời gian hoàn thành), grade (khối lớp) là những trường có giá trị nằm trong khoảng liên tục chứ ko phải là những con số toàn vẹn nên là dữ liệu mang tính liên tục (continous).

  • data visualization: trực quan hóa dữ liệu, là hiển thị trực quan dữ liệu bằng những biểu đồ để chúng ta trông thấy được.

- bar chart: biểu đồ thanh, thường dùng để trực quan hóa loại dữ liệu định tính.

               từ vựng tiếng anh: biểu đồ thanh

 

  • histogram chart: biểu đồ tần xuất, thường dùng để trực quan hóa dữ liệu định lượng (quantiative) mang tính liên tục (continous).

            từ vựng tiếng anh: biểu đồ tần xuất

 

  • pie chart: biểu đồ tròn.

              Từ vựng tiếng anh: biểu đồ tròn

 

  • scatter plot: biểu đồ tán xạ.

              Từ vựng tiếng anh: biểu đồ tán xạ

 

  • line chart: biểu đồ đường.

              Từ vựng tiếng anh: biểu đồ đường

 

  • whisker chart (box and whisker plot): biểu đồ hộp

            Từ vựng tiếng anh: biểu đồ hộp

 

  • measure of central tendency: đo hướng tâm.
  • measure of variance: đo phương sai.
  • mean value: giá trị trung bình hay giá trị kỳ vọng, ký hiệu μ hay x¯ .
  • median value: giá trị trung vị
  • standard diviation: độ lệch chuẩn là mức độ phân tán của dữ liệu, chính là khoảng cách của dữ liệu tới giá trị trung bình (mean).

Độ lêch chuẩn có giá trị = căn bậc 2 của phương sai.

Công thức tổng quát: σ = i=1N(Xi - μ)2N

Khi tính độ lệch chuẩn cho một mẫu dữ liệu đại diện thì dùng công thức: s = i=1n(xi - x¯)2n - 1

  • variance: phương sai là trung bình (hay kỳ vọng) của bình phương khoảng cách của mỗi điểm dữ liệu tới giá trị trung bình (mean), hay giá trị trung bình (kỳ vọng) của bình phương độ lệch.

Phương sai có giá trị bằng bình phương của độ lệch chuẩn.

Công thức phương sai tổng quát:  σ2 = i=1N(Xi - μ)2N

Khi tính phương sai cho một mẫu dữ liệu đại diện thì dùng công thức: s2 = i=1n(xi - x¯)2n - 1

 

Để hiểu bài bản và lý do vì sao phương sai và độ lệch chuẩn được tính như trên thì bạn tham khảo ở đây.

  • correlation: hệ số tương quan.
  • least square: bình phương tối thiểu.
  • statistic: thống kê.
  • Probability: xác suất.
  • intersection: phép giao.
  • union: phép hợp.
  • confidence intervals: Khoảng tin cậy
  • hypothesis test: kiểm định giả thuyết
  • statistical hypothesis: giả thuyết thống kê
  • null hypothesis: giả thuyết không (giả thuyết đơn)
  • alternative hypothesis: giả thuyết ngược lại (đối thuyết)
  • critical value: giá trị giới hạn (trong kiểm định giả thuyết)
  • one-tailed test: kiểm định một đầu
  • two-tailed test: kiểm định hai đầu