Language Modeling là gì

Trong bài viết này, ta sẽ tìm hiểu thế nào là một mô hình ngôn ngữ (language modeling). Làm sao để xây dựng được một mô hình ngôn ngữ từ tập các mẫu câu của một ngôn ngữ bất kỳ (Anh, Việt, Nhật, …). Mô hình ngôn ngữ ban đầu được ứng dụng trong nhận dạng tiếng nói (speech recognition) và đã được áp dụng vào trong những tác vụ khác liên quan trong lĩnh vực Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) như gán nhãn từ loại (tagging), phân tích cây cú pháp (parsing), dịch máy (machine translation), …

Tại sao chúng ta cần mô hình ngôn ngữ? Lý do thứ nhất, mô hình này cung cấp cho bạn thông tin về phân bố xác suất tiền nghiệm (prior distribution) $p(x_1...x_n)$ để xét xem câu gồm các từ đầu vào có phù hợp hay không với ngôn ngữ xác định. Ví dụ, ta sẽ có xác suất của câu

p(tối nay được đi chơi rồi vui quá) > p(quá rồi vui được đi chơi nay tối)

nhờ vậy mà ta xác định được câu “tối nay được đi chơi rồi vui quá” sẽ phù hợp hơn với ngôn ngữ tiếng Việt hơn câu hai “quá rồi vui được đi chơi nay tối”. Thứ hai, các kĩ thuật liên quan đến ước lượng tham số cho mô hình thông qua tập dữ liệu huấn luyện cho trước được sử dụng trong các mô hình khác như Hidden Markov Model, Natural Language Parsing. Và cuối cùng, đây là một trong những cơ sở kiến thức để các bạn đọc hiểu được các bài viết liên quan đến Long short-term memory (LSTM).

Đặt vấn đề

Giả sử ta có một ngữ liệu (corpus) thu thập được từ các trang web như vnexpress, baomoi, hay foody. Ngữ liệu là tập dữ liệu gồm các câu (sentence) cho một ngôn ngữ xác định. Tiếp theo, ta định nghĩa $V$ (vocabulary) là bộ từ vựng của một ngôn ngữ gồm tập hợp hữu hạn các từ. Ví dụ, trong ngôn ngữ tiếng Việt, ta sẽ có danh sách các từ sau (con, con mèo, kêu, nhảy, chuối, bánh, kem, …):

$V = \{con, con \ meo, keu, nhay, chuoi, banh \ kem, ...\}$

Mục tiêu của chúng ta là xây dựng được mô hình có khả năng tính toán xác suất của một câu bất kỳ thuộc về một ngôn ngữ cụ thể

$p(x_1...x_n).$

Trong đó, $x_1x_2...x_n$ là chuỗi các từ tạo nên một câu. $n$ là chiều dài của câu, $n \ge 1$ và $x_i \in V$ trong đó $i \in \{1...(n-1)\}$ . Ta đặt $x_n=STOP$ là một ký hiệu đặc biệt ( $STOP \notin V$ ). Như vậy, ta sẽ có tập hợp các câu như bên dưới

con meo nhay STOP
con meo keu STOP
keu meo con STOP
meo meo meo STOP
STOP
...

Từ đây, ta đặt $V^+$ là tập hợp tất cả các câu từ bộ từ vựng $V$ . Đây là tập vô hạn, vì các câu có độ dài bất kỳ.

Định nghĩa một cách toán học một xíu. Một mô hình ngôn ngữ gồm tập hữu hạn từ vựng $V$ , và một hàm xác suất $p(x_1,x_2,...,x_n)$ sao cho:

$\forall \in V^+, p(x_1,x_2,...,x_n) \ge 0$

và

$\sum_{ \in V^+} p(x_1,x_2,...,x_n) = 1$

Như vậy $p(x_1, x_2,...x_n)$ là phân bố xác suất của các câu trong tập $V^+$

Ta có thể định nghĩa xác suất trên bằng công thức đơn giản như sau

$p(x_1...x_n) = \frac{c(x_1...x_n)}{N}$

Với $c(x_1...x_n)$ (count) là số lần xuất hiện của câu $x_1...x_n$ trong ngữ liệu, và $N$ là số lượng các câu trong ngữ liệu huấn luyện.

Công thức này thật sự đơn giản khi bắt đầu, nhưng ta cần biết được hạn chế của nó khi tử số bằng không. Tử số bằng không có nghĩa là câu được tính không nằm trong ngữ liệu huấn luyện. Điều này dẫn đến mô hình không có khả năng tổng quát hoá, trong khi mục tiêu của Machine Learning là đi tổng quát hoá để có thể dự đoán được bất kỳ mẫu dữ liệu nào không có trong ngữ liệu. Ta sẽ đi khắc phục nhược điểm này ở các phương pháp sẽ được đề cập ở mục tiếp theo.

Markov Models

Ý tưởng chính của mô hình Markov là giả định xác suất của đối tượng hiện hành chỉ phụ thuộc vào $k$ ( $k \le (n-1)$ ) đối tượng trước đó của một chuỗi. Ngược lại với xác suất đồng thời (chain rule), xác suất của đối tượng hiện hành phải phụ thuộc vào $n - 1$ đối tượng trước đó. Trigram Language Models được rút ra trực tiếp từ mô hình này, ta sẽ bàn ở mục tiếp theo.

Xét một chuỗi các biến ngẫu nhiên $X_1, X_2, ..., X_n$ . Mỗi biến ngẫu nhiên này có thể có các giá trị thuộc tập hữu hạn $V$ . Mục tiêu của chúng ta là mô hình hoá xác suất của một chuỗi bất kỳ $x_1x_2...x_n$ , trong đó $n \ge 1$ và $x_i \in V$ sao cho $i=1,...,n$ như sau

$P(X_1=x_1, X_2=x_2,...,X_n=x_n)$

Như vậy, với chuỗi có dạng $x_1x_2...x_n$ ta có thể phát sinh ra được $|V|^n$ các khả năng. Rõ ràng ta không thể liệt kê hết bằng tay danh sách các chuỗi này để tính xác suất. Thay vì vậy, ta có thể tổng quát hoá thành công thức bên dưới, với tên gọi là mô hình Markov bậc nhất (first-order Markov)

$P(X_1=x_1, X_2=x_2,..., X_n=x_n)$
= $P(X_1=x_1)\prod_{i=2}^n P(X_i=x_i|X_1=x_1,...,X_{i-1}=x_{i-1})$ (1.1)
= $P(X_1=x_1)\prod_{i=2}^n P(X_i=x_i|X_{i-1}=x_{i-1})$ (1.2)

(1.1) là công thức chuẩn suy ra được từ xác suất đồng thời (chain rule), (1.2) suy ra được từ công thức này với giả định rằng đối tượng thứ $i$ chỉ phụ thuộc điều kiện vào một đối tượng trước đó là $x_{i-1}$ trong chuỗi. Nghĩa là

$P(X_i=x_i|X_1=x_1,...,X_{i-1}=x_{i-1}) = P(X_i=x_i|X_{i-1}=x_{i-1})$

Tương tự, ta có mô hình Markov bậc hai (second-order Markov)

$P(X_1=x_1, X_2=x_2,..., X_n=x_n)$
= $\prod_{i=1}^n P(X_i=x_i|X_{i-2}=x_{i-2},X_{i-1}=x_{i-1})$

Để thuận tiện cho xử lý, ta đặt $x_0 = x_{-1} = *$ , trong đó $*$ là ký hiệu bắt đầu của một chuỗi/câu.

Để tính xác suất xuất hiện của đối tượng $x_i$ có phân bố là

$P(X_i=x_i|X_{i-2}=x_{i-2},X_{i-1}=x_{i-1})$

ta thực hiện các bước sau

Khởi tạo $i=1$ , và $x_0 = x_{-1} =*$
Phát sinh đối tượng $x_i$ từ công thức
$P(X_i=x_i|X_{i-2}=x_{i-2},X_{i-1}=x_{i-1})$
Nếu $x_i = STOP$ thì ta trả về chuỗi $x_1...x_i$ . Ngược lại, ta gán $i = i + 1$ và quay lại bước 2.

Như vậy, ta đã có một mô hình có thể phát sinh được một chuỗi có chiều dài bất kỳ

Trigram Language Models

Trong thực tế, ta có nhiều cách để xây dựng mô hình ngôn ngữ, nhưng ta sẽ tập trung vào mô hình cơ bản nhất là Trigram Language Models. Mô hình này chính là Markov bậc hai như đã đề cập ở phần trên.

$P(X_1=x_1, X_2=x_2,..., X_n=x_n)$
= $\prod_{i=1}^n P(X_i=x_i|X_{i-2}=x_{i-2},X_{i-1}=x_{i-1})$

Định nghĩa cho mô hình này gồm một tập hữu hạn từ vựng $V$ , và tham số

$q(w|u,v)$

với mỗi trigram $u,v,w$ , ta có $w \in V \cup \{STOP\}$ và $u, v \in V \cup \{*\}$ . Trong đó, $q(w|u,v)$ được hiểu như xác suất xuất hiện của từ $w$ ngay sau bigram $(u,v)$ . Với mọi câu $x_1...x_n$ , trong đó $x_i \in V$ sao cho $i=1...(n-1)$ và $x_n=STOP$ , xác suất của một câu trong trigram language model sẽ là

$p(x_1...x_n) = \prod_{i=1}^n q(x_i|x_{i-2},x_{i-1})$

và đặt $x_0 = x_{-1} = *$

Các tham số $q$ này thoả ràng buộc trigram $(u, v, w)$ và bigram $(u, v)$

$q(w|u,v) \ge 0$

$\sum_{w \in V \cup \{STOP\}} q(w|u,v) = 1$

Ta có thể xem ví dụ bên dưới cho câu “Việt nam là đất nước tươi đẹp”

Maximum-Likelihood Estimates

Để ước lượng xác suất cực đại, ta định nghĩa $c(u, v, w)$ là số lần xuất hiện của trigram $(u, v, w)$ trong ngữ liệu, ví dụ $c(cho, gam, xuong)$ là số lần xuất hiện của chuỗi gồm ba từ chó gặm xương trong ngữ liệu. Tương tự, ta định nghĩa $c(u, v)$ là số lần xuất hiện của bigram $(u, v)$ trong ngữ liệu. Từ hai định nghĩa này, ta đặt

$q(w|u,v) = \frac{c(u,v,w)}{c(u,v)}$

Ví dụ cho câu chó gặm xương ta có

$q(xuong|cho,gam) = \frac{c(cho,gam,xuong)}{c(cho,gam)}$

Công thức ước lượng thật đơn giản phải không nào. Tuy nhiên, công thức trên vướng phải những vấn đề sau:

Do số lượng từ vựng của chúng ta trong thực tế là khá lớn khoảng $10,000$ từ vựng, như vậy ta sẽ có khoảng $10,000 \times 10,000 \times 10,000 = 10^{12}$ các khả năng của tham số $q(w|u,v)$ . Vì vậy, sẽ có nhiều mẫu câu có giá trị xác suất bằng không do $c(u,v,w)=0$
Và tham số không xác định khi $c(u,v) = 0$ .

Để giải quyết vấn đề này, ta có thể áp dụng một số phương pháp như

Linear interpolation

Ta định nghĩa trigram, bigram, và unigram như sau

$q_{ML}(w|u,v) = \frac{c(u,v,w)}{c(u,v)}$

$q_{ML}(w|v) = \frac{c(v,w)}{c(v)}$

$q_{ML}(w) = \frac{c(w)}{c()}$

Trong đó, ta lưu ý $c()$ là tổng số các từ xuất hiện trong ngữ liệu (không phải tổng số từ vựng $V$ ). Nhờ có tham số $q_{ML}(w)$ , ta luôn có giá trị lớn hơn không để đảm bảo xác suất của một câu đầu vào khác không.

Ý tưởng của phương pháp linear interpolation (nội suy tuyến tính) đó là sử dụng cả ba tham số trên bằng cách định nghĩa trigram estimate như sau

$q(w|u,v) = \lambda_1 \times q_{ML}(w|u,v) + \lambda_2 \times q_{ML}(w|v) + \lambda_3 \times q_{ML}(w)$

Trong đó, $\lambda_1, \lambda_2, \lambda_3$ là các tham số thêm vào mô hình, thoả các điều kiện

$\lambda_1 \ge 0, \lambda_2 \ge 0, \lambda_3 \ge 0$

$\lambda_1 + \lambda_2 + \lambda_3 = 1$

Chúng còn được gọi là trọng số trung bình (weighted average) cho từng tham số $q$ . Để ước lượng giá trị cho tham số $\lambda$ , ta có thể áp dụng phương pháp Log-likelihood và bucketing.

_ Log-likelihood

Ta chia ngữ liệu ban đầu thành ba tập: training, testing, developing (ví dụ tỷ lệ tương ứng là 60%, 10%, 20%). Ta định nghĩa $c^\prime (u,v,w)$ là số lần xuất hiện của trigram $(u,v,w)$ trong tập developing. Ta có công thức log-likelihood cho tập developing này

$L(\lambda_1, \lambda_2, \lambda_3)$

= $\sum_{u,v,w} c^\prime (u,v,w) log \ q(w|u,v)$

= $\sum_{u,v,w} c^\prime (u,v,w) log(\lambda_1 \times q_{ML}(w|u,v) + \lambda_2 \times q_{ML}(w|v) + \lambda_3 \times q_{ML}(w))$

Mục tiêu của chúng ta là chọn được các giá trị $\lambda$ sao cho giá trị $L(\lambda_1, \lambda_2, \lambda_3)$ đạt được cực đại

$arg \max_{\lambda_1, \lambda_2, \lambda_3} L(\lambda_1, \lambda_2, \lambda_3)$

_ Bucketing

Ta định nghĩa lại các tham số $\lambda$ một các đơn giản hơn

$\lambda_1 = \frac{c(u,v)}{c(u,v) + \gamma}$

$\lambda_2 = (1 - \lambda_1) \times \frac{c(v)}{c(v) + \gamma}$

$\lambda_3 = 1 - \lambda_1 - \lambda_2$

Trong đó $\gamma > 0$ là tham số duy nhất cần tìm của phương pháp này và được tính nhờ vào maximum log-likelihood.

Discounting Methods

Đây là một hướng tiếp cận khác để ước lượng tham số $q(w|u,v)$ trong thực tế. Đầu tiên, ta xét trường hợp bigram

$q(w|v)$

với mọi $w \in V \cup \{STOP\}, v \in V \cup \{*\}$

Với mọi bigram $c(v, w) > 0$ , ta định nghĩa discounted counts (trừ đi một giá trị $\beta$ nào đó sau khi đếm $c(v, w)$ ).

$c^* (v, w) = c(v, w) - \beta$

trong đó $\beta \in [0, 1]$ (thông thường ta đặt $\beta = 0.5$ ). Ta làm như vậy là do trong quá trình đếm tần suất các câu trong ngữ liệu, ta đã làm cho tần suất của câu trong ngữ liệu quá cao và tần suất của câu không nằm trong ngữ liệu quá thấp. Điều này giúp cho mô hình của chúng ta ít bị over-fitting hơn.

Từ đây, ta định nghĩa

$q(w|v) = \frac{c^\prime (v, w)}{c(v)}$

Ví dụ, sau khi áp dụng công thức trên, ta có bảng tương tự bên dưới ( $\beta = 0.5$ )

$x$	$c(x)$	$c^\prime(x)$	$\frac{c^\prime(x)}{c(con)}$
con	48
con,chó	15	14.5	14.5/100
con,mèo	11	10.5	10.5/100
con,gà	10	9.5	9.5/100
con,bò	5	4.5	4.5/100
con,tàu	2	1.5	1.5/100
con,con	1	0.5	0.5/100
con,cóc	1	0.5	0.5/100
con,heo	1	0.5	0.5/100
con,mồi	1	0.5	0.5/100
con,thoi	1	0.5	0.5/100

Với mọi ngữ cảnh $v$ , ta tính được khối xác suất bị mất (missing probability mass)

$\alpha(v) = 1 - \sum_{w:c(v,w) > 0} \frac{c^\prime(v,w)}{c(v)}$

Từ bảng ví dụ trên ta có

$\sum_{w:c(v,w) > 0}\frac{c^\prime(v,w)}{c(v)} = \frac{14.5}{48} + \frac{10.5}{48} +\frac{9.5}{48} +\frac{4.5}{48} +\frac{1.5}{48} +5 \times \frac{0.5}{48} = \frac{43}{48}$

Lúc này $\alpha(con) = 1 - \frac{43}{48} = \frac{5}{48}$ . Ta dùng giá trị này để tính giá trị cho các $c(u, w) = 0$ . Như vậy, ta định nghĩa hai tập $A, B = q_D(w|v)$ như sau

$A(v) = \{w:c(v,w) > 0\} = \frac{c^*(v,w)}{c(v)}$

$B(v) = \{w:c(v,w) = 0\} = \alpha(v) \times \frac{q_{ML}(w)}{\sum_{w\in B(v)} q_{ML} (w)}$

Theo ví dụ trên ta có

$A(con) = \{con,cho,meo,ga,bo,coc,heo,moi,thoi\}$

và $B(con)$ là các cặp từ còn lại.

Tổng quát hoá cho trường hợp trigram

Với mọi bigram $(u,v)$ ta định nghĩa đệ quy cho trigram như sau

$c^*(u,v,w) = c(u,v,w) - \beta$

$\alpha(u,v) = 1 - \sum_{w \in A(u,v) = \frac{c^*(u,v,w)}{c(u,v)}}$

$A(u,v) = \{w : c(u,v,w) > 0\} = \frac{c^*(u,v,w)}{c(u,v)}$

$B(u,v) = \{w : c(u,v,w) = 0\} = \alpha(u,v) \times \frac{q_D(w|v)}{\sum_{w\in B(u,v)} q_D(w|v)}$

Trong mô hình này, để ước lượng tham số $\beta$ ta lại áp dụng phương pháp held-out lên tập developing bằng cách cực đại hoá log-likelihood

$\sum_{u,v,w} c^\prime (u,v,w) log \ q_D(w|u,v)$

Ta thực hiện bằng cách lặp qua các giá trị $\beta = \{0.1, 0.2, ..., 0.9\}$ để tính log-likelihood và chọn ra giá trị $\beta$ khiến cho hàm này đạt cực đại.

Đánh giá mô hình này như thế nào

Làm thế nào để đánh giá chất lượng của một mô hình ngôn ngữ? Một trong những phương pháp phổ biến đó là perplexity (độ hỗn độn).

Giả sử ta có tập các câu để test (held-out: không nằm trong tập training) $x^{(1)},x^{(2)},...,x^{(m)}$ . Mỗi câu $x^{(i)}$ có $i \in \{1...m\}$ là chuỗi các từ $x_1^{(i)},...,x_{n_i}^{(i)}$ , trong đó $n_i$ là độ dài của câu thứ $i$ .

Ta tính xác suất $p(x^{(i)})$ cho từng $x^{(i)}$ thông qua mô hình ngôn ngữ vừa training xong. Khi đó, chất lượng của mô hình ngôn ngữ này sẽ được tính như sau

$\prod_{i=1}^m p(x^{(i)})$

giá trị thu được từ phép tính trên càng cao thì chất lượng của mô hình càng tốt đối với dữ liệu chưa hề thấy trong tập training.

Perplexity được định nghĩa như sau

$2^{-l}$

trong đó

$\begin{cases} M = \sum_{i=1}^m n_i\\ l = \frac{1}{M} \sum_{i=1}^m log_2 p(x^{(i)})\\ \end{cases}$

Theo công thức trên, nếu giá trị của perplexity càng nhỏ, mô hình ngôn ngữ xây dựng được càng tốt.

Trong thực nghiệm của Goodman, ông đưa ra biểu đồ cho thấy perplexity là 74 đối với trigram model, 137 cho bigram model, và 955 cho unigram model. Mô hình này đơn giản chỉ gán xác suất 1/50,000 cho từng từ với bộ từ vựng 50,000. Như vậy trigram model cho ta giá trị đánh giá mô hình ngôn ngữ tốt hơn bigram và unigram.

Nguồn tham khảo
Language models
Language modeling a billion words
Music Language Modeling with Recurrent Neural Networks

Một suy nghĩ 5 thoughts on “Language Modeling là gì”

Vũ Anh nói:

Tháng Mười Một 13, 2016 lúc 3:46 sáng

Anh ơi thế còn các language model khác như tf-idf, word2vec, GloVe thì sao ạ?

ThíchThích

Trả lời
1. Ông Xuân Hồng nói:
  
  Tháng Mười Một 13, 2016 lúc 8:05 sáng
  
  language model là phân bố xác suất của chuỗi các từ (câu) – p(w_1, w_2, …, w_m) = ? Các mô hình bạn vừa đề cập là dạng vector hoá phục vụ cho so sánh và tìm kiếm, không phải language model.
  
  ThíchThích
  
  Trả lời
Sinh nói:

Tháng Mười 19, 2019 lúc 3:38 chiều

Cám ơn bài chia sẽ của anh,
Hiện em đang học Machine Translation. Em có đọc qua kiến trúc encoder-decoder. Nếu em nói Language Model là quá trình Encoder (bao gồm Việc biểu diễn Words và training để tạo ra Context Vector) thì đúng không a?

ThíchThích

Trả lời
1. Hong Ong nói:
  
  Tháng Mười 21, 2019 lúc 11:04 sáng
  
  code trong encode-decode là biến dữ liệu dạng thô sang dữ liệu dạng vector.
  language model là xét xác xuất của câu đang diễn đạt P(X) là bao nhiêu với X là chuỗi các từ
  một bên là phương pháp, một bên là khái niệm nên ko thể đặt câu hỏi như trên
  
  ThíchThích
  
  Trả lời
An nói:

Tháng Bảy 24, 2021 lúc 5:15 chiều

Anh cho em hỏi chút với ạ. Mô hình ngôn ngữ cho truy hồi thông tin (Language models for information
retrieval) gồm những mô hình gì vậy ạ ? Em có tra trên gg và thấy các kq như mô hình ngôn ngữ thống kê unigram,bigram, n-gram, mô hình ngôn ngữ tài liệu, mô hình ngôn ngữ xác suất… Em k rõ lắm ạ , mong anh có thể giúp em trả lời câu hỏi này. Em cảm ơn anh ạ

ThíchThích

Trả lời

	Phú Tiến trong Mời các bạn ghé trang blog kỹ…
	Tô Quỳnh trong Vọc thử Orange: phần mềm data…
	Tô Quỳnh trong Vọc thử Orange: phần mềm data…
	Sam Dinh trong Statistical Inference: Khoảng…
	Nguyễn Văn Hiếu trong Mời các bạn ghé trang blog kỹ…
	rualinh trong Tại sao Data Engineer giúp bạn…
	Đinh Minh Chính trong Tại sao Data Engineer giúp bạn…
	Vardy trong Tại sao Data Engineer giúp bạn…
	Vardy trong Machine Learning cho người bắt…
	Phân nhóm các thuật… trong Điểm qua các thuật toán Machin…
	Hoàng trong Data Science mini course
	Phát hiện gian lận t… trong XGBoost: thuật toán giành chiế…
	An trong Language Modeling là gì
	Nam trong Lập trình Spark với Scala
	iotsharing dotcom trong Góp nhặt kinh nghiệm làm nghề…

Language Modeling là gì

Đặt vấn đề

Markov Models