Natural Language Processing MindMap

Tại sao học cao học?

PHD comics

PHD comics


Việc giáo dục và đào tạo cho đến bậc cử nhân có bản chất là học, trong đó việc học ở bậc phổ thông nhằm để có các tri thức cơ bản cần cho cuộc sống và hoạt động của mỗi người, còn việc học ở bậc cử nhân (undergraduate) nhằm để có các tri thức chung về một nghề nghiệp hay lĩnh vực nào đó (thí dụ nghề y, chế tạo máy, quản trị kinh doanh, …). Do phải học nhiều môn, chương trình đào tạo bậc cử nhân chưa cho phép người học có các tri thức chuyên sâu.

Đào tạo sau đại học (graduate) khác cơ bản với đào tạo cử nhân ở việc đi sâu vào chuyên ngành, gồm hai bậc thạc sĩ và tiến sĩ, trong đó bản chất của đào tạo thạc sĩ là học còn bản chất của đào tạo tiến sĩ là nghiên cứu. Đáng tiếc là điều cơ bản này đã không luôn được hiểu rõ và làm đúng ở đại học của chúng ta.

Tiếp tục đọc

A/B testing là gì

Ngay tại thời điểm này, có rất nhiều khả năng ứng dụng Twitter của các bạn hoàn toàn khác với tôi, và hoàn toàn có thể bạn đang sở hữu những tính năng mới mà tôi không nhìn thấy. Thật ra, kể từ khi có nhiều người dùng hơn, Twitter đã trích ra một phần trăm nhỏ băng thông của mình để kiểm nghiệm một số tính năng mới nào đó mà chưa được chính thức công bố. Do đó, để hiểu được những người dùng cụ thể này phản ứng như thế nào so với nhóm người không được sử dụng tính năng mới (control group) được gọi là A/B testing. Đây là phương pháp kiểm nghiệm xem nhóm A hoặc B, nhóm nào có phản ứng tích cực hơn.

Trước khi đi vào quy trình cụ thể, ta hãy xem qua đoạn video ngắn nói về A/B testing layout của một website.

Tiếp tục đọc

AdaBoost hỏi gì đáp nấy

AdaBoost

AdaBoost

Dùng để làm gì? AdaBoost là một thuật toán boosting dùng để xây dựng bộ phân lớp (classifier).

Như chúng ta đã biết, một classifier nhận vào một tập dữ liệu để học và cố gắng dự đoán hay phân lớp mẫu dữ liệu mới thuộc về phân lớp nào.

Boosting là gì? boosting là thuật toán học quần thể bằng cách xây dựng nhiều thuật toán học cùng lúc (ví dụ như cây quyết định) và kết hợp chúng lại. Mục đích là để có một cụm hoặc một nhóm các weak learner sau đó kết hợp chúng lại để tạo ra một strong learner duy nhất.

Tiếp tục đọc

C4.5 hỏi gì đáp nấy

Decision tree 4

Decision tree

Dùng để làm gì? C4.5 xây dựng một phân lớp (classifier) dưới dạng một cây quyết định. Để làm điều này, dữ liệu đầu vào C4.5 là mẫu dữ liệu quan sát đã được gán nhãn phân lớp.

Classifier là gì? classifier là một công cụ trong khai thác dữ liệu nhận vào một loạt các dữ liệu đã được gán nhãn phân loại và cố gắng dự đoán dữ liệu mới thuộc về phân lớp nào.

Tiếp tục đọc

Expectation maximization (EM) hỏi gì đáp nấy

Expectation maximization

Expectation maximization

Dùng để làm gì? Trong khai thác dữ liệu, phương pháp tối đa hóa kì vọng (EM) là thuật toán gom nhóm (clustering) dữ liệu (như k-means) được dùng trong tác vụ khám phá tri thức (knowledge discovery).

Trong thống kê, thuật toán EM lặp (iterate) và tối ưu hóa (optimize) khả năng (likelihood) nhìn thấy dữ liệu quan sát (seeing observed data) thông qua việc ước lượng tham số (parameters estimation) cho mô hình thống kê (statistical model) cho các biến không quan sát được (unobserved variables).

Tiếp tục đọc

Support vector machine (SVM) hỏi gì đáp nấy

SVM classification

SVM classification

Dùng để làm gì? Support vector machine (SVM) xây dựng (learn) một siêu phẳng (hyperplane) để phân lớp (classify) tập dữ liệu thành 2 lớp riêng biệt.

Siêu phẳng là cái gì? Một siêu phẳng là một hàm tương tự như phương trình đường thẳng, y = ax + b. Trong thực tế, nếu ta cần phân lớp tập dữ liệu chỉ gồm 2 feature, siêu phẳng lúc này chính là một đường thẳng.

Tiếp tục đọc

Exploratory Data Analysis: Các nguyên tắc trình bày biểu đồ

7 Kinds of Data Stories

7 Kinds of Data Stories

Mục tiêu của trình bày biểu đồ là để giao tiếp thông tin rõ ràng, toàn vẹn, và hiệu quả hơn. Một biểu đồ được trình bày tốt sẽ khuyến khích sự tham gia của nhiều thành viên trong nhóm, cũng như giúp mọi người tập trung vào bài báo cáo hơn. Với tập dữ liệu đồ sộ, ta cần một cách hiệu quả để có thể hiểu được tính chất của tập dữ liệu đó. Hệ thống thị giác của con người là kênh đón nhận thông tin nhanh chóng và hiệu quả nhất nên việc nắm bắt các nguyên tắc khi trình bày là một kiến thức hữu ích.

Tiếp tục đọc