Word2Vec là một kỹ thuật học sâu (deep learning) để biểu diễn từ ngữ trong văn bản dưới dạng các vector số có chiều thấp, còn gọi là word embeddings. Được phát triển bởi một nhóm tại Google vào năm 2013, Word2Vec đã trở thành một trong những phương pháp phổ biến nhất để mô hình hóa ngôn ngữ tự nhiên (NLP) và hiểu ngữ nghĩa của từ ngữ trong một không gian toán học.
Word2Vec tạo ra các vector có ý nghĩa ngữ nghĩa dựa trên ngữ cảnh mà từ ngữ xuất hiện trong văn bản. Phương pháp này không chỉ đơn giản là ánh xạ từ vào các số, mà nó tìm cách giữ lại mối quan hệ ngữ nghĩa giữa các từ ngữ.
Có hai mô hình chính trong Word2Vec:
Word2Vec giúp các mô hình học máy hiểu được các mối quan hệ ngữ nghĩa giữa các từ. Một trong những đặc tính ấn tượng của Word2Vec là khả năng biểu diễn các quan hệ toán học giữa các từ. Ví dụ, với các vector từ Word2Vec, có thể thực hiện phép toán vector như:
King - Man + Woman ≈ Queen
Điều này cho thấy mô hình đã học được mối quan hệ ngữ nghĩa giữa các từ dựa trên ngữ cảnh của chúng. Xem thêm: Phép toán King - Man + Woman ≈ Queen trong Word2Vec
Word2Vec là một công cụ mạnh mẽ và đã mở ra một kỷ nguyên mới trong việc biểu diễn ngôn ngữ tự nhiên.