
MỘT KỸ THUẬT PHÂN CỤM CHO TỪ LOẠI TIẾNG VIỆT
Author(s) -
Nguyễn Minh Hiệp,
Nguyễn Thị Huyền,
Ngô Thế Quyền,
Trần Thị Phương Linh
Publication year - 2016
Publication title -
tạp chí khoa học đại học đà lạt: kinh tế và quản lý/tạp chí khoa học đại học đà lạt: xã hội và nhân văn/khoa học đại học đà lạt (điện tử)/tạp chí khoa học đại học đà lạt: tự nhiên và công nghệ
Language(s) - Vietnamese
Resource type - Journals
eISSN - 2615-9228
pISSN - 0866-787X
DOI - 10.37569/dalatuniversity.6.2.40(2016
Subject(s) - chemistry , stereochemistry
Trong xử lý ngôn ngữ tự nhiên, gán nhãn từ loại (POS tagging) đóng một vai trò quan trọng, là đầu ra, đầu vào của nhiều nhiệm vụ khác (phân tích cú pháp, phân tích ngữ nghĩa...). Một trong những vấn đề liên quan đến việc gán nhãn từ loại là xác định tập từ loại (POS). Điều này có thể được giải quyết bằng các phương pháp học máy không giám sát. Bài viết này trình bày một ứng dụng của thuật toán phân cụm DBSCAN để phân loại từ tiếng Việt từ kho ngữ liệu lớn. Các đặt trưng được sử dụng để mô tả từng từ được định nghĩa một cách tự nhiên bởi ngữ cảnh của từ đó trong câu. Chúng tôi sử dụng một kho ngữ liệu lớn chứa câu được trích tự động từ báo Nhân Dân.