Khai thac du lieu van van voi Minitab

Text mining Khai thác văn bản với Python trong Minitab! Bình luận

Ngày nay, văn bản có sẵn và có thể truy cập ở mọi nơi. Với dòng nội dung văn bản có sẵn, nó có thể khiến bạn tự hỏi: Có cách định lượng nào để xem xét kỹ hơn văn bản có sẵn cho bạn không? Câu trả lời đó là “Text mining”. Thị trường Text mining đã và đang được càng nhiều tổ chức/doanh nghiệp quan tâm nhằm tìm kiếm các giải pháp giá trị gia tăng để cạnh tranh trong thị trường.

TEXT MINING LÀ GÌ?

Text mining – Khai thác dữ liệu từ văn bản, là quá trình lấy thông tin chất lượng cao từ văn bản hay có thể coi là quá trình trích xuất dữ liệu thiết yếu từ văn bản ngôn ngữ chuẩn. Text mining chủ yếu được sử dụng để rút ra thông tin chi tiết hữu ích hoặc các mẫu từ dữ liệu đó, biến văn bản trở thành mô hình định lượng trực quan. Hiện nay việc khai thác dữ liệu từ văn bản mang đến sự cạnh tranh cao hơn trên thị trường kinh doanh, do đó, nhiều tổ chức/doanh nghiệp đều tìm đến “text mining” nhằm tìm kiếm các giải pháp có khả năng phân tích dữ liệu khách hàng và đối thủ cạnh tranh để cải thiện khả năng cạnh tranh.

TẠI SAO KHAI THÁC DỮ LIỆU VĂN BẢN LẠI QUAN TRỌNG?

Text mining – Khai thác dữ liệu văn bản có thể được sử dụng để tìm các mẫu đơn giản hoặc phân tích cảm tính phức tạp hơn nhiều. Số liệu thống kê cơ bản có thể được sử dụng cho các phân tích đơn giản như đếm số lần một từ được đề cập hoặc nắm bắt số lượng từ có tất cả các chữ in hoa.

Khi bạn nắm bắt được số liệu thống kê tóm tắt, bạn có thể sử dụng trực quan hóa như biểu đồ thanh để hiển thị các từ xuất hiện thường xuyên nhất bằng đồ họa hoặc các đám mây từ để hiển thị hình ảnh mạnh mẽ về chúng. Điều này đặc biệt hữu ích nếu bạn muốn hiểu được cảm xúc và thái độ xung quanh một sản phẩm hoặc quy trình.

Tin tốt, bạn hoàn toàn có thể khai thác dữ liệu từ văn bản vì nó hiện có sẵn với Tích hợp Python mới trong phiên bản mới nhất của Phần mềm Thống kê Minitab.

VÍ DỤ KHAI THÁC DỮ LIỆU TỪ VĂN BẢN: CÁC BÀI ĐÁNH GIÁ VỀ RƯỢU VÀ TRUY HỒI THÔNG TIN IDF

Để minh họa, chúng ta hãy sử dụng một ví dụ đơn giản về việc phân tích năm đánh giá khác nhau về một loại rượu nhất định. Bằng cách chạy phân tích thông qua Minitab bằng lệnh gọi Python, bạn có thể nhận được một bảng thống kê tóm tắt rất dễ đọc , trông giống như sau:

Như bạn có thể thấy, trong số năm bài đánh giá, từ “wine” xuất hiện ba lần trong khi từ “love” xuất hiện hai lần và tất cả các từ khác chỉ xuất hiện một lần. Phần mềm Minitab cũng cung cấp IDF (Inverse Document Frequency) cho mỗi từ được tính như sau:

IDF = ln (N/DF)

Với N = số lượng quan sát (trong trường hợp này là 5 đối với tổng số 5 đánh giá) và DF = số lượng tài liệu có một từ nhất định xuất hiện.

Về mặt toán học, khi một từ xuất hiện trong tất cả các quan sát, nó sẽ có IDF = 0. Do đó, từ có IDF thấp nhất là từ hiện diện nhiều nhất, trong khi từ chỉ xuất hiện trong một quan sát có IDF lớn nhất có thể.

Trong trường hợp này, rõ ràng là rượu vang có IDF thấp nhất vì nó có mặt nhiều nhất. Dựa trên những thống kê tóm tắt này, chúng ta có thể kết luận rằng nhiều người yêu thích loại rượu này hơn là không, và nhìn chung, các đánh giá đều tích cực.

Đối với những người trong chúng ta là những người trực quan hơn, chúng ta cũng có thể xem phân tích mẫu này trong đám mây từ:

Text mining: Khai thac du lieu tu van ban voi Python tich hop trong Minitab
Khai thác dữ liệu từ văn bản với Minitab

Như bạn có thể thấy, “wine” là từ phổ biến nhất và do đó là từ lớn nhất, nhưng lướt qua từ đám mây sẽ mang lại cho bạn cảm giác tích cực từ các đánh giá tổng thể.

HÃY THỬ THỰC HIỆN TEXT MINING CHO DOANH NGHIỆP CỦA BẠN

Khai thác văn bản được triển khai bằng cách sử dụng kết nối Python mới có sẵn trong phần mềm Minitab. Đừng lo lắng nếu bạn chưa từng sử dụng Python trước đây — chúng tôi cung cấp hướng dẫn cài đặt và sử dụng Python ( tìm mọi thứ bạn cần biết về tích hợp Python tại đây ). Khi tiện ích mở rộng đã được cài đặt thành công, thật dễ dàng để tiếp tục thực hiện các tác vụ khai thác văn bản tiêu chuẩn trong Minitab.

Bạn muốn học cách làm nhiều hơn với Python trong MinitabHãy xem ví dụ trợ giúp của chúng tôi hoặc liên hệ với Minitab Việt Nam để biết thêm thông tin chi tiết và được tư vấn nhanh nhất!

Xem Tích hợp Minitab/Python mới đang hoạt động

Python tich hop trong phien ban minitab moi nhat
Python đã tích hợp trong phiên bản Minitab mới nhất

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *