Tăng tốc tìm kiếm tài nguyên học tập theo nội dung bằng kỹ thuật xử lý dữ liệu lớn

Học tập trực tuyến là một giải pháp khá hữu hiệu trong môi trường giáo dục đào tạo. Tuy

nhiên người học còn gặp nhiều khó khăn trong tìm kiếm tài nguyên học tập do tên các tài nguyên khi

được lưu trữ chưa phản ánh được từ khóa người dùng mong đợi. Vì vậy, làm cách nào để tìm chính

xác các từ khóa trong nội dung tài nguyên học tập thay vì tìm kiếm thông thường từ các meta-data là

rất cần thiết để hỗ trợ người học tiết kiệm thời gian, công sức. Hiện có nhiều nghiên cứu về tìm kiếm

tài nguyên học tập theo nội dung đã cho kết quả khá chính xác, tuy nhiên khi khối lượng tài nguyên

ngày càng tăng thì việc tìm kiếm vận hành khá chậm. Bài viết này đề xuất giải pháp nhằm tăng tốc

tìm kiếm tài nguyên học tập theo nội dung dựa trên các kỹ thuật xử lý dữ liệu lớn. Cụ thể, các kỹ thuật

xử lý văn bản được sử dụng trên nền tảng Hadoop như tách từ tiếng Việt, loại bỏ từ dừng, tính trọng

số TF-IDF (Term Frequency-Inverse Document Frequency), biểu diễn văn bản thành dạng không gian

vectơ, tính độ tương đồng cosine để đo mức độ tương tự của các từ khóa trong tài liệu nhằm trả về tài

liệu có độ tương đồng cao nhất. Thực nghiệm trên một số tài liệu tiếng Việt cho thấy việc xử lý song

song rút ngắn thời gian tìm kiếm hơn rất nhiều so với tìm kiếm truyền thống trong khi độ chính xác

không thay đổi.

8 trang | Chia sẻ: Thục Anh | Lượt xem: 785 | Lượt tải: 1Free

Nội dung tài liệu Tăng tốc tìm kiếm tài nguyên học tập theo nội dung bằng kỹ thuật xử lý dữ liệu lớn, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Trần Thanh Điện, Nguyễn Ngọc Tuấn, Nguyễn Thanh Hải, Nguyễn Thái Nghe 1 Tăng Tốc Tìm Kiếm Tài Nguyên Học Tập Theo Nội Dung Bằng Kỹ Thuật Xử Lý Dữ Liệu Lớn Trần Thanh Điện1, Nguyễn Ngọc Tuấn2, Nguyễn Thanh Hải1, Nguyễn Thái Nghe1 1Khoa Công nghệ Thông tin và Truyền thông, Trường Đại học Cần Thơ {thanhdien,nthai.cit,ntnghe}@ctu.edu.vn 2Ban Phát triển Hệ thống Công nghệ Thông tin, Trường Đại học Trà Vinh [email protected] Tóm tắt. Học tập trực tuyến là một giải pháp khá hữu hiệu trong môi trường giáo dục đào tạo. Tuy nhiên người học còn gặp nhiều khó khăn trong tìm kiếm tài nguyên học tập do tên các tài nguyên khi được lưu trữ chưa phản ánh được từ khóa người dùng mong đợi. Vì vậy, làm cách nào để tìm chính xác các từ khóa trong nội dung tài nguyên học tập thay vì tìm kiếm thông thường từ các meta-data là rất cần thiết để hỗ trợ người học tiết kiệm thời gian, công sức. Hiện có nhiều nghiên cứu về tìm kiếm tài nguyên học tập theo nội dung đã cho kết quả khá chính xác, tuy nhiên khi khối lượng tài nguyên ngày càng tăng thì việc tìm kiếm vận hành khá chậm. Bài viết này đề xuất giải pháp nhằm tăng tốc tìm kiếm tài nguyên học tập theo nội dung dựa trên các kỹ thuật xử lý dữ liệu lớn. Cụ thể, các kỹ thuật xử lý văn bản được sử dụng trên nền tảng Hadoop như tách từ tiếng Việt, loại bỏ từ dừng, tính trọng số TF-IDF (Term Frequency-Inverse Document Frequency), biểu diễn văn bản thành dạng không gian vectơ, tính độ tương đồng cosine để đo mức độ tương tự của các từ khóa trong tài liệu nhằm trả về tài liệu có độ tương đồng cao nhất. Thực nghiệm trên một số tài liệu tiếng Việt cho thấy việc xử lý song song rút ngắn thời gian tìm kiếm hơn rất nhiều so với tìm kiếm truyền thống trong khi độ chính xác không thay đổi. Từ khóa: Tài nguyên học tập, tìm kiếm dựa trên nội dung, dữ liệu lớn, Hadoop MapReduce, độ tương đồng. Abstract. Online learning is a quite effective solution in education and training environment. Howev- er, learners still face many difficulties in searching learning resources because the names of the ar- chived resources do not match the keywords that users expect. Therefore, how to exactly search key- words within the learning resource content instead of the meta-data is essential to support learners saving their time and efforts. Currently, there are a lot of studies on searching based-content learning resources that have given quite accurate results. However, the more the amount of resources increas- es, the more slowly the search returns the results. This study proposes a solution to speed up based- content searching learning resources using big data techniques as Apache Hadoop framework. Specif- ically, the document processing techniques are used such as separating Vietnamese words, removing stop words, representing documents in term of TF-IDF, computing cosine similarity, to measure the similarity of keywords in the document to return the document with the highest similarity. The exper-iments on Vietnamese documents show that parallel processing significantly shortens search time, but the accuracy is similar, compared with traditional search method. Keywords: Learning resources, content-based search, big data, Hadoop MapReduce, similarity. Giới thiệu Trong môi trường đại học, nguồn tài liệu đa dạng, phong phú và khối lượng kiến thức liên tục tăng mỗi năm đòi hỏi sinh viên phải chủ động nhiều hơn trong việc học tập. Thêm vào đó, thời gian học trên lớp thường cả buổi hoặc cả ngày làm sinh viên cảm thấy mệt mỏi và bão hòa với khối lượng kiến thức lớn phải thu nạp. Vì vậy, để việc học tập thực sự có hiệu quả, sinh viên cần phải rèn luyện thói quen và kỹ năng tự học, tự giác tìm kiếm tài liệu, học bằng cách đọc, tổ chức và xử lý thông tin để hiểu các nội dung bài giảng và mở rộng kiến thức của mình. Một trong các kỹ năng tự học là khả năng tìm kiếm các tài liệu 171 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” liên quan đến mục tiêu và nội dung bài học. Một trong những phương pháp quan trọng để thu nhận kiến thức là phải biết sử dụng sách, biết tìm kiếm và chọn tài liệu, nắm vững tài liệu như thế nào để học tập có hiệu quả. Tìm kiếm thông tin là tập hợp các giải pháp nhằm biểu diễn, lưu trữ, cấu trúc và truy xuất thông tin cần thiết. Một hệ thống tìm kiếm thông tin thường có ba thành phần gồm tập dữ liệu sử dụng, các thao tác thực hiện trên văn bản, và phương pháp mô hình hóa [1]. Có nhiều công trình liên quan đến tổ chức, quản lý tài nguyên học tập và tìm kiếm theo nội dung tài liệu [2-6]. Tuy nhiên, hầu hết hệ thống tìm kiếm hiện nay vẫn dựa trên từ khóa được quản trị hệ thống thêm vào hoặc tìm theo tiêu đề của tài liệu, nghĩa là, mỗi tài liệu được biểu diễn bởi một tập từ hay cụm từ được rút trích từ chính nội dung của tài liệu. Do đó, cách biểu diễn này chưa thể hiện được chính xác nội dung của tài liệu. Đặc biệt, đối với người sử dụng ít kinh nghiệm thì khó có thể đặc tả đúng từ khóa cho vấn đề cần tìm kiếm. Ngoài ra, đối với hệ thống tìm kiếm trên, khi khối lượng tài nguyên lớn thì thời gian trả về kết quả tìm kiếm cũng là vấn đề cần được quan tâm. Bài viết này đề xuất giải pháp tìm kiếm tài nguyên học tập dựa trên nội dung văn bản tiếng Việt có sử dụng sức mạnh của xử lý song song và phân tán của một cụm máy tính để xử lý dữ liệu nhằm hỗ trợ người dùng tìm được các tài liệu quan tâm và gợi ý những tài liệu liên quan nhưng tiết kiệm thời gian xử lý. Dữ liệu thực nghiệm được thu thập từ 2.829 tập tin đề cương học phần của Trường Đại học Cần Thơ. Sau khi tiền xử lý, dữ liệu được tải lên master node và được nhân rộng ra các slave node còn lại. Thực nghiệm cho thấy việc tìm kiếm được chính xác hơn với những câu truy vấn là cụm từ tiếng Việt có nghĩa và quá trình tìm kiếm diễn ra nhanh hơn khi ứng dụng mô hình phân tán dữ liệu Apache Hadoop MapRe- duce. 2 Các nghiên cứu liên quan Việc tìm kiếm các tài nguyên học tập đang trở thành nhu cầu tất yếu và thiết thực của người học. Các hệ thống quản lý tài liệu học tập và thư viện điện tử là một trong những hệ thống quan trọng, có ý nghĩa trong việc ứng dụng công nghệ thông tin trong giáo dục. Tuy nhiên, kết quả hiện tại vẫn còn hạn chế và cần được cải thiện để mang lại hiệu quả thiết thực hơn. Thời gian qua, có nhiều nghiên cứu về lĩnh vực tìm kiếm văn bản dựa trên sự tương đồng về nội dung và ngữ nghĩa. Nhóm tác giả [2] đã xây dựng mô hình tổ chức, lưu trữ, quản lý các tài liệu về công nghệ thông tin tiếng Việt trong ba lĩnh vực chính gồm phần mềm, lập trình và mạng máy tính trên các máy tính hỗ trợ tìm kiếm theo ngữ nghĩa. Mô hình này giúp quản lý cơ sở tài liệu có ngữ nghĩa, trong đó có biểu diễn ngữ nghĩa liên quan đến nội dung tài liệu, xây dựng các giải pháp, kỹ thuật biểu diễn và xử lý trong tìm kiếm tài liệu. Một nghiên cứu khác của [3] đề xuất cách tiếp cận tính độ tương đồng văn bản (thực chất là tìm kiếm văn bản) dựa trên kết hợp sự tương đồng cosine và độ tương tự thứ tự từ. Thực nghiệm dựa trên tập dữ liệu là bài báo khoa học tiếng Việt cho thấy phương pháp đề nghị cho kết quả tìm kiếm rất khả quan. Trong nghiên cứu của nhóm tác giả [4], các công cụ big data và các giải tuật tính toán được sử dụng để thu thập, phân tích dữ liệu liên quan đến người học, cung cấp báo cáo, thống kê cho giáo viên cũng như theo dõi quá trình học tập của từng sinh viên. Trong khi đó, [5] trình bày một phương pháp tiếp cận có giám sát dựa trên deep learning để gợi ý các tài liệu tương tự nhau dựa trên sự tương đồng về nội dung. Nhóm tác giả đã kết hợp mô hình C-DSSM (Convolutional Deep Structured Semantic Models) với Word2Vec để tạo ra một mô hình mới nhằm phân loại một cặp tài liệu là có liên quan hoặc không liên quan bằng cách gán trọng số cho nó. Sử dụng HDFS của Hadoop, nhóm tác giả [6] đã đề xuất mô hình quản lý tập dữ liệu văn bản lớn cho phép tìm kiếm toàn văn và phân tích thống kê trực quan. Mô hình này dùng để quản lý tập tin, kết hợp Lucene để lập chỉ mục nghịch đảo cho văn bản tiếng Việt, Apache Solr hỗ trợ cơ chế quản lý chỉ mục nghịch đảo, tìm kiếm toàn văn và một số chức năng tìm kiếm nâng cao và bộ trực quan hóa dữ liệu dựa trên Banana. Dựa trên các kết quả nghiên cứu trước đây, chúng tôi đề xuất giải pháp nhằm tăng tốc tìm kiếm tài nguyên học tập theo nội dung dựa trên các kỹ thuật xử lý dữ liệu lớn big data. Kết quả cho thấy mô hình đề xuất tìm kiếm chính xác hơn và nhanh hơn khi ứng dụng mô hình phân tán dữ liệu Apache Hadoop MapReduce. 172 Trần Thanh Điện, Nguyễn Ngọc Tuấn, Nguyễn Thanh Hải, Nguyễn Thái Nghe 3 Mô hình tìm kiếm tài nguyên học tập theo nội dung Nghiên cứu này chỉ đề cập đến các tài liệu học tập dưới dạng văn bản và bài toán liên quan đến giải pháp tìm kiếm, gợi ý tài liệu học tập theo nội dung của tài liệu tiếng Việt. Nhóm tác giả chỉ tập trung nghiên cứu cách thức xử lý tách từ trong nội dung của tài liệu tiếng Việt, tính trọng số của từ khóa, lập chỉ mục cho tài liệu, cho phép nhận nội dung truy vấn là chuỗi văn bản/tài liệu đang xem và kết quả trả về là các tài liệu mà nội dung có liên quan đến chuỗi truy vấn/tài liệu đang xem của người dùng. Mô hình chung của hệ thống tìm kiếm tài liệu được mô tả như Hình 1, gồm ba bộ phận chính: bộ phận phân tích văn bản, bộ phận lập chỉ mục, bộ phận so khớp và sắp xếp các tài liệu trả về. - Bộ phận phân tích văn bản: có nhiệm vụ phân tích văn bản thu thập được thành các từ riêng biệt. Tương tự, khi người dùng nhập câu truy vấn, câu truy vấn đó cũng được phân tích thành các từ riêng biệt. - Bộ phận lập chỉ mục: các từ được thu thập từ bộ phận phân tích văn bản sẽ được lựa chọn để làm chỉ mục. Các từ chỉ mục phải là các từ thể hiện được nội dung văn bản. Giai đoạn phân tích văn bản, lập chỉ mục được thực hiện trên Hadoop MapReduce nhằm tận dụng sức mạnh xử lý tính toán song song và phân tán trên một cụm máy tính để tiết kiệm thời gian. - Bộ phận so khớp và sắp xếp tài liệu trả về: các từ trích được từ câu truy vấn và các từ trong chỉ mục của văn bản sẽ được so khớp với nhau để tìm ra các tài liệu liên quan đến câu truy vấn. Mỗi tài liệu có độ tương quan với câu truy vấn, các tài liệu này sẽ được sắp xếp theo độ tương quan giảm dần và trả về cho người dùng. Hình 1. Mô hình tìm kiếm tài liệu theo nội dung Để thực hiện tìm kiếm, tài liệu đầu vào gồm câu truy vấn và tài nguyên học tập (tài liệu) được tiền xử lý như để lọc thông tin thừa, chuyển tài liệu về dạng text, chuẩn hóa, tách từ, loại bỏ từ dừng, tính trọng số TF-IDF [7], lập chỉ mục sử dụng mô hình không gian vectơ trước khi tính độ tương đồng cosine để so khớp trả về kết quả tìm kiếm. Quá trình tiền xử lý dữ liệu được sử dụng giải thuật Algorithm 1 [8]. Algorithm 1: Pre-processing for documents Data: InputDocument d Result: Vectorized-Documents D 1 Convertion(d): convert the input document (word/pdf) to text 2 WordNormalization(d): changed to lower cases, removing blanks 173 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” 3 WordSegmention(d): separate document to words 4 RemovingStopWords(d): remove noise words 5 Vectorization(d): convert documents to respectively vectors 6 Return sets of Vectorized-Documents D Tiền xử lý dữ liệu là bước khởi đầu để xử lý các dữ liệu thô được thu thập. Giai đoạn này thực hiện loại bỏ các từ nhiễu có trong văn bản như các biểu tượng, dấu câu, chữ số. Mục đích của giai đoạn này là loại bỏ các thành phần không cần thiết, có ít giá trị trong văn bản nhằm tăng hiệu quả so sánh văn bản [9]. Trong tiếng Việt, dấu cách (space) không có nhiệm vụ tách từ mà chỉ phân cách giữa các âm tiết. Chính vì vậy, giai đoạn tách từ cũng khá quan trọng trong xử lý ngôn ngữ tự nhiên. Hiện nay đã có nhiều tổ chức và cá nhân quan tâm nghiên cứu với nhiều cách tiếp cận khác nhau để xây dựng mô hình tách từ tiếng Việt như: công cụ vnTokenizer sử dụng kết hợp từ điển và n-gram, được xây dựng bằng ngôn ngữ lập trình Java mã nguồn mở, có thể nâng cấp và tích hợp và các hệ thống phân tích văn bản tiếng Việt, có độ chính xác trung bình đạt được trên 97%1; công cụ tác từ JvnTextPro có thể nhận biết được các danh từ riêng, các từ đơn và từ ghép với độ chính xác trung bình khoảng 94,5%2; công cụ tách từ tiếng Việt Un- derthesea dựa trên giải thuật Conditional Random Fields trên bộ dữ liệu VLSP 2013 được xây dựng bằng ngôn ngữ lập trình Python, có thể dễ dàng tích hợp vào hệ thống với độ chính xác trung bình đạt 97,65%3. Trong nghiên cứu này, chúng tôi sử dụng công cụ tách từ có độ chính xác cao Underthesea để giúp cho quá trình tiền xử lý dữ liệu hiệu quả hơn. 4 Thực nghiệm và đánh giá Để phục vụ cho quá trình thử nghiệm, nghiên cứu này đã sử dụng cấu hình máy tính, các máy chủ và phần mềm hỗ trợ được trình bày như Bảng 1, Bảng 2 và Bảng 3. Bảng 1. Thông số phần cứng Stt Thành phần Thông số kỹ thuật 1 CPU Intel® Core™ i5-4460 CPU @ 3.20GHz 2 RAM 8GB 3 Hệ điều hành Ubuntu-19.04-desktop-amd64 4 Bộ nhớ 20GB Bảng 2. Các máy chủ và chức năng của chúng trong hệ thống Máy chủ Tên máy chủ Địa chỉ IP Công việc Master node Master 192.168.50.130 Máy chủ chính chạy Hadoop Slave node 1 Slave1 192.168.50.140 Máy chủ thứ cấp 1 chạy Hadoop Slave node 2 Slave2 192.168.50.141 Máy chủ thứ cấp 2 chạy Hadoop Bảng 3. Các công cụ phần mềm hỗ trợ Stt Tên công cụ Chức năng 1 Underthesea 1.1.17 Tách từ tài liệu tiếng Việt 2 Python 3.6 Ngôn ngữ lập trình 3 Hadoop 3.2.0 Tính toán dữ liệu phân tán 4 Sklearn 0.21.3 Chuyển đổi mô hình không gian vectơ, tính độ tương đồng 5 openjdk-8-jdk Biến môi trường chạy MapReduce 1 vnTokenizer, 2016. Truy cập ngày 03/9/2020, 2 JVnTextPro, 2010. Truy cập ngày 03/9/2020, 3 Underthesea-Vietnamese NLP Toolkit, 2018. Truy cập ngày 03/9/2020, https://github.com/undertheseanlp/underthesea 174 Trần Thanh Điện, Nguyễn Ngọc Tuấn, Nguyễn Thanh Hải, Nguyễn Thái Nghe 4.1 Dữ liệu kiểm thử Mô hình tìm kiếm tài nguyên học tập theo nội dung như trình bày ở Hình 1 có thể sử dụng tìm kiếm sách, giáo trình, slide bài giảng, bài báo khoa học, Trong nghiên cứu này, nhóm tác giả thử nghiệm trên các đề cương học phần có sẵn, tuy nhiên, mô hình có thể áp dụng cho các tài nguyên khác. Tập dữ liệu gồm 2.829 tập tin đề cương học phần của Trường Đại học Cần Thơ4. Sau khi loại bỏ các nội dung không cần thiết (chỉ xem xét tóm tắt của học phần), độ dài trung bình mỗi tài liệu khoảng 85 từ, tổng số lượng từ duy nhất sau khi loại bỏ từ dừng là 7.462 từ. Khi tải dữ liệu lên master node (nút chính) và nhân rộng dữ liệu ra các slave node (nút thứ cấp) còn lại. Có thể truy cập vào địa chỉ của bất kỳ nút nào đang hoạt động để xem thông tin và lấy dữ liệu như Hình 2. Hình 2. Thông tin các nút dữ liệu trong hệ thống Ví dụ, tóm tắt của tài liệu tài liệu học phần Quản lý dự án phần mềm (CT223) như sau: Học phần Quản lý dự án phần mềm trang bị cho sinh viên kiến thức rộng về cách thức quản lý một dự án nói chung và cách thức quản lý một dự án phần mềm nói riêng. Những nội dung chính mà học phần này cung cấp bao gồm các nội dung tổng quan về quản lý dự án, tổ chức trong quản lý dự án, chu trình sống của dự án, tiến trình quản lý dự án. Các lĩnh vực tri thức quan trọng trong quản lý dự án cũng được đề cập một cách cơ bản như quản lý tích hợp, quản lý phạm vi, quản lý thời gian, quản lý chi phí, quản lý chất lượng, quản lý nguồn nhân lực, quản lý truyền thông, quản lý rủi ro, quản lý mua sắm và quản lý các bên tham gia. Với đặc thù trong quản lý dự án phần mềm cũng được đề cập trên cơ sở khung kế hoạch quản lý dự án phần mềm. - Sau quá trình tiền xử lý, tách từ tiếng Việt và loại bỏ từ dùng, tóm tắt học phần CT223 trở thành: Học_phần Quản_lý dự_án phần_mềm trang_bị cho sinh_viên kiến_thức rộng cách_thức quản_lý một dự_án nói_chung cách_thức quản_lý một dự_án phần_mềm nói_riêng Những nội_dung mà học_phần này cung_cấp bao_gồm nội_dung tổng_quan quản_lý dự_án tổ_chức quản_lý dự_án chu_trình sống dự_án tiến_trình quản_lý dự_án Các lĩnh_vực tri_thức quan_trọng quản_lý dự_án được đề_cập một_cách cơ_bản quản_lý tích_hợp quản_lý phạm_vi quản_lý thời_gian quản_lý chi_phí quản_lý chất_lượng quản_lý nguồn nhân_lực quản_lý truyền_thông quản_lý rủi_ro quản_lý mua_sắm quản_lý bên tham_gia Với đặc_thù quản_lý dự_án phần_mềm được đề_cập cơ_sở khung kế_hoạch quản_lý dự_án phần_mềm. - Kết quả tính trọng số TF-IDF cho tóm tắt học phần CT223 như Bảng 4: Bảng 4. Kết quả tính trọng số TF-IDF từ tài liệu “CT223” Từ khóa TF-IDF Từ khóa TF-IDF quản_lý 0.692970 rủi_ro 0.071275 dự_án 0.581888 truyền_thông 0.065379 phần_mềm 0.208774 tri_thức 0.065379 cách_thức 0.110045 đặc_thù 0.064921 đề_cập 0.104074 chu_trình 0.064053 mua_sắm 0.088111 phạm_vi 0.063641 4 Đại học Cần Thơ, 2020. Truy cập ngày 01/7/2020, https://www.ctu.edu.vn/dao-tao/ctdt-dai-hoc.html 175 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” rộng 0.079693 khung 0.061427 nhân_lực 0.076983 một 0.061185 chi_phí 0.076983 nói_riêng 0.056503 tích_hợp 0.072059 kế_hoạch 0.055635 - Khi thực hiện tìm kiếm với câu truy vấn “Quản lý dự án phần mềm”, 10 tài liệu liên quan nhất trả về được sắp xếp theo độ liên quan đến câu truy vấn như ở Bảng 5: Bảng 5. Mẫu kết quả sau khi tìm với câu truy vấn “Quản lý dự án phần mềm” Tài liệu Độ liên quan Tên học phần của tài liệu CT223 0.811875 Quản lý dự án phần mềm PD306 0.576791 Xây dựng và quản lý dự án PTNT HG303 0.548835 Xây dựng và quản lý dự án khuyến nông PD330 0.547207 Xây dựng và Quản lý Dự án PTNT MT264 0.498085 Quản lý công trình xây dựng đô thị HG254 0.487441 Xây dựng và quản lý dự án kinh doanh PD112 0.433498 Phân tích dự án phát triển nông thôn CT251 0.364524 Phát triển ứng dụng trên Windows TS206 0.356161 Xây dựng và thẩm định dự án đầu tư CT171 0.348046 Nhập môn công nghệ phần mềm Tương tự, khi thực hiện tìm kiếm với câu truy vấn “Lập trình web”, 10 tài liệu liên quan nhất trả về được sắp xếp theo độ liên quan đến câu truy vấn như ở Bảng 6: Bảng 6. Mẫu kết quả sau khi tìm với câu truy vấn “Lập trình web” Tài liệu Độ liên quan Tên học phần của tài liệu CT275 0.528944 Công nghệ Web CT176 0.488414 Lập trình Hướng đối tượng CT428 0.426072 Lập trình Web TN252 0.420586 Lập trình hướng đối tượng C++ SG092 0.358756 Lập trình căn bản A CT101 0.358756 Lập trình căn bản A CT276 0.351296 Java SG389 0.347278 Phương pháp dạy học lập trình TV301 0.276203 Thiết kế web TV305 0.238145 Thiết kế web ứng dụng - Đối với tài liệu đang xem, việc gợi ý những tài liệu liên quan cũng giống như các bước thực hiện với câu truy vấn. Ở đây, câu truy vấn được thay thế bởi nội dung của tài liệu đang xem. Chẳng hạn, 10 tài liệu được gợi ý liên quan đến tài liệu “CT223” như mô tả ở Bảng 7. Bảng 7. Kết quả gợi ý những tài liệu liên quan đến tài liệu “CT223” Tài liệu Độ liên quan Tên học phần của tài liệu CT223 1.000000 Quản lý dự án phần mềm PD306 0.584971 Xây dựng và quản lý dự án PTNT HG303 0.579965 Xây dựng và quản lý dự án khuyến nông PD330 0.546038 Xây dựng và quản lý dự án PTNT MT264 0.509238 Quản lý công trình xây dựng đô thị TV137 0.507482 Nhập môn công tác quản lý trong các cơ quan thông tin HG254 0.498863 Xây dựng và quản lý dự án kinh doanh ML360 0.487102 Khoa học Quản lý TS206 0.356161 Xây dựng và thẩm định dự án đầu tư CT171 0.348046 Nhập môn công nghệ phần mềm 176 Trần Thanh Điện, Nguyễn Ngọc Tuấn, Nguyễn Thanh Hải, Nguyễn Thái Nghe 4.2 Đánh giá Nghiên cứu này đã đề xuất giải pháp nhằm tăng tốc tìm kiếm tài nguyên học tập theo nội dung dựa trên các kỹ thuật xử lý dữ liệu lớn dựa trên nền tảng Hadoop cùng các kỹ thuật như tách từ tiếng Việt, loại bỏ từ dừng, tính trọng số TF-IDF, biểu diễn văn bản thành dạng không gian vectơ,... Thực tế cho thấy, hệ thống tìm kiếm dựa trên kỹ thuật Hadoop MapReduce có kết quả xử lý tìm kiếm tốt hơn nhiều so với hệ thống tìm kiếm thông thường do sức mạnh của xử lý song song và phân tán của một cụm máy tính để xử lý dữ liệu. Về tốc độ thực thi khi xử lý toàn bộ tài liệu, quá trình thực nghiệm cho ra các kết quả khi triển khai việc xử lý dữ liệu với 2.829 tập tin đề cương học phần của Trường Đại học Cần Thơ với số lượng máy chủ tăng dần từ 1 đến 3 máy chủ. Nhóm nghiên cứu đã đo lường thời gian thực hiện như Bảng 8. Bảng 8. So sánh thời gian thực hiện xử lý dữ liệu Stt Số lượng máy chủ Thời gian thực hiện (phút) 1 Xử lý trên 01 máy chủ 53 2 Xử lý trên 02 máy chủ 39 3 Xử lý trên 03 máy chủ 23 Bảng 8 cho thấy với số lượng tài liệu cố định, nếu số lượng máy chủ tham gia tăng lên thì thời gian xử lý giảm dần. Vậy nên việc áp dụng Hadoop MapReduce là một giải pháp tích cực trong việc xử lý các tài liệu phân tán trên nhiều máy chủ khác nhau. 5 Kết luận và hướng phát triển Trong nghiên cứu này, nhóm tác giả đã đề xuất giải pháp giúp tăng tốc tìm kiếm tài nguyên học tập dựa trên các kỹ thuật xử lý dữ liệu lớn big data sử dụng nền tảng Hadoop MapReduce kết hợp với các kỹ thuật xử lý văn bản. Thực nghiệm trên tài liệu tiếng Việt đã cho thấy nền tảng Hadoop MapReduce rút ngắn đáng kể thời gian tìm kiếm, gợi ý tài liệu học tập. Ngoài ra, nhóm nghiên cứu cũng gợi ý những tài liệu liên quan với tài liệu mà người dùng đang xem. Các nghiên cứu trong tương lai cần tiếp tục hoàn thiện các bước trong quá trình xử lý dữ liệu, đặc biệt là cải tiến tốc độ xử lý và sử dụng bộ dữ liệu lớn hơn, kết hợp giải pháp tìm kiếm, gợi ý tài liệu theo nội dung với tìm kiếm theo ngữ nghĩa để cải thiện kết quả tìm kiếm. Ngoài ra, cần có nhiều thực nghiệm trên hệ thống tìm kiếm thông thường và hệ thống xử lý song song sử dụng nền tảng Hadoop và các kỹ thuật khác, từ đó phân tích, đánh giá và đề xuất giải pháp phù hợp nhất để có thể ứng dụng vào hệ các thống thư viện điện tử, hệ thống website chia sẻ tài nguyên học tập, Tài liệu tham khảo 1. Baeza-Yates, R., Ribeiro-Neto, B.: Modern Information Retrieval. Addison Wesley Longman. Boston, MA, USA (1999). 2. Nguyễn Hữu Vinh: Giải pháp tìm kiếm ngữ nghĩa cho văn bản khoa học máy tính tiếng Việt. Tạp chí Khoa học Đại học Đà Lạt. 7(3), 298-328 (2017). 3. Dien T.T., Han H.N., Thai-Nghe N.: An Approach for Plagiarism Detection in Learning Resources. In: Dang T., Küng J., Takizawa M., Bui S. (eds.). Future Data and Security Engineering. FDSE 2019. Lecture Notes in Com- puter Science, vol 11814. Springer, Cham (2019). 4. Qbadou, M., Salhi, I., Mansouri, K.: Towards an educational recommendation system based on big data tech- niques-case of Hadoop. 2018 4th International Conference on Optimization and Applications (ICOA) (2018). 5. Nikhil, N., Srivastava, M.: Content based document recommender using deep learning. 2017 International Con- ference on Inventive Computing and Informatics (ICICI). IEEE Xplore Compliant - Part Number: CFP17L34- ART, ISBN: 978-1-5386-4031-9 (2017). 6. Nguyễn Hùng Dũng, Trương Xuât Việt, Trương Quốc Định, Nguyễn Hoàng Việt: Mô hình quản lý tập dữ liệu văn bản lớn cho phép tìm kiếm toàn văn và phân tích thống kê trực quan. Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR) (2016). 177 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” 7. Jabri, S., Dahbi, A., Gadi, T., Bassir, A.: Ranking of text documents using TF-IDF weighting and association rules mining. 2018 4th International Conference on Optimization and Applications (ICOA) (2018). 8. Dien, T.T., Hai, N.T., Thai-Nghe, N.: Deep Learning Approach for Automatic Topic Classification in an Online Submission System. Advances in Science, Technology and Engineering Systems Journal. 5(4), 700-709 (2020). 9. Bilalli, B., Abelló, A., Aluja-Banet, T., Wrembel, R.: Intelligent assistance for data pre-processing. Computer Standards & Interfaces. 57, 101-109 (2018). 178

Các file đính kèm theo tài liệu này:

tang_toc_tim_kiem_tai_nguyen_hoc_tap_theo_noi_dung_bang_ky_t.pdf