Ứng dụng mạng phức hợp trong khai phá dữ liệu tương tác người dùng

Một hệ thống thông tin quản lý là sản phẩm tin học hóa các quy trình nghiệp vụ của một tổ chức, doanh nghiệp. Bằng việc sử dụng phương pháp mô hình hoá và phân tích hệ thống theo tiếp cận mạng lưới, bài báo phân tích một mạng phức hợp về dữ liệu tương tác người dùng của hệ thống thông tin quản lý. Dữ liệu là một mạng có hướng gồm 1292 nốt và 968706 cạnh. Kết quả phân tích thu được 16 môđun, 19 lớp core, số bậc trung bình của mỗi nốt là 19,15, với phương sai = 409,37, độ lệch chuẩn = 20,23, hệ số phân cụm trung bình là 0.482. Từ đó đưa ra phân tích về cấu trúc các môđun, mối liên hệ giữa các môđun cũng như đặc điểm của lõi mạng dữ liệu. Chúng tôi phát hiện rằng từ dữ liệu tương tác email có thể xác định được các nhóm chức năng và cấu trúc tổ chức của một trường đại học bằng thuật toán modularity cực đại. Ngoài ra kết qủa phân tích K-Core trên hệ thống có thể dùng để tham khảo cho việc xếp lương cho người lao động theo từng lớp lõi của hệ thống. Kết quả thu được có thể dùng để thẩm định tính hợp lý của hệ thống và hỗ trợ thiết kế quy trình

7 trang | Chia sẻ: Thục Anh | Lượt xem: 1026 | Lượt tải: 1Free

Nội dung tài liệu Ứng dụng mạng phức hợp trong khai phá dữ liệu tương tác người dùng, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00224 ỨNG DỤNG MẠNG PHỨC HỢP TRONG KHAI PHÁ DỮ LIỆU TƢƠNG TÁC NGƢỜI DÙNG Nguyễn Minh Tân1, Trần Tiến Dũng2 1 Trung tâm Thông tin thƣ viện, Trƣờng Đại học Công nghiệp Hà Nội 2Khoa Công nghệ thông tin, Trƣờng Đại học Công nghiệp Hà Nội [email protected], [email protected] TÓM TẮT: Một hệ thống thông tin quản lý là sản phẩm tin học hóa các quy trình nghiệp vụ của một tổ chức, doanh nghiệp. Bằng việc sử dụng phương pháp mô hình hoá và phân tích hệ thống theo tiếp cận mạng lưới, bài báo phân tích một mạng phức hợp về dữ liệu tương tác người dùng của hệ thống thông tin quản lý. Dữ liệu là một mạng có hướng gồm 1292 nốt và 968706 cạnh. Kết quả phân tích thu được 16 môđun, 19 lớp core, số bậc trung bình của mỗi nốt là 19,15, với phương sai = 409,37, độ lệch chuẩn = 20,23, hệ số phân cụm trung bình là 0.482. Từ đó đưa ra phân tích về cấu trúc các môđun, mối liên hệ giữa các môđun cũng như đặc điểm của lõi mạng dữ liệu. Chúng tôi phát hiện rằng từ dữ liệu tương tác email có thể xác định được các nhóm chức năng và cấu trúc tổ chức của một trường đại học bằng thuật toán modularity cực đại. Ngoài ra kết qủa phân tích K-core trên hệ thống có thể dùng để tham khảo cho việc xếp lương cho người lao động theo từng lớp lõi của hệ thống. Kết quả thu được có thể dùng để thẩm định tính hợp lý của hệ thống và hỗ trợ thiết kế quy trình. Từ khóa: Mạng phức hợp, khai phá đồ thị, tính môđun, K-core, phân bố bậc, hệ số phân cụm. I. MỞ ĐẦU Mạng phức hợp là đồ thị đại diện cho các kết nối phức tạp giữa các yếu tố trong nhiều hệ thống tự nhiên và nhân tạo [1]. Cách tiếp cận mạng lƣới không chỉ hữu ích cho việc đơn giản hóa và hình dung số lƣợng dữ liệu khổng lồ mà còn hiệu quả trong việc tìm ra các yếu tố quan trọng nhất và tìm ra các tƣơng tác quan trọng nhất của chúng. Các ứng dụng gần đây của các phƣơng pháp mạng phức hợp bao gồm các lĩnh vực khá đa dạng nhƣ khí hậu học, động lực học chất lỏng, sinh lý thần kinh, kỹ thuật, và kinh tế từ đó chứng minh đƣợc tiềm năng to lớn của mạng lƣới thời gian để giải quyết các vấn đề khoa học đƣơng đại trong thế giới thực [2]. Andor Háznagy và cộng sự sử dụng phƣơng pháp mạng phức hợp để phân tích hệ thống giao thông công cộng đô thị của 5 thành phố ở Hungary. Kết quả phân tích cho thấy đƣợc những đặc điểm tƣơng đồng và khác biệt trong cách tổ chức giao thông, những điểm xung đột, kém hiệu quả từ đó đề xuất phƣơng án điều phối hoạt động giao thông đƣợc hiệu quả [3]. Phân cụm là một kỹ thuật quan trọng trong khai phá dữ liệu. Từ một cơ sở dữ liệu ta nhóm các đối tƣợng có cùng tính chất với nhau, từ đó ta đƣợc các cụm dữ liệu. Việc phân cụm dữ liệu đƣợc tiến hành khá sớm trong lĩnh vực nhân học rồi sau đó đƣợc mở rộng sang lĩnh vực tâm lý học bởi Zubin 1938 [4]. Ngày nay kỹ thuật phân cụm đƣợc sử dụng phổ biến trong một số hoạt động nhƣ: hỗ trợ tiền xử lý dữ liệu, nhận dạng mẫu, phân loại khách hàng, nhận dạng đối tƣợng, phân đoạn hình ảnh [5]. Trên thực tế các bài toán xử lý dữ liệu thì dữ liệu đầu vào thƣờng có nhiễu, nhiều tác giả đã sử dụng kỹ thuật phân cụm với tập mờ loại 2 để giải quyết vấn đề này [6, 7]. Chúng ta có thể sử dụng kỹ thuật phân cụm để khai phá dữ liệu, tìm ra những đặc tính đặc trƣng của từng cụm giúp cho việc phát hiện ra tri thức mới. Đặc biệt ngày nay chúng ta có những bộ dữ liệu siêu lớn nhƣ Facebook, Google, Twitter nếu khai thác tốt sẽ mang lại rất nhiều tri thức quý giá [8]. Hiện nay đã có nhiều thuật toán phân cụm dữ liệu lớn dựa trên những thuật toán và ứng dụng khác nhau đƣợc áp dụng [9]. Bài báo này sẽ mô hình hoá bộ dữ liệu email bằng một mạng lƣới và phân tích hệ thống theo tiếp cận mạng lƣới bằng các thuật toán phân cụm K-core và modularity cực đại. Tìm ra các cụm dữ liệu, phân tích tính môđun để tìm ra các tri thức mới. Đây là một kỹ thuật phân tích mới giúp hiểu rõ về kiến trúc hệ thống và hỗ trợ thiết kế quy trình nghiệp vụ. II. DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU ĐẦU 2.1. Dữ liệu và xử lý dữ liệu Bài báo khai phá dữ liệu của hệ thống email quản lý hành chính điện tử của Trƣờng Đại học Công nghiệp Hà Nội (eGov). Tập dữ liệu đơn giản chỉ có 02 trƣờng kiểu văn bản: ID ngƣời gửi và ID ngƣời nhận giao dịch trong khoảng thời gian từ 01/01/2015 đến 16/9/2016. ID ngƣời gửi/nhận cho biết tên đơn vị cũng nhƣ cho phép xác định chức năng, nhiệm vụ của đơn vị ngƣời gửi/nhận đang công tác. Từ bộ dữ liệu đơn giản này, chúng tôi xây dựng một mạng dữ liệu eGov là một đồ thị có hƣớng mô tả thông tin ngƣời gửi gửi tin đến ngƣời nhận qua email. Mỗi nút mạng (đỉnh) biểu diễn một ngƣời gửi/nhận. Hai nút mạng A và B bất kỳ nối với nhau bằng 01 cung có hƣớng từ A B nếu nhƣ A gửi email cho B. Dữ liệu ban đầu khi chƣa qua tiền xử lý là một đồ thị có hƣớng, bao gồm 1.292 nút và 1.000.000 cạnh. Qua phân tích thấy dữ liệu eGov tồn tại 3 loại nhiễu, không thể hiện đƣợc mối quan hệ công việc: Loại 1: Ngƣời gửi và ngƣời nhận trùng nhau. Loại 2: Ngƣời gửi gửi tin nhắn đại chúng (broadcast). 650 ỨNG DỤNG MẠNG PHỨC HỢP TRONG KHAI PHÁ DỮ LIỆU TƢƠNG TÁC NGƢỜI DÙNG Loại 3: Các thƣ lạc hoặc tƣơng tác có số lƣợng thƣ quá ít, thƣ không thể hiện đƣợc mối quan hệ công việc. Nhiễu ở loại 1 đƣợc xử lý nhƣ sau: So sánh Id ngƣời gửi và Id ngƣời nhận để kiểm tra xem có trùng nhau hay không. Đánh dấu và xoá các trƣờng hợp trùng nhau. Sau khi xử lý, bộ dữ liệu còn 968.706 cạnh. Nhiễu ở loại 2 đƣợc xử lý nhƣ sau: Đầu tiên, xác định số lƣợng ngƣời trong đơn vị. Sau đó, tính xem ở mỗi lần gửi, ngƣời gửi gửi tin đến bao nhiêu ngƣời. Cuối cùng, loại những trƣờng hợp gửi tin đến vƣợt quá số lƣợng ngƣời trong đơn vị của ngƣời đó. Nhiễu ở loại 3 đƣợc xử lý nhƣ sau: Đầu tiên, tính xem số lần gửi tin cho nhau của mỗi cặp hai ngƣời là bao nhiêu. Sau đó sẽ đƣa mạng dữ liệu vừa xử lý vào phần mềm phân tích mạng Gephi để lọc những trƣờng hợp tƣơng tác một chiều bằng cách sử dụng bộ lọc Mutual Edge. Sau khi loại bỏ những trƣờng hợp tƣơng tác một chiều, chúng tôi thu đƣợc một mạng có hƣớng, có trọng số. Sau khi đã loại bỏ các tƣơng tác một chiều, chúng tôi đã tạo một mạng vô hƣớng bằng cách cộng tổng trọng số của hai chiều liên kết của mạng có hƣớng hiện tại. Biểu đồ histogram phân bố trọng số mạng lƣới nhƣ Hình 1. Sau khi đã loại bỏ các tƣơng tác một chiều, ta tạo một mạng vô hƣớng bằng cách cộng tổng trọng số của hai chiều liên kết của mạng có hƣớng hiện tại. Hình 1. Biểu đồ histogram phân bố trọng số mạng lƣới sau khi cộng tổng trọng số của hai chiều liên kết Mạng dữ liệu eGov sau khi xử lý các trƣờng hợp gây nhiễu bao gồm 1.163 nốt và 11.136 cạnh. Trong đó, mỗi ngƣời đại diện cho một nốt, hai nốt trong mạng đƣợc kết nối với nhau trong hệ thống eGov. 2.2. Mô hình hoá dữ liệu Để mô hình hoá mạng lƣới eGov ta sử dụng phần mềm Gephi, trƣớc tiên từ dữ liệu ban đầu ta sẽ tạo hai file định dạng *.csv chứa danh sách các nốt và danh sách các cạnh cần biểu diễn. Sau đó lần lƣợt đƣa file chứa dữ liệu các nốt và các cạnh vào Gephi để tạo mạng lƣới. Hình ảnh mạng lƣới eGov đƣợc mô hình hóa cho ra kết quả nhƣ Hình 2. Hình 2. Mạng lƣới eGov đƣợc xây dựng từ dữ liệu email gồm 02 trƣờng: ID người gửi, ID người nhận 2.3. Thuật toán phân tích dữ liệu email trên đồ thị Bài báo sử dụng thuật toán K-core để phân tích bộ dữ liệu. Thuật toán dùng để cài đặt đƣợc mô tả nhƣ sau: Khởi tạo danh sách chứa kết quả đầu ra L. Nguyễn Minh Tân, Trần Tiến Dũng 651 Tính số bậc của mỗi đỉnh v trong G, là số lƣợng các đỉnh kề với v mà chƣa có trong L. Khởi tạo một mảng D sao cho D[i] chứa một danh sách các đỉnh v không có trong L mà dv = i. Khởi tạo biến k bằng 0. Lặp lại n lần: Quét các giá trị trong mảng D[0], D[1], cho đến khi tìm đƣợc i mà D[i] không rỗng. Gán k = max(k, i) Chọn một đỉnh v từ D[i]. Thêm v vào đầu mảng L và xoá đỉnh v khỏi D[i]. Với mỗi đỉnh kề w của v mà chƣa có trong L, trừ dw đi 1 và di chuyển đỉnh w tới vị trí trong mảng D tƣơng ứng với dw. Kết thúc thuật toán, k sẽ chứa độ phân rã của G (K-Core max), L sẽ chứa một danh sách các đỉnh đƣợc sắp xếp theo thứ tự giá trị độ phân rã tăng dần. III. KẾT QUẢ VÀ THẢO LUẬN 3.1. Môđun của hệ thống Sau khi mạng lƣới đƣợc tạo ra, chúng tôi dùng thuật toán moduarity cực đại [10] để phát hiện các môđun (cụm) trong mạng lƣới eGov. Kết quả có 16 môđun đƣợc phát hiện đánh số thứ tự từ 0 đến 15 nhƣ Hình 3. Hình 3. 16 môđun của mạng eGgov đƣợc phát hiện bằng thuật toán modularity cực đại Bảng 1. Bảng liệt kê các môđun trong hệ thống Module ID Nodes Edges % 11 199 1719 17,11 8 167 1037 14,36 1 103 675 8,86 0 96 889 8,25 2 96 630 8,25 3 75 527 6,45 12 72 359 6,19 6 64 364 5,50 14 55 212 4,73 4 53 316 4,56 9 44 140 1,26 5 39 128 3,35 13 39 387 3,35 7 32 190 2,75 10 20 76 1,72 15 9 14 0,77 Bảng 1 liệt kê các môđun trong hệ thống, đi kèm với số phần trăm của số lƣợng nốt trong từng môđun theo thứ tự giảm dần. Trong Bảng 1, có thể thấy môđun lớn nhất là môđun 11, lớn thứ hai là môđun 8, nhỏ nhất là môđun 15. Sau khi đối chiếu từng môđun với danh sách cán bộ của từng đơn vị, chúng tôi nhận thấy hầu hết các môđun của mạng 652 ỨNG DỤNG MẠNG PHỨC HỢP TRONG KHAI PHÁ DỮ LIỆU TƢƠNG TÁC NGƢỜI DÙNG chính là các đơn vị chức năng trong trƣờng. Điều này cho thấy rằng các môđun của dữ liệu email phát hiện bởi thuật toán phản ánh các chức năng hoạt động của một hệ thống thực tế. Nói cách khác, từ dữ liệu email có thể xác định đƣợc các nhóm chức năng của hệ thống thực bằng thuật toán modularity cực đại. Đặc biệt, có một vài môđun nhƣ Môđun 11 bao gồm 4 đơn vị, số lƣợng ngƣời chiếm phần lớn từ khoa Ngoại ngữ với 195 ngƣời (Hình 4); môđun 8 bao gồm 25 đơn vị, số lƣợng ngƣời đƣợc phân bố chủ yếu ở các trung tâm (Hình 5). Các môđun này khác biệt với các môn đun khác, đóng vai trò liên kết các môđun khác ở trong mạng lƣới. Hình 6 là một đồ thị vô hƣớng có trọng số mô tả sự liên kết giữa các môđun với nhau. Trong đó các nốt sẽ đại diện cho các môđun, hai môđun đƣợc coi là có liên kết với nhau nếu tồn tại đơn vị chung giữa hai môđun, trọng số của hai môđun liên kết với nhau đƣợc tính bằng số lƣợng các đơn vị chung giữa hai môđun. Các nốt có bậc cao sẽ có màu đậm hơn các nốt có bậc thấp và nếu hai môđun có trọng số cạnh nối giữa chúng càng cao thì cạnh đó đƣợc vẽ càng đậm. Hình 8 cho thấy, môđun 5 và môđun 7 độc lập với các môđun khác và tách biệt khỏi hệ thống. Môđun 8 có số bậc cao nhất (có số lƣợng các môđun chung với các môđun khác là nhiều nhất), đóng vai trò là trung tâm của mạng và có ảnh hƣởng phần lớn đến các môđun còn lại trong mạng [11]. Môđun 2, môđun 8 và môđun 14 tạo thành một tam giác liên kết chặt chẽ với nhau, đặc biệt là hai môđun 2 và môđun 8. Môđun 11 bao gồm 4 đơn vị, số lƣợng ngƣời chiếm phần lớn từ khoa Ngoại ngữ với 195 ngƣời (Hình 4). Hình 4. Các đơn vị trong môđun 11 Môđun 8 bao gồm 25 đơn vị, số lƣợng ngƣời đƣợc phân bố chủ yếu ở các trung tâm (Hình 5). Hình 5. Các đơn vị trong môđun 8 3.2. Kết quả phân tích K-core Core của một hệ thống là một cụm bộ phận đại diện cho các chức năng cơ bản của cả hệ thống. Nói chung, các mạng có thể đƣợc phân tách thành lõi dày đặc và ngoại vi đƣợc kết nối lỏng lẻo bằng cách sử dụng phƣơng pháp phân rã mạng. Phân rã lõi K dựa trên bậc của nút thƣờng đƣợc sử dụng để xác định các tập hợp con cụ thể của mạng, đƣợc gọi là lõi k (k ≥ 1), trong đó k biểu thị mức lõi [12]. Lõi k của mạng G bao gồm một tập hợp con các nút trong mạng G, đƣợc lấy theo quy tắc cắt tỉa sau. Với một mạng, tất cả các nút có bậc < k đƣợc loại bỏ, cùng với các tƣơng tác đi qua của chúng, khỏi mạng. Quá trình loại bỏ này đƣợc lặp lại cho đến khi bậc của mọi nút trong mạng còn lại là ≥ k. Lõi k biểu thị tập hợp các nút còn lại và do đó, lõi k1 là tập con của lõi k2 nếu k1 ≥ k2. Dựa trên định nghĩa K-Core của một mạng lƣới với K là số bậc tối thiểu của các nút lõi, chúng tôi đã tìm ra mạng dữ liệu eGov có chỉ số K-Core tối đa bằng K=19. Nói cách khác, hệ thống dữ liệu email có 19 cụm core nhƣ Hình 7. Trong Hình 7, các nốt có chỉ số K-Core thấp Nguyễn Minh Tân, Trần Tiến Dũng 653 sẽ nằm ở vị trí bên rìa của hệ thống và có màu tối. Càng vào bên trong lõi hệ thống, các nốt có chỉ số K-Core cao hơn và màu nóng hơn. Nói cách khác, các nốt nằm ở bên trong lõi hệ thống có số bậc cao hơn các nốt ở xung quanh và nắm vai trò chức năng cơ bản của hệ thống. Bảng 2 liệt kê danh sách 27/47 đơn vị xuất hiện trong lõi của hệ thống, đƣợc sắp xếp theo thứ tự bảng chữ cái và tỉ lệ % tham gia K-Core trong cùng của từng đơn vị. Lõi trong cùng gồm 27 đơn vị chức năng bao gồm: Ban Giám hiệu, Khoa, Phòng, Trung tâm, và Viện nghiên cứu là các chức năng chủ chốt của một trƣờng đại học. Nói cách khác, những ngƣời nằm trong lõi là đối tƣợng tác nghiệp chủ chốt của trƣờng đại học. Có thể ứng dụng kết quả phân tích này để xếp lƣơng cho cán bộ nhân viên trong trƣờng với 19 bậc lƣơng tƣơng ứng với 19 lớp lõi. Hình 6. Sự liên kết giữa các môđun trong mạng dữ liệu eGov Hình 7. Mạng dữ liệu Egov đƣợc phân lớp theo chỉ số K-Core Bảng 2. Danh sách các đơn vị thuộc vào lõi trong cùng của hệ thống STT Tên đơn vị % 1 Ban Giám hiệu 25,00 2 Khoa Công nghệ may & Thiết kế thời trang 2,90 3 Khoa Cơ khí 3,80 4 Khoa Công nghệ hoá 8,10 5 Khoa Công nghệ Ô tô 2,70 6 Khoa Công nghệ thông tin 5,00 7 Khoa Điện 2,70 8 Khoa Điện tử 4,60 9 Khoa Du lịch 4,10 10 Khoa Giáo dục thể chất 7,60 11 Khoa Kế toán - Kiểm toán 2,20 12 Khoa Lý luận chính trị - Pháp luật 2,40 13 Khoa Ngoại ngữ 1,40 14 Khoa Quản lý kinh doanh 1,90 15 Phòng Đào tạo 68,40 16 Phòng Hợp tác quốc tế 50,00 654 ỨNG DỤNG MẠNG PHỨC HỢP TRONG KHAI PHÁ DỮ LIỆU TƢƠNG TÁC NGƢỜI DÙNG STT Tên đơn vị % 17 Phòng Khoa học công nghệ 80,00 18 Phòng Tài chính - Kế toán 16,67 19 Phòng Thanh tra giáo dục 11,11 20 Phòng Tổ chức - Hành chính 47,60 21 Trung tâm Đánh giá Kỹ năng nghề và Quan hệ doanh nghiệp 62,50 22 Trung tâm Công nghệ thông tin 11,70 23 Trung tâm Đào tạo quốc tế 42,80 24 Trung tâm Đào tạo sau Đại học 33,33 25 Trung tâm Quản lý chất lượng 9,50 26 Trung tâm Việt - Hàn 6,80 27 Viện Công nghệ - HaUI 16,67 3.3. Kết quả phân tích phân bố số bậc Số bậc trung bình của mỗi nốt là 19,15, với phƣơng sai = 409,37, độ lệch chuẩn = 20,23, số bậc thấp nhất và cao nhất tƣơng ứng là 1 và 151. Nhƣ vậy trung bình mỗi ngƣời sẽ tƣơng tác với khoảng 19 ngƣời khác, ít nhất là 1 và nhiều nhất là 151. Biểu đồ Scatter thể hiện sự phân phối các bậc trong mạng lƣới nhƣ Hình 8. Trong biểu đồ hầu hết các nốt có số bậc tập trung từ 1 đến 30. Nhƣng có tồn tại một số ít các nốt có số bậc trên 60. Nhƣ vậy, theo biểu đồ và lý thuyết đã đề cập ở trên thì mạng lƣới dữ liệu eGov thuộc dạng mạng Scale-free với các tính chất về sự miễn dịch, khoảng cách, thẩm thấu đã đƣợc đề cập trong [13]. Hình 8. Biểu đồ scatter thể hiện sự phân phối các bậc trong mạng lƣới 3.4. Kết quả về mối tương quan giữa hệ số phân cụm và số bậc Hệ số phân cụm (Ci) chỉ ra sự gắn kết cục bộ của một nốt hay xác suất để hai ngƣời tƣơng tác với một ngƣời thứ ba cũng trực tiếp tƣơng tác với nhau. Một giá trị (Ci) lớn có nghĩa là nốt i có kết nối chặt chẽ với một hệ thống các nốt kề nó hơn. Trong khi đó hệ số phân cụm trung bình (C) đo mật độ của toàn bộ các nốt trong mạng. Hệ số phân cụm trung bình (C) của mạng dữ liệu eGov là 0,482. Hệ số phân cụm của một nốt phản ánh sự kết nối tới các nốt kề với nó. Nếu chọn hai nốt kề của một nốt bất kỳ trong mạng dữ liệu eGov thì có khả năng là hai nốt kề đó sẽ kết nối trực tiếp với nhau là 48,2 %, do hệ số phân cụm trung bình (C) của mạng dữ liệu eGov là 0,482. Hình 9. Biểu đồ scatter mô tả sự tƣơng quan giữa hệ số phân cụm và số bậc Theo Hình 9, mạng lƣới có thể đƣợc chia ra làm 02 phần. Phần một khi giá trị của số bậc nhỏ hơn 60, có các kết nối dày đặc. Phần thứ hai khi giá trị của số bậc lớn hơn 60, thể hiện sự tƣơng quan âm giữa hệ số phân cụm với số bậc, hệ số phân cụm giảm xuống một cách nhanh chóng, nơi có các kết nối thƣa hơn và có xu hƣớng tuyến tính. Các nốt liên kết trực tiếp với các nốt hub thì thƣờng ít tƣơng tác với nhau. Nguyễn Minh Tân, Trần Tiến Dũng 655 IV. KẾT LUẬN Bài báo đã phân tích mạng dữ liệu eGov bằng phƣơng pháp tiếp cận mạng lƣới. Trong đó, mạng dữ liệu eGov đƣợc tạo thành bởi sự kết hợp các nốt đại diện cho các cán bộ giáo viên và đƣợc liên kết bởi các cạnh đại diện cho sự tƣơng tác giữa các cán bộ giáo viên trong trƣờng. Đặc điểm tôpô của mạng dữ liệu cho thấy mạng dữ liệu eGov thuộc dạng mạng Scale-Free, đƣợc đặc trƣng bởi có các hub lớn, nơi có các nốt có bậc cao hơn so với các nốt khác trong mạng và đại diện cho những ngƣời có tầm ảnh hƣởng lớn trong trƣờng. Các kết quả phân tích kiến trúc có thể đƣợc tóm tắt nhƣ nhƣ sau: Mạng dữ liệu eGov thuộc dạng mạng Scale-Free. Mạng dữ liệu đƣợc chia ra làm 16 môđun, trong đó môđun 8 là trung tâm, môđun 5 và môđun 7 độc lập với hệ thống. Môđun 11 có số lƣợng ngƣời nhiều nhất. Mạng dữ liệu có số K-Core lớn nhất là 19. Có 20/47 đơn vị thuộc vào vị trí lõi trong hệ thống. Mỗi môđun thƣờng có 2 đến 3 ngƣời là “leader” quản lý môđun đó, riêng môđun 2, môđun 8 và môđun 14 là ngoại lệ; ba môđun này có liên hệ mật thiết với nhau và có kiến trúc rất bền vững. Trung bình mỗi ngƣời sẽ tƣơng tác với khoảng 19 ngƣời khác, ít nhất là 1 và nhiều nhất là 151. Xác suất để hai ngƣời cùng tƣơng tác với một ngƣời thứ ba cũng tƣơng tác trực tiếp với nhau là 48,2 %. V. TÀI LIỆU THAM KHẢO [1] Hossain, M. M. and S. Alam, “A complex network approach towards modeling and analysis of the Australian Airport Network”. Journal of Air Transport Management, 60: pp. 1-9, 2017. [2] Zou, Y., et al., “Complex network approaches to nonlinear time series analysis”. Physics Reports, 787: pp. 1-97, 2019. [3] Háznagy, A., et al. “Complex network analysis of public transportation networks: A comprehensive study”. in 2015 International Conference on Models and Technologies for Intelligent Transportation Systems (MT-ITS), 2015. [4] Zubin, J., “A technique for measuring like-mindedness”. The Journal of Abnormal and Social Psychology, 33(4): pp. 508-516, 1938. [5] Saxena, A., et al., “A review of clustering techniques and developments”. Neurocomputing, 2017. 267: pp. 664- 681. [6] Linda, O. and M. Manic, “General Type-2 Fuzzy C-Means Algorithm for Uncertain Fuzzy Clustering”. IEEE Transactions on Fuzzy Systems, 20(5): pp. 883-897, 2012. [7] Melin, P. and O. Castillo, “A review on type-2 fuzzy logic applications in clustering, classification and pattern recognition”. Applied Soft Computing, 21: pp. 568-577, 2014. [8] Havens, T. C., et al., “Fuzzy c-Means Algorithms for Very Large Data”. IEEE Transactions on Fuzzy Systems, 20(6): pp. 1130-1146, 2012. [9] Bharill, N., A. Tiwari, and A. Malviya, “Fuzzy Based Scalable Clustering Algorithms for Handling Big Data Using Apache Spark”. IEEE Transactions on Big Data, 2(4): pp. 339-352, 2016. [10] Tran, T.-D. and Y.-K. Kwon, “The relationship between modularity and robustness in signalling networks”. Journal of The Royal Society Interface, 10(88): pp. 20130771, 2013. [11] Truong, C.-D., T.-D. Tran, and Y.-K. Kwon, “MORO: a Cytoscape app for relationship analysis between modularity and robustness in large-scale biological networks”. BMC Systems Biology, 10(4): pp. 122, 2016. [12] Tran, T.-D. and Y.-K. Kwon, “Hierarchical closeness-based properties reveal cancer survivability and biomarker genes in molecular signaling networks”. PLOS ONE, 13(6): pp. e0199109, 2018. [13] Broido, A. D. and A. Clauset, “Scale-free networks are rare”. Nature Communications, 10(1): pp. 1017.Author1_Name, Author2_Name, Web Caching and Replication, Addison-Wesley(Publication_ Name), USA, 2014, 2019. APPLYING COMPLEX NETWORK IN MINING USER INTERACTION DATA Nguyen Minh Tan, Tran Tien Dung ABSTRACT: A management information system is a computerized product of an organization's or enterprise's business processes. By using the system modeling and analysis method according to network approach, the paper analyzes a complex network of user interaction data of management information system. The data is a directed network of 1292 nodes and 968706 edges. The analysis results obtained 16 modules, 19 core classes, the average order of each note is 19.15, with variance = 409.37, standard deviation σ = 20.23, average clustering coefficient is 0.482. From that, the analysis of the module structure, the relationship between the modules as well as the characteristics of the data network core. The results can be used to validate the system and support the process design.

Các file đính kèm theo tài liệu này:

ung_dung_mang_phuc_hop_trong_khai_pha_du_lieu_tuong_tac_nguo.pdf