Một phương pháp tra cứu ảnh học biểu diễn và học đa tạp cho giảm chiều với thông tin từ người dùng

Trong những năm gần đây, đã có nhiều phương pháp tra cứu ảnh được đông đảo các nhóm tác giả nghiên cứu và đề xuất. Tuy nhiên, các phương pháp này thường dùng một số đặc trưng thủ công và phản hồi trên tập mẫu có số lượng hạn chế nhưng số chiều đặc trưng mức lớn (the curse of dimensionality) trong không gian đặc trưng dẫn đến kết quả độ chính xác kém. Trong bài báo này, chúng tôi đề xuất một phương pháp tra cứu ảnh RMLIR hiệu quả cho phép cải thiện kết quả độ chính xác. Phương pháp của chúng tôi khai thác việc học biểu diễn ảnh bằng cách tận dụng một mô hình học sâu đã huấn luyện với tập dữ liệu lớn và tận dụng thông tin phản hồi của người dùng giải quyết vấn đề chiều đặc trưng lớn so với số mẫu phản hồi thông qua học đa tạp cho giảm chiều. Chúng tôi cũng cung cấp các kết quả và đánh giá thực nghiệm trên cơ sở dữ liệu đặc trưng 10800 ảnh để chỉ ra độ chính xác của phương pháp đề xuất

pdf8 trang | Chia sẻ: Thục Anh | Ngày: 11/05/2022 | Lượt xem: 354 | Lượt tải: 0download
Nội dung tài liệu Một phương pháp tra cứu ảnh học biểu diễn và học đa tạp cho giảm chiều với thông tin từ người dùng, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ng, chiều cao) = 120 và min(chiều rộng, chiều cao) = 80. 2. Tập tin cậy nền (ground truth) Tập tin cậy nền Corel đƣợc sử dụng rộng rãi trong đánh giá CBIR, do đó chúng tôi cũng sử dụng phân loại Corel làm tin cậy nền, tức là chúng tôi xem tất cả các ảnh trong cùng loại Corel là liên quan. Tập tin cậy nền này gồm 3 cột (có tiêu đề: ID ảnh truy vấn, ID ảnh và Sự liên quan) và gồm 1981320 dòng. 3. Chiến lƣợc mô phỏng phản hồi liên quan Để bắt chƣớc hành vi của con ngƣời, chúng tôi thực hiện mô phỏng phản hồi liên quan trong thử nghiệm tự động bởi máy tính. Đầu tiên, từng ảnh đƣợc đƣa vào làm truy vấn khởi tạo để tạo ra kết quả truy vấn khởi tạo, và sau đó phản hồi liên quan đƣợc thực hiện tự động bởi máy tính: Tất cả các ảnh liên quan truy vấn (tức là các ảnh có cùng khái niệm với truy vấn) đƣợc đánh dấu nhƣ các mẫu phản hồi dƣơng trong top 100 ảnh và tất cả các ảnh khác đƣợc đánh dấu nhƣ các mẫu phản hồi âm. Quy trình này gần với các tình huống trong thế giới thực bởi vì ngƣời dùng thƣờng sẽ không thích nhấp vào mẫu phản hồi tiêu cực. Cù Việt Dũng, Nguyễn Hữu Quỳnh, Trần Thị Minh Thu 313 Yêu cầu ngƣời dùng chỉ đánh dấu các mẫu phản hồi dƣơng trong 100 ảnh ở trên đỉnh là hợp lý. Do các đặc trƣng trực quan không thể mô tả tốt các nội dung ngữ nghĩa, một hệ thống thƣờng yêu cầu ngƣời dùng đánh dấu ba đến 4 screenshots các ảnh trong quá trình tra cứu hiện tại. Trong khi, với một số ứng dụng, ngƣời dùng muốn chỉ gắn nhãn một số nhỏ các mẫu phản hồi và kỳ vọng nhận đƣợc các kết quả tốt nhất. Do đó, giả sử 100 ảnh trên đỉnh đƣợc thực hiện cho thực nghiệm của chúng tôi nhƣ ở dƣới. Trong bài báo này, độ chính xác đƣợc sử dụng để đánh giá hiệu năng của thuật toán phản hồi liên quan. Độ chính xác là tỉ lệ phần trăm của các ảnh liên quan trên N ảnh đƣợc tra cứu ở trên đỉnh. Đƣờng cong chính xác là các giá trị chính xác trung bình của 10800 truy vấn. Phƣơng pháp đƣợc đề xuất của chúng tôi đƣợc so sánh với bốn phƣơng pháp khác bao gồm phƣơng pháp tra cứu truyền thống O-IR, tra cứu với đặc trƣng đƣợc học biểu diễn RIL-IR, thuật toán phản hồi liên quan dựa vào SVM trên đặc trƣng đƣợc học biểu diễn RIL-SVM. Tất cả các thuật toán phản hồi đƣợc đánh giá trên 1 lần lặp. Trong Hình 9, chúng ta thấy rằng hiệu năng của RIL-IR cao hơn O-IR, bởi vì nó có thể học biểu diễn ảnh thu đƣợc thông tin hữu ích nhất từ một mô hình đã tiền huấn luyện với tập dữ liệu rất lớn. Tuy nhiên, theo các kết quả thực nghiệm hiệu năng của RIL-IR kém hơn RIL-SVM khi có phản hồi của ngƣời dùng. RMLIR đƣa ra kết quả cao nhất do nó khai thác thêm đƣợc tính chất đa tạp của dữ liệu cho giảm chiều giải quyết vấn đề quá khớp khi phản hồi. Hình 9. Hiệu năng của RILMR và các phƣơng pháp IV. KẾT LUẬN Chúng tôi đã đề xuất phƣơng pháp tra cứu ảnh dựa vào nội dung cho cải tiến độ chính xác tra cứu của các hệ thống tra cứu phản hồi liên quan sử dụng SVM truyền thống. Phƣơng pháp của chúng tôi giải quyết đƣợc (1) trích rút đặc trƣng mức cao thay cho cách thủ công bằng việc học biểu diễn ảnh thông qua tiền huấn luyện trên một mạng học sâu CNN (2) vấn đề quá khớp xảy ra khi số chiều quá lớn so với số mẫu bằng cách học đa tạp cho giảm chiều. Các thực nghiệm trên cơ sở dữ liệu ảnh Corel gồm 10,800 ảnh đã chỉ ra rằng phƣơng pháp đƣợc xuất cải tiến đáng kể hiệu năng của hệ thống tra cứu ảnh O-IR, RIL-IR và RIL-SVM. Cám ơn đề tài “Nghiên cứu cải tiến hiệu quả tra cứu ảnh thông qua học khoảng cách", mã số: VAST01.07/19- 20” và chƣơng trình hỗ trợ nghiên cứu viên cao cấp “Hỗ trợ hoạt động nghiên cứu khoa học cho nghiên cứu viên cao cấp năm 2019", mã số: NVCC02.03/19-19. TÀI LIỆU THAM KHẢO [1] A. Jain and A. Vailaya, “Image Retrieval Using Color and Shape,” Pattern Recognition, vol. 29, no. 8, pp. 1233- 1244, 1996. [2] Bay, H.; Tuytelaars, T.; Gool, L. Surf: Speeded Up Robust Features. In Proceedings of the 9th European Conference on Computer Vision, Graz, Austria, 7-13 May 2006; Springer: Berlin/Heidelberg, Germany, 2006; pp. 404-417. [3] C. Wang, J. Zhao, X. He, C. Chen, J. Bu, Image retrieval using nonlinear manifold embedding, Neurocomputing 72 (16-18) (2009) 3922-3929. [4] F. R. K. Chung. Spectral Graph Theory, volume 92 of Regional Conference Series in Mathematics. AMS, 1997. [5] H. Tamura, S. Mori, and T. Yamawaki, “Texture Features Corresponding to Visual Perception,” IEEE Trans. Systems, Man, and Cybernetics, vol. 8, no. 6, pp. 460-473, 1978. [6] Huu QN, Thuy QDT, Van CP, Van CN and Quoc TN, An efficient image retrieval method using adaptive weights, Appl Intell (2018) (https://doi.org/10.1007/s10489-018-1174-6). [7] Jegou, H.; Douze, M.; Schmid, C. Aggregating local descriptors into a compact image representation. In Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, CA, USA, 13-18 June 2010. 18.87 26.07 64.47 66.32 0 20 40 60 80 O-IR RIL-IR RIL-SVM RILMR Đ ộ c h ín h x á c Phƣơng pháp 314 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH KHAI THÁC HIỆU QUẢ THÔNG TIN PHẢN HỒI TỪ NGƢỜI DÙNG [8] Leutenegger, S.; Chli, M.; Siegwart, R.Y. Brisk: Binary Robust Invariant Scalable Keypoints. In Proceedings of the 2011 International Conference on Computer Vision, Barcelona, Spain, 6-13 November 2011; pp. 2548-2555. [9] Lowe, D.G. Distinctive Image Features from Scale-Invariant Keypoints. Int. J. Comput. Vis. 2004, 60, 91-110. [10] M. Swain and D. Ballard, “Color Indexing”, Int’l J. Computer Vision, vol. 7, no. 1, pp. 11-32, 1991. [11] M. Belkin, P. Niyogi, Laplacian Eigenmaps and Spectral Techniques for Embedding and Clustering, NIPS 2001. [12] Perronnin, F.; Liu, Y.; Sánchez, J. Large-scale image retrieval with compressed fisher vectors. In Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, CA, USA, 13-18 June 2010. [13] S. Guattery and G. L. Miller. Graph embeddings and laplacian eigenvalues. SIAM Journal on Matrix Analysis and Applications, 21(3):703-723, 2000. [14] S. Yan, D. Xu, B. Zhang, Q. Yang, H. Zhang, S. Lin, "Graph embedding and extensions: A general framework for dimensionality reduction", IEEE Trans. Pattern Anal. Mach. Intell., vol. 29, no. 1, pp. 40-51, Jan. 2007. [15] Schmidhuber, J. Deep learning in neural networks: An overview. Neural Netw. 2015, 61, 85-11. [16] W. Niblack, R. Barber, W. Equitz, M. Flickner, E. Glasman, D. Petkovic, P. Yanker, C. Faloutsos, and G. Taubino, “The QBIC Project: Querying Images by Content Using Color, Texture, and Shape,” Proc. SPIE Storage and Retrieval for Images and Video Databases, pp. 173-181, 1993. [17] X. S. Zhou and T. S. Huang, “Relevance feedback in image retrieval: A comprehensive review,” Multimedia Systems, vol. 8, no. 6, pp. 536-544, Apr. 2003. [18] Y. Rui, T. Huang, M. Ortega, and S. Mehrotra, “Relevance feedback: a power tool in interactive content-based image retrieval”, IEEE Trans. Circuits Syst. Video Technol., vol. 8, no. 5, pp. 644-655, Sep. 1998. A IMAGES RETRIEVAL METHOD BASE REPRESENTATION AND MANIFOLD LEARNING FOR DIMENSIONALITY REDUCTION WITH INFORMATION FROM USERS Cu Viet Dung, Nguyen Huu Quynh, Ngo Quoc Tao, Tran Thi Minh Thu TÓM TẮT: In recent years, there have been many methods image retrieval that have been researched and proposed by authors. However, these methods often use hand-crafted features and feedback on a limited of sample sets but the high dimensional feature in the feature space so low accuracy. In this paper, we propose an effective image retrieval with relevance feedback method, called RMLIR, which improves the accuracy. Our method exploits representation learning by a pre-trained deep learning model with large data sets and utilizing user feedback to solve the problem high dimensional feature through manifold learning for dimensionality reduction. We also provided empirical results on a database of 10.800 images to show the accuracy of the method. Từ khóa: Content based image retrieval, pre-trained, representation learning, Convolutional Neural Network, manifold learning, dimensionality reduction.

Các file đính kèm theo tài liệu này:

  • pdfmot_phuong_phap_tra_cuu_anh_hoc_bieu_dien_va_hoc_da_tap_cho.pdf