Khai thác dữ liệu - Tài liệu, ebook, giáo trình

Khai thác dữ liệu (data mining), còn gọi là khám phá tri thức trong các cơ sở dữ liệu (knowledge-discovery in databases hay KDD), được áp dụng thực tiễn trong việc tìm kiếm các mẫu (pattern) từ những kho dữ liệu khổng lồ. Để làm được điều này, khai thác dữ liệu dùng các kĩ thuật tính toán từ thống kê và nhận dạng mẫu (pattern recognition).

6 trang | Chia sẻ: luyenbuizn | Lượt xem: 1396 | Lượt tải: 0

Nội dung tài liệu Khai thác dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Khai thác dữ liệu Khai thác dữ liệu (data mining), còn gọi là khám phá tri thức trong các cơ sở dữ liệu (knowledge-discovery in databases hay KDD), được áp dụng thực tiễn trong việc tìm kiếm các mẫu (pattern) từ những kho dữ liệu khổng lồ. Để làm được điều này, khai thác dữ liệu dùng các kĩ thuật tính toán từ thống kê và nhận dạng mẫu (pattern recognition). Mục lục 1 Định nghĩa 2 Vét dữ liệu 3 Các vấn đề về tính riêng tư 4 Sự kết hợp giữa khai thác dữ liệu và trò chơi 5 Những ứng dụng đáng chú ý của khai thác dữ liệu 6 Xem thêm 7 Tham khảo 8 Các liên kết ngoài 8.1 Tổng hợp thông tin báo chí tự động 9 Phần mềm Định nghĩa Khai thác dữ liệu được định nghĩa là "việc trích rút một cách phức tạp các thông tin - ẩn, không biết trước và có khả năng hữu ích - từ dữ liệu " 1 và là "ngành khoa học chuyên trích rút các thông tin hữu ích từ một tập dữ liệu lớn hay cơ sở dữ liệu" 2. Mặc dù việc sử dụng thuật ngữ "khai thác dữ liệu" thường liên quan đến việc phân tích dữ liệu, nhưng khai thác dữ liệu, giống như trí tuệ nhân tạo, là một thuật ngữ tổng quát và được dùng với các ý nghĩa khác nhau trong một ngữ cảnh rất rộng. Việc khai thác dữ liệu thường liên quan đến thương mại hay nhu cầu của một tổ chức trong việc xác định các xu hướng nào đó. Một ví dụ đơn giản của khai thác dữ liệu là việc sử dụng nó trong các bộ phận bán hàng lẻ. Một cửa hàng theo dõi việc mua hàng của một vị khách và nhận thấy rằng vị khách này mua khá nhiều áo lụa, hệ thống khai thác dữ liệu sẽ tạo mối tương quan giữa khách hàng này và áo lụa. Với thông tin này, bộ phận bán hàng có thể tiếp thị trực tiếp đến khách hàng đó về các áo lụa, hoặc sau đó cố gắng mời chào khách hàng mua các loại sản phẩm khác. Trong trường hợp này, hệ thống khai thác dữ liệu được dùng bởi cửa hàng bán lẻ đã khám phá ra "kiến thức" mới (tôi thấy từ này có vẻ hợp lý hơn từ "thông tin") về khách hàng. Một ví dụ khác ở một chuỗi siêu thị bán hàng rất lớn của Mỹ. Trong một thời gian phân tích chặt chẽ việc giao dịch và hàng hóa, các nhà phân tích thấy rằng bia và khăn lại thường được mua với nhau. Mặc dù việc giải thích mối tương quan này có thể là khó khăn, nhưng lợi dụng "kiến thức" này, ngược lại, không khó lắm (ví dụ: đặt mấy cái khăn có lời nhiều bên cạnh bia :-) và ngược lại). Kĩ thuật này thường được xem là "Phân tích Giỏ Bán hàng" - Market Basket Analysis. Ở phân tích thống kê, loại phân tích không có mô hình lý thuyết cơ sở, thì khai thác dữ liệu thường được xấp xỉ qua từng bước phương pháp hồi quy trong đó không gian của 2k khả năng quan hệ giữa một biến đầu ra đơn và k biến giải đáp tiềm năng được tìm kiếm một cách thông minh. Với sự ra đời của tính toán lưới (grid computing), bây giờ người ta có thể (khi k nhỏ hơn xấp xỉ 40)kiểm tra hết 2k mô hình. Cái này kêu bằng mọi tập con hay hồi qui toàn diện. Một trong những ứng dụng đầu tiên hồi qui toàn diện là nghiên cứu dữ liệu lâm sàng.6 Vét dữ liệu Used in the technical context of data warehousing and analysis, the term "data mining" is neutral. However, it sometimes has a more pejorative usage that implies imposing patterns (and particularly causal relationships) on data where none exist. This imposition of irrelevant, misleading or trivial attribute correlation is more properly criticized as "data dredging" in the statistical literature. Another term for this misuse of statistics is data fishing. Used in this latter sense, data dredging implies scanning the data for any relationships, and then when one is found coming up with an interesting explanation. (This is also referred to as "overfitting the model".) The problem is that large data sets invariably happen to have some exciting relationships peculiar to that data. Therefore any conclusions reached are likely to be highly suspect. In spite of this, some exploratory data work is always required in any applied statistical analysis to get a feel for the data, so sometimes the line between good statistical practice and data dredging is less than clear. The common approach, in data mining, to overcoming the problem of overfitting is to separate the data into two or three separate data sets (called the training set, validation set, and testing set). The model is built using the training and validation set, and is then tested using the testing set; the procedure can be repeated many times by resampling the data sets, in order to be more certain that a real pattern has been found and that the model is not merely capitalizing on random chance (i.e. overfitting). A more significant danger is finding correlations that do not really exist. Investment analysts appear to be particularly vulnerable to this. "There have always been a considerable number of pathetic people who busy themselves examining the last thousand numbers which have appeared on a roulette wheel, in search of some repeating pattern. Sadly enough, they have usually found it." 3. However, when properly done, determining correlations in Investment analysis has proven to be very profitable for statistical arbitrage operations (such as pairs trading strategies), and furthermore correlation analysis has shown to be very useful in risk management. Indeed, finding correlations in the financial markets, when done properly, is not the same as finding false patterns in roulette wheels. Most data mining efforts are focused on developing a finely-grained, highly detailed model of some large data set. Other researchers have described an alternate method that involves finding the minimal differences between elements in a data set, with the goal of developing simpler models that represent relevant data. 4 Các vấn đề về tính riêng tư Vẫn có các mối lo ngại về tính riêng tư gắn với việc khai thác dữ liệu. Ví dụ, nếu một ông chủ có quyền truy xuất vào các hồ sơ y tế, họ có thể loại những người có bệnh tiểu đường hay bệnh tim. Việc loại ra những nhân viên như vậy sẽ cắt giảm chi phí bảo hiểm, nhưng tạo ra các vấn đề về tính hợp pháp và đạo đức. Khai thác dữ liệu các tập dữ liệu thương mại hay chính phủ cho các mục đích áp đặt luật pháp và an ninh quốc gia cũng là những mối lo ngại về tính riêng tư đang tăng cao. 5 Có nhiều cách sử dụng hợp lí với khai thác dữ liệu. Ví dụ, một CSDL các mô tả về thuốc được thực hiện bởi một nhóm người có thể được dùng để tìm kiếm sự kết hợp của các loại thuốc tạo ra các phản ứng (hóa học) khác nhau. Vì việc kết hợp có thể chỉ xảy ra trong 1 phần 1000 người, một trường hợp đơn lẻ là rất khó phát hiện. Một dự án liên quan đến y tế như vậy có thể giúp giảm số lượng phản ứng của thuốc và có khả năng cứu sống con người. Không may mắn là, vẫn có khả năng lạm dụng đối với một CSDL như vậy. Về cơ bản, khai thác dữ liệu đưa ra các thông tin mà sẽ không có sẵn được. Nó phải được chuyển đổi sang một dạng khác để trở nên có nghĩa. Khi dữ liệu thu thập được liên quan đến các các nhân, thì có nhiều câu hỏi đặt ra liên quan đến tính riêng tư, tính hợp pháp, và đạo đức. Sự kết hợp giữa khai thác dữ liệu và trò chơi Data mining from combinatorial game oracles: Since the early 1990's, with the availability of oracles for certain combinatorial games, also called tablebases (e.g. for 3x3-chess) with any beginning configuration, small-board dots-and-boxes, small-board-hex, and certain endgames in chess, dots-and-boxes, and hex; a new area for data mining has been opened up. This is the extraction of human-usable strategies from these oracles. This is pattern-recognition at too high an abstraction for known Statistical Pattern Recognition algorithms or any other algorithmic approaches to be applied: at least, no one knows how to do it yet (as of January 2005). The method used is the full force of Scientific Method: extensive experimentation with the tablebases combined with intensive study of tablebase-answers to well designed problems, combined with knowledge of prior art i.e. pre-tablebase knowledge, leading to flashes of insight. Berlekamp in dots-and-boxes etc. and John Nunn in chess endgames are notable examples of people doing this work, though they were not and are not involved in tablebase generation. Những ứng dụng đáng chú ý của khai thác dữ liệu Khai thác dữ liệu được xem là phương pháp mà đơn vị Able Danger của Quân đội Mỹ đã dùng để xác định kẻ đứng đầu cuộc tấn công ngày 9/11, Mohamed Atta, và ba kẻ tấn công ngày 9/11 khác là các thành viên bị nghi ngờ thuộc lực lượng al Qaeda hoạt động ở Mỹ hơn một năm trước cuộc tấn công. Xem tin tức Wikinews tại: Wikinews: U.S. Army intelligence detection of 9/11 terrorists before attack Xem bài viết về đơn vị Able_Danger. Xem thêm Trí tuệ nhân tạo Mạng nơ-ron nhân tạo Business intelligence Business performance management Cơ sở dữ liệu Data stream mining Data warehouse Cây quyết định Thống kê mô tả (descriptive statistics) Khoa học khám phá (Discovery Science) Document warehouse Logic mờ (Fuzzy logic) Hypothesis testing Java Data Mining Linear discriminant analysis Logit (in reference to logistic regression) Loyalty card Học máy (Machine learning) Nearest neighbor (pattern recognition) Nhận dạng mẫu (Pattern recognition) Principal components analysis Phân tích hồi qui (Regression analysis) Khai thác dữ liệu quan hệ (Relational data mining) Thống kê khai thác văn bản (Text mining) Tham khảo Endnotes: Chú giải 1: W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992, pages 213-228. Chú giải 2: D. Hand, H. Mannila, P. Smyth: Principles of Data Mining. MIT Press, Cambridge, MA, 2001. ISBN 0-262-08290-X Chú giải 3: Fred Schwed, Jr, Where Are the Customers' Yachts? ISBN 0471119792 (1940). Chú giải 4: T. Menzies, Y. Hu, Data Mining For Very Busy People. IEEE Computer, October 2003, pages 18-25. Chú giải 5: K. A. Taipale, Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data, Center for Advanced Studies in Science and Technology Policy. 5 Colum. Sci. & Tech. L. Rev. 2 (December 2003). Chú giải 6: Eddie Reed, Jing Jie Yu, Antony Davies, et al., Clear Cell Tumors Have Higher mRNA Levels of ERCC1 and XPB than Other Types of Epithelial Ovarian Cancer, Clinical Cancer Research, 2003. Other: Rakesh Agrawal, Tomasz Imielinski, and Arun Swami. Mining Association Rules between Sets of Items in Large Databases (1993). Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, months 26–28, pp.207–216. Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules (1994). Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), month 12–15, pp.487–499. Jaiwei Han and Micheline Kamber, Data Mining: Concepts and Techniques (2001), ISBN 1-55860-489-8 Ruby Kennedy et al., Solving Data Mining Problems Through Pattern Recognition (1998), ISBN 0-13-095083-1 O. Maimon and M. Last, Knowledge Discovery and Data Mining – The Info-Fuzzy Network (IFN) Methodology, Kluwer Academic Publishers, Massive Computing Series, 2000. Hari Mailvaganam, Future of Data Mining, (December 2004) Sholom Weiss and Nitin Indurkhya, Predictive Data Mining (1998), ISBN 1-55860-403-0 Ian Witten and Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations (2000), ISBN 1-55860-552-5 Yike Guo and Robert Grossman, editors, "High Performance Data Mining: Scaling Algorithms, Applications and Systems", Kluwer Academic Publishers, 1999. Các liên kết ngoài Data Mining Software Guide Eruditionhome Directory site for data mining and web mining resources Limited introduction to Data Mining (TwoCrows.com) thearling.com Comprehensive data mining white papers and tutorials SQLServerDataMining.com Information and interactive demos on SQL Server 2005 Data Mining CRM Today - Data Mining White papers, articles, presentations and academic papers on data mining Data Mining whitepapers, webcasts and case studies Data Mining and Data Warehousing Guide to Data Mining Tổng hợp thông tin báo chí tự động Baomoi bản Beta Phần mềm YALE Là công cụ miễn phí cho máy học và khai thác dữ liệu Weka Phần mềm mã nguồn mở phục vụ cho khai thác dữ liệu viết bằng Java Parago Khai thác dữ liệu và Quản lí ICT Asset cho trường học Tanagra Phần mềm thống kê và khai thác dữ liệu mã nguồn mở

Các file đính kèm theo tài liệu này:

KhaiThacDuLieu.doc