23
1 Ch Ch ươ ươ ng ng 8: 8: ng ng dng dng khai khai phá phá ddliu liu Hck1 – 2011-2012 Khoa Khoa Khoa Khoa Hc Hc & & KKThut Thut Máy Máy Tính Tính Tr Tr ư ư ng ng Đ Đ i i Hc Hc Bách Bách Khoa Khoa Tp Tp . . HHChí Chí Minh Minh Cao Cao Hc Hc Ngành Ngành Khoa Khoa Hc Hc Máy Máy Tính Tính Giáo Giáo trình trình đ đ in in ttBiên Biên son son bi bi : TS. : TS. ThThNgc Ngc Châu Châu ( ( [email protected] [email protected] ) )

Chương 8: Ứng dụng khai phá dữ liệu

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Chương 8: Ứng dụng khai phá dữ liệu

1

1

ChChươươngng 8: 8: ỨngỨng dụngdụng khaikhai pháphádữdữ liệuliệu

Học kỳ 1 – 2011-2012

KhoaKhoa KhoaKhoa HọcHọc & & KỹKỹ ThuậtThuật MáyMáy TínhTínhTrTrưườngờng ĐĐạiại HọcHọc BáchBách KhoaKhoa TpTp. . HồHồ ChíChí MinhMinh

CaoCao HọcHọc NgànhNgành KhoaKhoa HọcHọc MáyMáy TínhTính

GiáoGiáo trìnhtrình đđiệniện tửtử

BiênBiên soạnsoạn bởibởi: TS. : TS. VõVõ ThịThị NgọcNgọc ChâuChâu

(([email protected]@cse.hcmut.edu.vn))

Page 2: Chương 8: Ứng dụng khai phá dữ liệu

2

2

Tài liệu tham khảo[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001.[3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008.[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006.[5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009.[6] Daniel T. Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006.[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine learning tools and techniques”, Second Edition, Elsevier Inc, 2005. [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new directions in data mining”, IGI Global, 2008.[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + BusinessMedia, LLC 2005, 2010.

Page 3: Chương 8: Ứng dụng khai phá dữ liệu

3

3

Nội dungChương 1: Tổng quan về khai phá dữ liệuChương 2: Các vấn đề tiền xử lý dữ liệuChương 3: Hồi qui dữ liệuChương 4: Phân loại dữ liệuChương 5: Gom cụm dữ liệuChương 6: Luật kết hợpChương 7: Khai phá dữ liệu và công nghệ cơ sởdữ liệuChương 8: Ứng dụng khai phá dữ liệuChương 9: Các đề tài nghiên cứu trong khai phádữ liệuChương 10: Ôn tập

Page 4: Chương 8: Ứng dụng khai phá dữ liệu

4

4

Chương 8: Ứng dụng khai phá dữliệu

8.1. Tổng quan về vấn đề phát triển ứngdụng khai phá dữ liệu

8.2. Qui trình phát triển ứng dụng khaiphá dữ liệu

8.3. Các chuẩn dành cho khai phá dữ liệu

8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu

8.5. Tóm tắt

Page 5: Chương 8: Ứng dụng khai phá dữ liệu

5

5

8.1. Tổng quan về vấn đề phát triển ứngdụng khai phá dữ liệu

Vấn đề dữ liệuLượng và chất lượng dữ liệu

Kiểu dữ liệu

Vấn đề tri thức từ quá trình khai pháBiểu diễn và tích hợp vào ứng dụng

Vấn đề kỹ thuật khai pháLựa chọn giải thuật khai phá

Vấn đề hiệu quả (effective) và hiệu suất(efficient)

Page 6: Chương 8: Ứng dụng khai phá dữ liệu

6

6

8.2. Qui trình phát triển ứng dụng khaiphá dữ liệu

Qui trình phát triển ứng dụng

Qui trình phát triển ứng dụng khai phádữ liệu

Tương đồng và khác biệt

Page 7: Chương 8: Ứng dụng khai phá dữ liệu

7

7

8.3. Các chuẩn dành cho khai phá dữ liệu

The Predictive Model Markup Language (PMML – www.dmg.org)

Standard application programming interfaces (APIs)

The Cross-Industry Standard Process for Data Mining (CRISP-DM – www.crisp-dm.org)

Nguồn: R. L. Grossman, M. F. Hornick, G. Meyer, Data Mining Standards Initiatives, Communications of the ACM 45 (8) 2002 59-61.

Page 8: Chương 8: Ứng dụng khai phá dữ liệu

8

8

8.3. Các chuẩn dành cho khai phá dữ liệu

The Predictive Model Markup Language (PMML – www.dmg.org)

Chuẩn dựa trên XMLMô tả các mô hình thống kê và khai phá dữ liệu, các tácvụ làm sạch và biến đổi dữ liệu

Các thành phần của PMMLData dictionary

Mining schema

Transformation dictionary

Model statistics

Models

Page 9: Chương 8: Ứng dụng khai phá dữ liệu

9

9

8.3. Các chuẩn dành cho khai phá dữ liệu

Page 10: Chương 8: Ứng dụng khai phá dữ liệu

10

10

8.3. Các chuẩn dành cho khai phá dữ liệu

Page 11: Chương 8: Ứng dụng khai phá dữ liệu

11

11

8.3. Các chuẩn dành cho khai phá dữ liệu

Page 12: Chương 8: Ứng dụng khai phá dữ liệu

12

12

8.3. Các chuẩn dành cho khai phá dữ liệu

Standard application programming interfaces (APIs)

SQL/MM Part 6: Data Mining

The Java Specification Request-73 (JSR-73)

Jcp.org/jsr/detail/073.jsp

Microsoft APIs

Microsoft.AnalysisServices.AdomdClient

Page 13: Chương 8: Ứng dụng khai phá dữ liệu

13

13

8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu

Các công cụ mã nguồn mở (open-source tools)

Các công cụ thương mại

Page 14: Chương 8: Ứng dụng khai phá dữ liệu

14

14

8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu

Các công cụ mã nguồn mở (open-source)R (www.r-project.org)

Tanagra (eric.univ-lyon2.fr/~ricco/tanagra/)

Weka (www.cs.waikato.ac.nz/ml/weka)

YALE (rapid-i.com)

KNIME (www.knime.org)

Orange (www.ailab.si/orange)

Nguồn: B. Zupan, J. Demsar, “Open-Source Tools for Data Mining”, Clinics in Laboratory Medicine28(2008) 37-54.

Page 15: Chương 8: Ứng dụng khai phá dữ liệu

15

15

8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu

Page 16: Chương 8: Ứng dụng khai phá dữ liệu

16

16

8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu

Page 17: Chương 8: Ứng dụng khai phá dữ liệu

17

17

8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu

Page 18: Chương 8: Ứng dụng khai phá dữ liệu

18

18

8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu

Page 19: Chương 8: Ứng dụng khai phá dữ liệu

19

19

8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu

Page 20: Chương 8: Ứng dụng khai phá dữ liệu

20

20

8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu

Page 21: Chương 8: Ứng dụng khai phá dữ liệu

21

21

8.4. Các công cụ hỗ trợ phát triển ứngdụng khai phá dữ liệu

Các công cụ thương mại

Hỗ trợ từ Intelligent Miner (IBM)

Hỗ trợ từ Microsoft data mining tools (MS SQL Server 2000/2005/2008)

Hỗ trợ từ Oracle Data Mining

Hỗ trợ từ Enterprise Miner (SAS Institute)

Page 22: Chương 8: Ứng dụng khai phá dữ liệu

22

22

8.5. Tóm tắt

Xem xét sự tương đồng/khác biệt giữa qui trình phát triển ứng dụng truyền thống vàứng dụng khai phá dữ liệu

Sự cần thiết của các chuẩn (standards) dànhcho khai phá dữ liệu

Sự quan tâm của các nhà sản xuất phầnmềm đối với việc hỗ trợ phát triển ứngdụng khai phá dữ liệu

Page 23: Chương 8: Ứng dụng khai phá dữ liệu

23

23

HỏiHỏi & & ĐĐápáp ……