Bài giảng môn Cấu trúc dữ liệu - Chương 3: Kỹ thuật sắp xếp

NỘI DUNG CHƯƠNG 3

1. Khái quát về sắp xếp

2. Các phương pháp sắp xếp (Sắp xếp trên dãy)

• Sắp xếp bằng phương pháp đổi chỗ (Exchange)

• Sắp xếp bằng phương pháp chọn (Selection)

• Sắp xếp bằng phương pháp chèn (Insertion)

• Sắp xếp bằng phương pháp trộn (Merge)

3. Các phương pháp sắp xếp (Sắp xếp trên tập tin)

• Sắp xếp tập tin bằng phương pháp trộn

• Sắp xếp tập tin theo chỉ mục

pdf29 trang | Chia sẻ: phuongt97 | Lượt xem: 296 | Lượt tải: 0download
Bạn đang xem trước 20 trang nội dung tài liệu Bài giảng môn Cấu trúc dữ liệu - Chương 3: Kỹ thuật sắp xếp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 3: KỸ THUẬT SẮP XẾP 48 49 NỘI DUNG CHƯƠNG 3 1. Khái quát về sắp xếp 2. Các phương pháp sắp xếp (Sắp xếp trên dãy) • Sắp xếp bằng phương pháp đổi chỗ (Exchange) • Sắp xếp bằng phương pháp chọn (Selection) • Sắp xếp bằng phương pháp chèn (Insertion) • Sắp xếp bằng phương pháp trộn (Merge) 3. Các phương pháp sắp xếp (Sắp xếp trên tập tin) • Sắp xếp tập tin bằng phương pháp trộn • Sắp xếp tập tin theo chỉ mục 50 1. Khái quát về sắp xếp Sắp xếp là thao tác cần thiết thường được thực hiện trong quá trình lưu trữ và quản lý dữ liệu. Thứ tự dữ liệu có thể tăng hay giảm, tăng hay giảm thuật toán sắp xếp là tương tự. Hai nhóm giải thuật sắp xếp • Các giải thuật sắp xếp thứ tự nội (sx thứ tự trên mảng) • Các giải thuật sắp xếp thứ tự ngoại (sx thứ tự trên tập tin) Xem như mỗi phần tử dữ liệu được xem xét có một thành phần khóa (Key) để nhận diện có kiểu dữ liệu T, các thành phần còn lại là thông tin (Info), như vậy mỗi phần tử có cấu trúc như sau: typedef struct DataElement { T Key; InfoData Info; } DataType; Để đơn giản, quan tâm thành phần dữ liệu chỉ là khóa nhận diện 51 2. Sắp xếp trên dãy/mảng 2.1. Sắp xếp bằng phương pháp đổi chỗ (Exchange) a. Thuật toán sắp xếp nổi bọt (Bubble Sort) b. Thuật toán sắp xếp dựa trên phân hoạch (Partitioning Sort) (thuật toán sx nhanh Quick Sort) 2.2. Sắp xếp bằng phương pháp chọn (Selection Sort) Chọn trực tiếp (Straight Selection Sort) 2.3. Sắp xếp bằng phương pháp chèn (Insertion Sort) Chèn trực tiếp (Straight Insertion Sort) 2.4. Sắp xếp bằng phương pháp trộn (Merge Sort) a. Trộn trực tiếp (Straight Merge Sort) b. Trộn tự nhiên (Natural Merge Sort) 52 2. Sắp xếp trên dãy/mảng 2.1. a. Thuật toán sắp xếp nổi bọt (Bubble Sort) Ý tưởng: • Đi từ cuối mảng đến đầu mảng, nếu phần tử ở dưới < phần tử đứng trên nó thì sẽ được “đưa lên trên”. • Sau mỗi lần đi duyệt dãy, 1 phần tử sẽ được đưa lên đúng chỗ của nó. Đối với mảng M có N phần tử thì sau N-1 lần đi duyệt dãy  dãy M có thứ tự tăng. 53 2. Sắp xếp trên dãy/mảng 2.1. a. Bubble Sort (tt) Thuật toán: B1: First = 1 B2: IF (First == N) Thực hiện BKT B3: ELSE B31: Under = N B32: IF (Under == First) Thực hiện B4 B33: ELSE IF (M[Under]<M[Under – 1]) Chuyển vị trí (M[Under], M[Under – 1]) Under – Lặp lại B32 B4: First++ B5: Lặp lại B2 BKT: Kết thúc 54 2. Sắp xếp trên dãy/mảng 2.1. a. Bubble Sort (tt) Cài đặt thuật toán: void Swap(T &X, T &Y) { T Temp = X; X = Y; Y = Temp; return; } void BubbleSort(T M[], int N) { for(int I =0; I<N-1; I++) for(int J =N-1; J>I; J--) if (M[J] < M[J-1]) Swap(M[J], M[J-1]); return; } 55 2. Sắp xếp trên dãy/mảng 2.1. a. Bubble Sort (tt) Phân tích thuật toán: • Trong mọi trường hợp • Số phép gán G = 0 • Số phép so sánh S = (N-1) + (N-2) + + 1 = ½N(N-1) • Trong trường hợp tốt nhất • Số phép hoán vị các phần tử Hmin = 0 • Trong trường hợp xấu nhất • Số phép hoán vị các phần tử Hmax = (N-1) + (N-2) + + 1 56 2. Sắp xếp trên dãy/mảng 2.1. a. Bubble Sort (tt) Nhận xét thuật toán: • Thuật toán đơn giản dễ cài đặt • Vói Bubble Sort, phần tử “nhỏ” ở dưới được đưa lên rất nhanh nhưng phần tử “lớn” lại đi xuống chậm, không tận dụng được chiều ngược lại • Thuật toán không nhận diện được các phần tử ở 2 đầu của mảng đã nằm đúng vị trí để giảm bớt quãng đường trong mỗi lần duyệt. 57 2. Sắp xếp trên dãy/mảng 2.1. b. Thuật toán sắp xếp dựa trên phân hoạch (Partitioning Sort) (thuật toán sx nhanh Quick Sort) Ý tưởng: Phân hoạch mảng M thành 3 dãy con: • Dãy con thứ 1 gồm các phần tử có giá trị nhỏ hơn giá trị trung bình của dãy M • Dãy con thứ 2 gồm các phần tử có giá trị bằng giá trị trung bình của dãy M • Dãy con thứ 3 gồm các phần tử có giá trị lớn hơn giá trị trung bình của dãy M Nếu: dãy con thứ 1, 3 có nhiều hơn 1 phần tử thì tiếp tục phân hoạch các dãy này. Tìm giá trị trung bình của dãy là mất thời gian  trong thực tế chọn phần tử đứng giữa là dãy con thứ 2. Việc phân hoạch dãy được thực hiện: tìm các cặp phần tử (của dãy 1 và dãy 3) sai thứ tự để hoán vị cho nhau 58 2. Sắp xếp trên dãy/mảng 2.1. b. Quick Sort (tt) Thuật toán B1: First = 1 B2: Last = N B3: IF (First >= Last) // mảng con chỉ còn không quá 1 phần tử Thực hiện BKT B4: X = M[(First + Last)/2] B5: I = First // Từ dãy con số 1 tìm phần tử có giá trị lớn hơn X B6: IF (M[I] > X) Thực hiện B8 B7: ELSE I++ Lặp lại B6 B8: J = Last // Xuất phát từ cuối dãy 3 để tìm phần tử có giá trị nhỏ hơn X B9: IF (M[J] < X) Thực hiện B11 B10: ELSE J-- Lặp lại B9 B11: IF (I <=J) Thực hiện hoán vị M[I], M[J] Tăng I++ Giảm J-- Lặp lại B6 B12: ELSE Phân hoạch đệ quy dãy từ phần tử First đến phần tử thứ J Phân hoạch đệ quy dãy từ phần tử thứ I đến phần tử Last BKT: Kết thúc 59 2. Sắp xếp trên dãy/mảng 2.1. b. Quick Sort (tt) Cài đặt thuật toán void PartitionSort(T M[], int First, int Last) { if (First >=Last) return; T X = M[(First + Last)/2]; int I = First; int J = Last; do { while (M[I] < X) I++; while (M[J] > X) J-- if (I<=J) { Swap(M[I], M[J]); I++; J--; } } while (I <=J); PartitionSort(M, First, J); PartitionSort(M, I, Last); Return; } 60 2. Sắp xếp trên dãy/mảng 2.1. b. Quick Sort (tt) Cài đặt thuật toán void Swap(T &X, T &Y) { T Temp = X; X = Y; Y = Temp; return } void QuickSort(T M[], int N) { PartitionSort(M, 0, N-1); return; } 61 2. Sắp xếp trên dãy/mảng 2.2. Sắp xếp bằng phương pháp chọn (Selection Sort) Chọn trực tiếp (Straight Selection Sort) • Dãy M có N phần tử chưa có thứ tự. Chọn phần tử nhỏ nhất của dãy này đưa lên đầu dãy. • Sau lần chọn thứ nhất, còn lại N-1 phần tử chưa có thứ tự. Tiếp tục thực hiện, sau N-1 lần lựa chọn và đưa phần tử nhỏ nhất lên trên  dãy M có thứ tự tăng dần. • Để tìm phần tử nhỏ nhất của dãy dựa vào cách tìm kiếm duyệt dãy tuần tự. 62 2. Sắp xếp trên dãy/mảng 2.2. (tt) Straight Selection Sort: Thuật toán B1: K=0 B2: IF (K = N-1) Thực hiện BKT B3: Min = M[K+1] B4: PositionMin = K+1 B5: Position = K+2 B6: IF(Position > N) Thực hiện B8 B7: ELSE IF (Min >M[Postion]) Min = M[Position] PositionMin = Pos Position ++ Lặp lại B6 kiểm tra vị trí so với N B8: Hoán vị (M[K+1], M[PositionMin]) B9: K++ B10: Lặp lại B2 BKT: Kết thúc 63 2. Sắp xếp trên dãy/mảng 2.2. (tt) Straight Selection Sort: Cài đặt thuật toán void StraightSelectionSort(T M[], int N) { int K = 0; int PositionMin; while (K<N-1) { T Min = M[K]; PositionMin = K; for (int Position = K + 1; Position <N; Position ++) { if (Min >M[Position]) { Min = M[Position]; PositionMin = Position; } } Swap (M[K], M[PositionMin]); K++; } return; } 64 2. Sắp xếp trên dãy/mảng 2.2. (tt) Chọn trực tiếp (Straight Selection Sort) Phân tích thuật toán: • Trong mọi trường hợp • Số phép so sánh S = (N-1) + (N-2) + + 1 = ½N(N-1) • Số phép hoán vị H = N-1 • Trong trường hợp tốt nhất • Số phép gán Gmin = 2 x (N-1) • Trong trường hợp xấu nhất • Số phép gán Gmax = 2 x [(N-1) + (N-2) + + 1] • Trong trường hợp trung bình • Số phép gán Gavg = (Gmin+Gmax)/2 65 2. Sắp xếp trên dãy/mảng 2.3. Sắp xếp bằng phương pháp chèn (Insertion Sort) Chèn trực tiếp (Straight Insertion Sort) • Để chèn phần tử thứ K+1 vào K phần tử đầu dãy đã có thứ tự  tiến hành tìm đúng của phần tử K+1 trong K phần tử đầu bằng giải thuật tìm kiếm tuần tự. • Khi tìm được vị trí chèn, dời các phần tử từ vị trí chèn đến phần tử thứ K sang phải 1 vị trí 66 2.3. (tt)2. Thuật Sắp Toán xếpChèn trực trên tiếp (Straight dãy/mảng Insertion Sort) (tt) B1: K=0 B2: IF (K = N) Thực hiện BKT B3: X = M[K+1] B4: Position = 1 B5: IF(Position > K) Thực hiện B7 B6: ELSE B61: IF (X <=M[Postion]) Thực hiện B7 B62: Position ++ B63: Lặp lại B61 B7: I = K+1 B8: IF (I > Position) B81: M[I] = M[I-1] B82: I -- B83: Lặp lại B8 B9: ELSE B91: M[Position] = X B92: K++ B93: Lặp lại B2 BKT: Kết thúc 67 2. Sắp xếp trên dãy/mảng 2.3. (tt) Cài đặt Thuật Toán Chèn trực tiếp (Straight Insertion Sort) void StraightInsertionSort(T M[], int N) { int K = 1; int Position; while (K<N) { T X = M[K]; Position = 0; while (X>M[Position]) Position ++; for (int I = K; I > Position; I--) M[I] = [I-1]; M[Position] = X; K++ } return; } 68 2. Sắp xếp trên dãy/mảng 2.3. Chèn trực tiếp (Straight Insertion Sort) (tt) Phân tích thuật toán • Trong trường hợp tốt nhất • Số phép gán Gmin = 2 × (N-1) • Số phép so sánh Smin = 1 + 2 + +(N-1) = N ×(N-1)/2 • Số phép hoán vị Hmin = 0 • Trong trường hợp xấu nhất • Số phép gán Gmax = [2 × (N-1)] + [1+2++(N-1)] • Số phép so sánh Smax = (N-1) • Số phép hoán vị Hmax = 0 • Trong trường hợp trung bình • Số phép gán Gavg = (Gmin+Gmax)/2 Quá trình tìm vị trí chèn của phần tử thứ K+1 và quá trình dời 69 2. Sắp xếp trên dãy/mảng 2.4. Phương pháp sắp xếp Trộn (Merge Sort) • Các thuật toán trộn tìm cách tách các mảng con theo các đường chạy (run) rồi tiến hành nhập các mảng theo từng cặp để tạo thành các đường mới có chiều dài lớn hơn đường chạy cũ. Sau một số lần tách nhập, cuối cùng mảng M chỉ còn 1 đường chạy đuợc sắp xếp thứ tự. • Đường chạy (run): Dãy M[I], M[I+1],M[J] (I>=1, I<=J, J<=N) là một đường chạy nếu nó có thứ tự • Chiều dài của đường chạy (run’s length): Là số phần tử của một đường chạy. Một dãy sẽ bao gồm nhiều đường chạy. • Trộn các đường chạy: Khi trộn các đường chạy với nhau sẽ tạo ra đường chạy mới có tổng chiều dài bằng các đường chạy ban đầu. 70 2. Sắp xếp trên dãy/mảng 2.4. a. Trộn trực tiếp (Straight Merge Sort) • Dãy M có N đường chạy (runs) với chiều dài L=1, tiến hành phân phối luân phiên N runs của dãy về 2 dãy phụ T1, T2 (N/2 runs) • Trộn từng cặp các dãy phụ T1, T2 thành 1 run có chiều dài là L=2 đưa trở về dãy M, (lúc này M gồm N/2 runs) với chiều dài mỗi run là L =2 • Sau mỗi lần phân phối, số run trên M giảm đi ½ và chiều dài mỗi run tăng gấp đôi. Sau log2N lần phân phối và trộn thì dãy M chỉ còn lại 1 run với chiều dài được sắp xếp  dãy M có thứ tự. • Thuật giải chia làm 2 phần • Thuật giải phân phối các đường chạy L trên M về 2 dãy phụ T1 & T2 • Thuật giải trộn các cặp đường chạy trên T1 & T2 có chiều dài L về M thành các đường chạy với chiều dài 2*L 71 2. Sắp xếp trên dãy/mảng 2.4. a. (tt) Phân tích thuật toán Straight Merge Sort • Thực hiện log2N lần phân phối và trộn các run • Mỗi lần phân phối thực hiện N phép gán, 2N phép so sánh • Mỗi lần trộn N phép gán, 2N+N/2 phép so sánh • Số phép hoán vị cho mọi trường hợp: H = 0 • Thuật giải dùng 2 dãy phụ, tổng số phần tử trong 2 dãy phụ = N  lãng phí bộ nhớ  cải tiến dùng 1 dãy phụ và kết hợp quá trình trộn và phân phối luân phiên về 2 dãy. Sau đó đổi vai trò 2 dãy này với nhau 72 2. Sắp xếp trên dãy/mảng 2.4. b. Trộn tự nhiên (Natural Merge Sort) • Tận dụng đường chạy tự nhiên trên dãy, tiến hành trộn tương ứng các cặp đường chạy tự nhiên nằm 2 đầu của dãy thành 1 đường chạy mới và phân phối luân phiên các đường chạy mới này về 2 đầu dãy phụ T. • Từ dãy phụ T, tiếp tục trộn cặp tương ứng ở 2 đầu tạo thành 1 run mới và phân phối luân phiên run mới này về 2 đầu dãy M.  Tiếp tục quá trình cho đến khi M hay T chỉ còn lại 1 run 73 2. Sắp xếp trên dãy/mảng 2.4. b. Phân tích giải thuật Natural Merge Sort • Trong trường hợp tốt nhất • Số phép gán Gmin = 1 • Số phép so sánh Smin = 2N(N-1) • Số phép hoán vị Hmin = 0 • Trong trường hợp xấu nhất • Số phép gán Gmax = N × Log2N + 1 • Số phép so sánh Smax = 2N × Log2N + 2 • Số phép hoán vị Hmax = 0 • Trong trường hợp trung bình • Số phép gán Gavg = (Gmin+Gmax)/2 74 3. Sắp xếp trên tập tin 3.1. Sắp xếp trong file bằng phương pháp trộn • a. Trộn trực tiếp (Straight Merge Sort) • b. Trộn tự nhiên (Natural Merge Sort) 3.2. Sắp xếp theo chỉ mục 75 3. Sắp xếp trên tập tin Trộn trực tiếp (File Straight Merge Sort) • Tương tự trộn trực tiếp trên mảng • Ban đầu tập tin Fd có N runs chiều dài mỗi run là L=1, tiến hành phân phối luân phiên các runs của Fd về K tập tin phụ Ft1, Ft2, FtK, mỗi tập tin có N/K runs. • Trộn tương ứng từng bộ K runs ở K tập tin phụ Ft1, Ft2, FtK thành 1 run mới có chiều dài L=K để đưa về tập tin Fd, tập tin Fd lúc này có N/K runs với chiều dài mỗi run L= K. • Sau mỗi lần phân phối và trộn các run trên Fd  số các run giảm K lần, và tương ứng chiều dài mỗi run trên Fd sẽ tăng K lần. Sau Log2N lần phân phối và trộn  Fd chỉ còn lại 1 rund với chiều dài N  dữ liệu tập tin Fd có thứ tự • Thuật giải chia làm 2 phần • Thuật giải phân phối các đường chạy L trên Fd về 2 dãy phụ Ft1 & Ft2 • Thuật giải trộn các cặp đường chạy trên Ft1 & Ft2 có chiều dài L về Fd thành các đường chạy với chiều dài 2*L 76 BÀI TẬP • Bài tập chương 3 (trang 84 - 85) • (Lý thuyết) Cho một mảng số nguyên bao gồm 20 phần tử như sau 23 34 46 16 8 9 7 6 13 22 65 45 18 29 45 15 3 10 84 21 Tính số phép gán, số lần so sánh, hoán vị của mỗi thuật toán (Bubble Sort, QuickSort, Straight Selection Sort, Straight Insertion Sort , Straight Merge Sort, Natural Merge Sort) là bao nhiêu? • (Lý thuyết) Nếu đối với dãy có giá trị phần tử giữa dãy lớn nhất, áp dụng phương pháp nào nhanh hơn QuickSort hay Bubble Sort? (VD: dãy : 23 4 6 77 45 5 6 7) • Cài đặt các giải thuật sắp xếp trong lý thuyết đối với các dãy | mảng có giá trị giảm dần

Các file đính kèm theo tài liệu này:

  • pdfbai_giang_mon_cau_truc_du_lieu_chuong_3_ky_thuat_sap_xep.pdf