Mô hình mạng nơron tích chập phân tách giọng hát từ hỗn hợp âm nhạc

Nghiên cứu này đề xuất một mô hình phân tách giọng hát từ nguồn hỗn hợp âm nhạc bằng

mạng nơron tích chập - CNN (Convolutional Neural Network). Phép biến đổi Fourier thời gian ngắn -

STFT (Short time Fourier Transform) được áp dụng để trích các đặc trưng cơ bản của tín hiệu giọng

hát. Bộ dữ liệu DSD100 (Demixing Secrets Dataset 100) gồm các hỗn hợp âm nhạc của giọng hát và

nhạc đệm từ các nhạc cụ như trống, bass, .v.v. được sử dụng để đánh giá hiệu suất của mô hình mạng

CNN. Kết quả thực nghiệm cho thấy mô hình mạng CNN đạt độ chính xác là 97.24%.

pdf8 trang | Chia sẻ: Thục Anh | Ngày: 11/05/2022 | Lượt xem: 491 | Lượt tải: 0download
Nội dung tài liệu Mô hình mạng nơron tích chập phân tách giọng hát từ hỗn hợp âm nhạc, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nguyễn Tấn Phú, Nguyễn Nhị Gia Vinh, Lê Thị Diễm và Lê Minh Lý Mô Hình Mạng Nơron Tích Chập Phân Tách Giọng Hát Từ Hỗn Hợp Âm Nhạc A Convolutional Neural Network Model to Separate Singing Voice from Music Nguyễn Tấn Phú 1, Nguyễn Nhị Gia Vinh2, Lê Thị Diễm3, Lê Minh Lý4 1 Khoa Công Nghệ Thông Tin, Trường Đại Học Kỹ Thuật – Công Nghệ Cần Thơ ntanphu@ctuet.edu.vn 2,3,4Khoa Công Nghệ Thông Tin, Trường Đại Học Cần Thơ {nngvinh, ltdiem, leminhly}@ctu.edu.vn Tóm tắt. Nghiên cứu này đề xuất một mô hình phân tách giọng hát từ nguồn hỗn hợp âm nhạc bằng mạng nơron tích chập - CNN (Convolutional Neural Network). Phép biến đổi Fourier thời gian ngắn - STFT (Short time Fourier Transform) được áp dụng để trích các đặc trưng cơ bản của tín hiệu giọng hát. Bộ dữ liệu DSD100 (Demixing Secrets Dataset 100) gồm các hỗn hợp âm nhạc của giọng hát và nhạc đệm từ các nhạc cụ như trống, bass, .v.v. được sử dụng để đánh giá hiệu suất của mô hình mạng CNN. Kết quả thực nghiệm cho thấy mô hình mạng CNN đạt độ chính xác là 97.24%. Từ khóa. Mạng nơron tích chập (Convolutional Neural Network), Phép biến đổi Fourier thời gian ngắn (Short time Fourier Transform), Đặc trưng âm thanh (audio feature), Demixing Secrets Dataset 100 (DSD100). Abstract— This study proposes a model to separate singing voice from music by using convolutional neural network (CNN). Short time Fourier Transform (STFT) is applied to extract basic audio features of singing voice. Music database named Demixing Secrets Dataset 100 (DSD100) including singing voice, music background is used to estimate convolutional neural network performance. Experiental results in this study proves that proposed convolutional neural nework gives precistion of 97.24%. Keywords. Convolutional Neural Network, Short time Fourier Transform, audio feature, Demixing Secrets Dataset 100 1 Giới thiệu Trong những năm gần đây, sự phát triển của khoa học công nghệ cùng với sự bùng nổ của mạng xã hội trong nhiều thập kỷ qua, internet đã trở thành nguồn thu thập thông tin đa phương tiện như sách, báo, hình ảnh, video, âm nhạc,trong đó âm nhạc đã không ngừng phát triển, hoàn thiện và sức ảnh hưởng của nó ngày càng lớn. Bên cạnh đó, nhu cầu về vấn đề tách lời giọng hát khỏi nhạc trong các bài hát là chủ đề được quan tâm đối với những nhà biên tập âm thanh. Tuy nhiên, việc lựa chọn mô hình phù hợp để phân tách được giọng hát từ bài hát là một bài toán phức tạp. Mạng nơron tích chập (CNN) được ứng dụng thành công trong việc xử lý hình ảnh cho các tác vụ như siêu phân giải hình ảnh [11] và phân đoạn ngữ nghĩa của hình ảnh theo đề xuất của [12]. Trong trường xử lý hình ảnh, CNN lấy đầu vào là một vectơ cường độ pixel hai chiều trên kích thước không gian và khai thác mối tương quan không gian cục bộ giữa các nơron đầu vào để trích chọn các đặc điểm cục bộ. Hiện nay, nhiều nghiên cứu đã đưa ra các ý tưởng phát triển các hệ thống phân loại nhạc tự động, nhận dạng hợp âm, phân tách giọng hát từ các bản thu âm đơn âm. Nghiên cứu [2] đã đề xuất hướng phân tách giọng hát dựa trên thuật toán trích chọn đặc trưng STFT và kết hợp với mạng nơron hồi quy (RNN). Phương pháp này phân tích tín hiệu audio thành ảnh phổ và sau đó rút trích các đặc trưng thông tin về tần số của tín hiệu nhạc. 211 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Một số phương pháp khác phân tích dựa trên mô hình học sâu (deep learning) để ước tính Mặt nạ nhị phân lý tưởng (Ideal Binary Mask - IBM) để tách tín hiệu giọng nói khỏi hỗn hợp nhiễu đã được đề xuất bởi [5]. Nugraha và cộng sự. [6] điều chỉnh các mạng nơron để phân tách nguồn đa kênh, sử dụng cả thông tin về pha và cường độ. Đối với phân tách nguồn đơn âm, Huang et al. [7] đề xuất một phương pháp sử dụng các mạng nơron học sâu, lấy một khung duy nhất của phổ, phổ cường độ của hỗn hợp làm đầu vào để trích chọn các đặc trưng âm sắc của khung đơn cho mỗi nguồn. Uhlich et al. [8] đề xuất một phương pháp khác lấy nhiều khung của phổ, phổ cường độ của hỗn hợp làm đầu vào và chỉ bao gồm các lớp được kết nối đầy đủ. Phương pháp này sử dụng mô hình các đặc trưng âm sắc trên nhiều khung thời gian. Mặc dù các phương pháp này hoạt động tốt và dựa vào các đặc trưng trên toàn bộ phổ tần số nhưng không khai thác hoàn toàn các đặc trưng về tần số thời gian cục bộ. Hơn nữa, mô hình mạng nơron tích chập (CNN) trong nghiên cứu [9][10] đã tận dụng các đặc trưng quy mô nhỏ có trong dữ liệu để trích xuất giọng hát từ hỗn hợp âm nhạc. Trong bài báo này, chúng tôi thử nghiệm một mô hình phân tách giọng hát từ hỗn hợp âm nhạc bằng mạng nơron tích chập và phép biến đổi Fourier thời gian ngắn để phân tích các đặc trưng về biên độ của tín hiệu audio. Không giống như hình ảnh 2D, phép biến đổi Fourier thời gian ngắn không có tính đối xứng trên cả hai trục, nhưng có thể tìm thấy sự đối xứng cục bộ dọc theo mỗi trục đơn. Do đó, các bộ lọc được sử dụng trong CNN cần phải được điều chỉnh phù hợp với biến đổi Fourier thời gian ngắn của âm thanh. Kết quả của mô hình có thể được áp dụng đối với các thể loại nhạc khác hoặc được ứng dụng để xây dựng các hệ thống truy vấn thông tin nhạc dựa vào nội dung, kiểm tra việc sao chép bản quyền nhạc. Bài báo được tổ chức bao gồm các phần chính như sau: phần I giới thiệu tổng quan, phần II mô tả các nghiên cứu liên quan đến phân tích tín hiệu audio. Mô hình phân tách giọng hát từ hỗn hợp âm nhạc được trình bày trong phần III. Phần IV mô tả kết quả thử nghiệm với bộ dữ liệu DSD100 [4] và phần V là phần kết luận và thảo luận. 2 Các nghiên cứu liên quan Derek Mendez và cộng sự [3] đã đề xuất một phương pháp hiệu quả để phân tách nhạc nền và giọng hát. Đầu tiên, máy học véctơ hỗ trợ SVM được sử dụng để gắn nhãn các phần của bài hát chứa giọng hát và các phần chỉ có nhạc nền, điều này cho phép tách một nhóm lớn các bài hát sau khi dược huấn luyện với SVM để phân loại các phân đoạn chứa giọng hát trong một bản nhạc hoặc thể loại cụ thể. Bài hát được gắn nhãn sau đó được chuyển tới thuật toán PCLA sau khi thực hiện phép biến đổi Fourier trong thời gian ngắn (STFT), còn được gọi là quang phổ. Với phương pháp đề xuất của tác giả dựa trên ý tưởng và được cải tiến, kết quả thử nghiệm và nhận dạng trên tập dữ liệu các bài hát với tỷ lệ nhận dạng với độ chính xác gần 90%. Pritish Chandna và cộng sự [1] đã đưa ra mô hình mạng nơron tích chập (CNN) để tách nguồn âm thanh đơn âm.Mô hình mạng CNN này có hai phần: (1) - phần mã hóa (Encoding) bao gồm hai lớp tích chập (lớp tích chập theo chiều dọc, lớp tích chập theo chiều ngang) và một lớp kết nối đầy đủ, (2) - phần giải mã (Decoding) là đầu ra của lớp kết nối đầy đủ đầu tiên được chuyển tới một lớp kết nối đầy đủ khác, có hàm kích hoạt ReLU và cùng kích thước đầu ra của lớp chập thứ hai. Sau đó, lớp này được định hình lại về cùng kích thước với lớp tích chập chiều ngang và được chuyển qua các lớp giải mã liên tiếp, các phép toán nghịch đảo đến giai đoạn tích chập để ước lượng cho mỗi nguồn dự đoán. Mô hình trên [1] đã được thử nghiệm, đánh giá trên tập dữ liệu Demixing Secrets Dataset 100 (DSD100) [4] và đạt được hiệu suất khá tốt, Source to Distortion Ratio (SDR) 1.3 ~ 2.4dB và Source to Interference Ratio (SIR) ~3.6 dB. Trong nghiên cứu này, chúng tôi sử dụng mạng nơron tích chập (CNN) dựa trên cơ sở nghiên cứu của [1] để xây dựng mô hình cho bài toán phân tách giọng hát từ hỗn hợp âm nhạc. Mô hình đề xuất và mô hình VGG16 [13] cũng được thử nghiệm và đánh giá trên tập dữ liệu DSD100 [4]. 3 Đề xuất mô hình phân tách giọng hát từ hỗn hợp âm nhạc 3.1 Mô hình tổng quát hệ thống Hệ thống phân tách giọng hát từ hỗn hợp âm nhạc bao gồm các thành phần: trích chọn đặc trưng, huấn luyện và nhận dạng phân tách giọng hát. Kết quả sau khi trích đặc trưng của tín hiệu âm thanh là một tập 212 Nguyễn Tấn Phú, Nguyễn Nhị Gia Vinh, Lê Thị Diễm và Lê Minh Lý các đặc trưng về thời gian, tần số, biên độ. Chúng tôi sử dụng phương pháp biến đổi Fourier thời gian ngắn (STFT) để trích đặc trưng về biên độ. Mạng nơron tích chập được sử dụng để nhận dạng và phân biệt giọng hát với nhạc đệm. Quá trình huấn luyện mạng nơron tích chập sử dụng các vectơ đặc trưng và nhãn của giọng hát để huấn luyện mạng một cách tự động. Hình 1 mô tả các thành phần và quá trình của hệ thống phân tách giọng hát từ hỗn hợp âm nhạc. Hình 1. Mô hình tổng quát của hệ thống phân tách giọng hát từ hỗn hợp âm nhạc 3.2 Tiền xử lý audio Đầu vào của hệ thống là các tập tin tín hiệu âm thanh audio được lấy từ nguồn dữ liệu DSD100 [4], các tập tin âm thanh audio được thu âm với tần số lấy mẫu fs = 44100 Hz và kích thước cửa sổ Hamming là 1024. Các bài hát trong cở sở dữ liệu DSD100 có độ dài khác nhau, thời lượng trung bình của một bài hát là 4 phút 10 giây. Vì vậy, chúng tôi cần chuẩn hóa chiều dài của các audio. Các file audio sẽ được cắt thành nhiều đoạn, trong đó mỗi đoạn có thời lượng chuẩn là ~290ms. Với các file audio có thời lượng lớn hơn thì chỉ chọn đoạn âm thanh ~290ms nằm ở giữa. Do đó, toàn bộ các file tín hiệu âm thanh đều được phân tích thành ảnh phổ với kích thước 513 x 25 để làm dữ liệu đầu vào cho quá trình rút trích đặc trưng. 3.3 Kiến trúc mô hình mạng nơron tích chập Trong kiến trúc mạng đề xuất, các lớp được đặt tên theo số lượng lớp (lớp tích chập và các lớp kết nối đầy đủ). Ví dụ, mô hình M3 có 2 lớp tích chập và 1 lớp được kết nối đầy đủ (sử dụng các hàm kích hoạt ReLU, MaxPooling2D và Dropout sau các lớp tích chập). Với các thay đổi nhỏ của kiến trúc mạng cũng ảnh hưởng đến tên của cấu trúc mạng, ví dụ M4+D (tăng số lượng bộ lọc (filter) trong các lớp tích chập và điều chỉnh Dropout so với M4), M4++ là tăng số lượng bộ lọc trong các lớp tích chập so với M4+D, M5+f là điều chỉnh kích thước của tất cả bộ lọc. Bảng 1. Kiến trúc các mô hình mạng nơron tích chập Cấu hình các mô hình mạng nơron tích chập Lớp M3 M3+ M4 M4+D M4++ M4+f M4++f 3 lớp 4 lớp Dữ liệu đầu vào (ảnh tỷ lệ xám 513 x 25 pixel) L1 Conv2D- 16 (3,3) ReLU Conv2D- 32 (3,3) ReLU Conv2D- 16 (3,3) ReLU Conv2D- 32 (3,3) ReLU Conv2D- 64 (3,3) ReLU Conv2D- 16 (5,5) ReLU Conv2D-32 (5,5) ReLU MaxPooling2D (2,2) Dropout(0.25) Dropout(0.2) 213 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Cấu hình các mô hình mạng nơron tích chập Lớp M3 M3+ M4 M4+D M4++ M4+f M4++f 3 lớp 4 lớp L2 Conv2D- 32 (3,3) ReLU Conv2D- 64 (3,3) ReLU Conv2D- 32 (3,3) ReLU Conv2D- 64 (3,3) ReLU Conv2D- 128 (3,3) ReLU Conv2D- 32 (5,5) ReLU Conv2D-64 (5,5) ReLU MaxPooling2D (2,2) Dropout(0.5) Dropout(0.2) L3 Conv2D- 64 (3,3) ReLU Conv2D- 128 (3,3) ReLU Conv2D- 256 (3,3) ReLU Conv2D- 64 (5,5) ReLU Conv2D- 128 (5,5) ReLU MaxPooling2D (2,2) Dropout(0.5) Dropout(0.2) FC Flatten () Dense((512), Activation('relu'), Dropout(0.5)) Out Dense(513, activation='softmax') Los s 0.3432 0.3230 0.3421 0.1554 0.1610 0.1605 0.1598 Acc 0.9098 0.9398 0.9298 0.9420 0.9411 0.9415 0.9417 Tim e 39s 82s 33s 155s 396s 49s 105s Trong đó: Loss: tỉ lệ lỗi khi huấn luyện, Acc: Độ chính xác, Time: Thời gian huấn luyện của mỗi epoch. Để kiểm tra mức độ ảnh hưởng độ sâu của mạng trong nhận dạng giọng hát, mô hình mạng nơron tích chập (CNN) được triển khai bắt đầu với mạng 3 lớp, tức là M3, và sau đó thêm lớp vào mạng này theo từng bước. Mô hình CNN được sửa kích thước của tất cả bộ lọc từ 3x3 và tăng lên thành 5x5 ở các mô hình M4+f và M4++f. Để giữ kích thước của đầu ra, mô hình được cố định kích thước trượt (stride) là 1 và kích thước padding=’same’. Việc lựa chọn kích thước bộ lọc nhỏ giúp giảm đáng kể về số lượng tham số trong mạng và giúp việc huấn luyện mạng nhanh hơn. Kết quả thử nghiệm trên tập dữ liệu đã được xử lý ở trên với số vòng lặp (epoch) lặp lại 10 lần, batch_size = 32 cho tất cả các mô hình mạng. Kết quả ở Bảng 1 cho thấy mô hình M4+D đạt độ chính xác khá cao 94.20%, tỉ lệ lỗi 0.1554, thời gian huấn luyện của mỗi epoch là 155s (giây). Từ kết quả trên, mô hình mạng CNN nhận dạng phân tách giọng hát từ hỗn hợp âm nhạc được đề xuất tại Hình 2. Hình 2. Mô hình mạng CNN nhận dạng phân tách giọng hát Mô hình mạng CNN đề xuất bao gồm: lớp đầu vào, 3 lớp tích chập, 3 lớp lấy mẫu, lớp kết nối đầy đủ và lớp đầu ra. Lớp đầu vào có dạng input_shape = (n, 513, 25, 1) trong đó n là số lượng mẫu đầu vào và số lượng kênh là 1 vì là ảnh nhị phân. Lớp 1: lớp tích chập với 32 bộ lọc (filter) với kích thước mỗi bộ lọc là (3x3), lớp lấy mẫu có kích thước (2x2), sử dụng hàm kích hoạt ReLU. Lớp 2: lớp tích chập với 64 bộ lọc với kích thước mỗi bộ lọc là (3x3), lớp lấy mẫu có kích thước (2x2), sử dụng hàm kích hoạt ReLU. Lớp 3: lớp tích chập với 128 bộ lọc với kích thước mỗi bộ lọc là (3x3), lớp lấy mẫu có kích thước (2x2), sử dụng hàm kích hoạt ReLU. 214 Nguyễn Tấn Phú, Nguyễn Nhị Gia Vinh, Lê Thị Diễm và Lê Minh Lý Lớp Flatten (64 x 3 x 128) thành lớp có 24,576 nút, lớp này kết nối với lớp FC (lớp kết nối đầy đủ Dense) sau nó có 512 nút. Lớp kết nối đầy đủ Dense là lớp đầu ra với 513 nút có số lượng trọng số là 512 x 513 + 513 = 263,169 nút. Lớp này sử dụng hàm softmax để biểu diễn phân bố xác suất cho từng giọng hát. 3.4 Mặt nạ nhị phân (Binary masking) Như trong phần nghiên cứu [2], mong muốn tích hợp tính toán của mặt nạ nhị phân cho mỗi nguồn vào mạng. Từ đầu ra của mạng (t,f), ta có thể tính toán mặt nạ nhị phân Mb(f) bằng cách so sánh với ∝ trong miền thính giác, được ký hiệu trong khung thời gian t và tần số f với một ngưỡng như sau: (, ) = 1 ế (, ) > ∝ 0 , ượ ạ (1) Mặt nạ sau đó được áp dụng cho tín hiệu hỗn hợp đầu vào để ước lượng cho kết quả dự đoán: ̂(, ) = (, ). (, ) (2) Trong đó (, ) là phổ của tín hiệu hỗn hợp đầu vào. 4 Kết quả thử nghiệm Nghiên cứu sử dụng tập dữ liệu DSD100 [4] gồm 100 bài hát để huấn luyện và đánh giá mô hình. Bộ dữ liệu này được chia thành hai phần: 70 bài hát dành cho quá trình huấn luyện mô hình, 30 bài hát còn lại dành cho quá trình kiểm tra, đánh giá mô hình. Quá trình thực nghiệm mô hình được thực hiện dựa trên máy tính cá nhân, với cấu hình như sau: Intel® Core™ i5- 7200U CPU @ 2.50GHz 2.70GHz , RAM 8GB. 4.1 Kết quả thực nghiệm Mô hình mạng nơron tích chập (CNN) được huấn luyện bằng cách sử dụng lựa chọn giá trị batch_size = 32 và số vòng lặp (epoch) tăng dần ảnh hưởng đến sự thay đổi tốc độ học và đồng thời cũng ảnh hưởng đến tỉ lệ lỗi, độ chính xác, thời gian huấn luyện của mô hình. Kết quả thực nghiệm cho thấy giá trị batch_size=32, số vòng lặp (epoch) = 50 cho kết quả cao nhất với độ chính xác là 97.24%. Bảng 2 mô tả kết quả huấn luyện và kiểm tra khi thay đổi số vòng lặp qua các trường hợp. Bảng 2. Bảng tổng hợp so sánh kết quả thử nghiệm Trường hợp Batch_size Số vòng lặp (epoch) Số lượng mẫu Tỉ lệ lỗi Độ chính xác (%) Huấn luyện Kiểm tra 1 32 10 61,960 24,785 0.1554 94.20% 2 32 20 61,960 24,785 0.1460 94.43% 3 32 50 61,960 24,785 0.0482 97.24% 4 32 100 61,960 24,785 0.0725 94.42% Biểu đồ ở Hình 3 thể hiện tỉ lệ lỗi và độ chính xác với số vòng lặp (epoch) = 50 và batch_size = 32 cho thấy các thay đổi trong quá trình thực nghiệm. 215 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Hình 3. Biểu đồ tỉ lệ lỗi và độ chính xác của mô hình mạng CNN với epoch = 50 và batch_size = 32 Hình 3 và kết quả của Bảng 2 cho thấy mô hình mạng nơron tích chập (CNN) cho kết quả cao nhất với độ chính xác 97,24% tương ứng với số vòng lặp (epoch) = 50. 4.2 So sánh kết quả thực nghiệm Kết quả thực nghiệm với mô hình VGG16 [13] biểu đồ cho thấy tỉ lệ lỗi và độ chính xác với epoch = 50 và batch_size = 32 để thấy các thay đổi trong quá trình thực nghiệm. Hình 4. Biểu đồ tỉ lệ lỗi và độ chính xác của mô hình VGG16 với epoch = 50 và batch_size = 32 Hình 4 thể hiện độ chính xác của mô hình mạng VGG16 khi huấn luyện và kiểm tra là ổn định, giá trị lỗi giảm dần, độ chính xác của mô hình VGG16 trên tập kiểm tra là 93.98% và không có chiều hướng tăng trong khi tỉ lệ lỗi có chiều hướng tăng dần. Hình 5 biểu diễn kết quả thực nghiệm với mô hình mạng VGG16 và mô hình mạng nơron đề xuất, hai mô hình được huấn luyện trên cùng tập dữ liệu đã được xử lý, số vòng lặp (epoch) tăng dần và số batch_size = 32. 216 Nguyễn Tấn Phú, Nguyễn Nhị Gia Vinh, Lê Thị Diễm và Lê Minh Lý Hình 5. So sánh tỉ lệ lỗi và độ chính xác của hai mô hình VGG16 và mô hình mạng CNN đề xuất So sánh kết quả thử nghiệm: Bảng 3 mô tả sự so sánh giữa độ chính xác thu được từ mô hình mạng CNN đề xuất và các mô hình khác được sử dụng để nhận dạng và phân tách giọng hát trong các nghiên cứu trước đây. Bảng 3. Bảng so sánh kết quả thử nghiệm STT Mô hình Độ chính xác (%) 1 Derek Mendez, Tarun Pondicherry, Chris Young [3] 90% 2 VGG16 [13] 93.98% 3 Mô hình mạng CNN đề xuất 97.24% Độ chính xác từ mô hình mạng nơron tích chập CNN đề xuất cao hơn kết quả thử nghiệm từ mô hình VGG16 [13] và các công trình nghiên cứu trước đó. Với độ chính xác thu được từ mô hình mạng CNN là 97.24% trên tập dữ liệu kiểm tra cho thấy mô hình đề xuất với việc điều chỉnh và bổ sung các tham số như MaxPooling2D, Dropout và hàm kích hoạt ReLU ở các lớp tích chập và lớp kết nối đầy đủ đã giảm tỉ lệ lỗi đáng kể và cho độ chính xác cao so với các mô hình trước đó. 5 Kết luận và thảo luận Bài báo này trình bày mô hình phân tách giọng hát từ hỗn hợp âm nhạc sử dụng mạng nơron tích chập (CNN). Tuy nhiên, đây là một công việc không đơn giản vì các thể loại nhạc vẫn còn là một khái niệm mở và tùy thuộc vào ý kiến chủ quan của con người. Trong nghiên cứu này, chúng tôi đề xuất sử dụng STFT để rút trích các đặc trưng. STFT là một kỹ thuật phân tích tín hiệu, cung cấp một cách biểu diễn tín hiệu trong miền thời gian và tần số dưới dạng ảnh phổ làm cho việc tính toán nhanh và hiệu quả. Nghiên cứu cũng tập trung vào việc phân tách giọng hát bằng cách sử dụng kết hợp các đặc trưng về thời gian, tần số và biên độ tạo nên một vectơ đặc trưng. Trong thời gian tới, nghiên cứu sẽ tập trung vào việc xây dựng và bổ sung tập các thuộc tính mô tả khái niệm giọng hát để nâng cao độ chính xác của mô hình mạng CNN. Ngoài ra, chúng tôi sẽ nghiên cứu và đề xuất mô hình CNN riêng cho bài toán trích xuất các thông tin âm nhạc có ý nghĩa từ các tín hiệu âm thanh. LỜI CẢM ƠN Các tác giả chân thành cảm ơn Khoa Công nghệ Thông tin, Trường Đại học Cần Thơ, Trường Đại học Kỹ thuật Công nghệ Cần Thơ đã hỗ trợ để chúng tôi có thể thực hiện thành công đề tài. 217 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Tài liệu tham khảo 1. Pritish Chandna, Marius Miron, Jordi Janer, and Emilia G´omez (2017), “Monoaural Audio Source Separation Using Deep Convolutional Neural Networks”, semantic scholar Corpus ID: 27739613. 2. Po-Sen Huang, Minje Kim, Mark Hasegawa-Johnson, Paris Smaragdis (2014), “Singing-voice separation from monaural recordings using deep recurrent neural networks”, ISMIR, Corpus ID: 122871. 3. Derek Mendez, Tarun Pondicherry, Chris Young (2012), “Extracting vocal sources from master audio recordings”, semantic scholar. 4. Zafar R., Fabian S. and Antoine L. (2016),“ Professionally-produced music recordings”, [Online] Available: https://sisec.inria.fr/sisec-2016/2016-professionally-produced-music-recordings/. 5. Wang, Y., Narayanan, A., and Wang, D. (2014), “On Training Targets for Supervised Speech Separation”, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 22(12):1849–1858. 6. Nugraha, A. A., Liutkus, A., and Vincent, E. (2016), “Multichannel audio source separation with deep neural networks”, Technical report. 7. Huang, P.-S., Kim, M., Hasegawa-Johnson, M., and Smaragdis, P. (2014), “Deep Learning for Monaural Speech Separation”. Acoustics, Speech and Signal Processing (ICASSP), pp. 1562–1566. 8. Uhlich, S., Giron, F., and Mitsufuji, Y. (2015), “Deep neural network based instrument extraction from music”, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2135–2139. 9. Krizhevsky, A., Sutskever, I., and Hinton, G. E. (2012), “ImageNet Classification with Deep Convolutional Neural Networks”, In Advances in Neural Information Processing Systems, pp. 1097–1105. 10. Simpson, A. J. R. (2015), “Probabilistic Binary-Mask Cocktail-Party Source Separation in a Convolutional Deep Neural Network”, arXiv:1503.06962. 11. Dong, C., Loy, C. C., He, K., and Tang, X. (2015), “Image super-resolution using deep convolutional networks”, CoRR, abs/1501.00092. 12. Noh, H., Hong, S., and Han, B. (2015), “Learning deconvolution network for semantic segmentation”, CoRR, abs/1505.04366. 13. Srikanth Tammina (2019), “Transfer learning using VGG-16 with Deep Convolutional Neural Network for Classifying Images”, IJSRP, Vol. 9, Issue 10, ISSN 2250-3153, 218

Các file đính kèm theo tài liệu này:

  • pdfmo_hinh_mang_noron_tich_chap_phan_tach_giong_hat_tu_hon_hop.pdf