코딩 다이어리
Demucs: Deep Extractor for Music Sources with extraunlabeled data remixed 본문
Demucs: Deep Extractor for Music Sources with extraunlabeled data remixed
yc7764 2024. 10. 29. 18:46들어가기 전
음성 향상 기술을 조사하면서 facebook의 denoiser(https://github.com/facebookresearch/denoiser)를 알게 되었고 denoiser를 활용하기 위하여 원천 기술인 Demucs를 이해하려고 하였다. Demucs는 음악에서 보컬, 드럼, 베이스, 다른 기타 악기의 음원을 분리하는 기술로, 음원 중에서 보컬의 음원만을 분리하는 것에 초점을 맞추어 잡음에서 사람의 음성을 추출해내는 기술로 발전하였다. 잡음에서 사람의 음성을 추출해내는 것, 즉 잡음을 제거하는 효과로 음성의 품질을 향상시키고 있다. 또한 음원 분리를 위한 방법으로 spectrogram 기반 방법과 waveform 기반 방법 두가지가 있고 차이점과 장단점을 확인할 수 있었다. 음원 분리를 위한 아래의 논문은 잡음 제거의 원천 기술에 대한 논문 내용을 리뷰한 것으로 잘못 이해한 내용이나 오번역이 있을 수 있다.
1. Introduction

Colin Cherry는 여러 사람들의 대화 소리로 시끄러운 방에서 사람의 뇌가 어떻게 특정한 한 개의 대화만을 분리해 듣고 인식할 수 있는 지(cocktail party effect)에 대해 연구를 시작하였다.
프로듀서가 음악을 만들 때, 개별적인 악기의 소리들이 함께 동시에 배치되어 음악이 완성된다. 음원 분리의 최종 목표는 혼합된 음성 신호에서 개별적인 악기의 소리들을 모두 복원해내는 것이다. 분리하여야 하는 음원의 카테고리는 (1) 드럼, (2) 베이스, (3) other, (4) 보컬로 정의하였다.
음원 분리 분야의 기존 접근 방식은 spectrogram 기반 방법이 주로 사용되며, waveform 기반 방법은 비교적 성능이 떨어진다. 이 논문에서는 Demucs라는 새로운 합성곱 및 순환 모델을 제안하며, 기존 waveform 기반 방법의 최신 모델인 Wave-U-Net보다 성능이 높다.
2. Related Work
Spectrogram 기반 방법에서는 전통적으로 비지도 학습 방식(NMF, ICA 등)이 주로 사용되었으며 딥러닝의 발전으로 완전 지도 학습 방법이 주목을 받기 시작했다. 또한 waveform 기반 방법은 Wavenet 기반의 회귀 접근법이 처음 사용되며 Wave-U-Net이 제안되어 두 도메인에 모두 적용되었지만 spectrogram 기반 방법보다 waveform 기반 방법의 성능이 떨어진다.
3. Model Architecture
제시된 새로운 모델의 구조는 음표 합성을 위해 개발된 SING 구조와 Wave-U-Net 구조의 아이디어를 혼합한 구조이다.
우리는 Wave-U-Net의 U-Net 구조를 유지하면서 SING의 LSTM과 합성곱 레이어의 조합뿐만 아니라 큰 stride와 많은 수의 채널로 합성된 결과물을 재사용한다. 모델은 합성곱 인코더와 LSTM 및 합성곱 디코더로 구성되며, 인코더와 디코더는 skip U-Net connection들로 연결된다. 초기 실험에서 배치 정규화가 모델 성능에 악영향을 끼치는 것을 확인하여 배치 정규화를 활용하지 않았다.
Weights rescaling
일반적인 딥러닝 모델에서는 합성곱 레이어의 가중치 보통 입력 채널 수와 수용 영역 크기를 고려하여 초기화되며, 이로인해 네트워크의 첫 레이어와 마지막 레이어의 가중치 표준편차가 클 수 있다. 이때, 최신 optimizer는 모든 가중치에 대해 동일한 크기의 가중치 조정을 하기 때문에 첫 레이어에 적합한 학습률이 마지막 레이어에는 너무 클 수 있다. 이러한 문제를 해결하기 위해 레이어별 학습률과 유사한 효과를 내는 트릭을 사용한다. 이 트릭은 GAN 이미지 생성에서 사용되는 equalized learning rate 트릭과 유사하며, 이러한 트릭을 사용하여 학습 손실이 더 빠르게 감소하고 더 나은 최적점에 수렴하는 것을 확인하였다. 이 방법은 네트워크의 각 레이어가 적절한 크기의 업데이트를 받도록 하여 전체적인 학습 성능을 개선하는 것을 목표로 한다.
Synthesis vs. filtering
Wave-U-Net 구조는 디코더의 출력을 선형 보간법으로 업샘플링을 진행하며 업샘플링된 결과를 인코더의 해당 레이어 출력과 연결하고 stride 1의 합성곱을 적용하여 채널을 분리한다. 새로운 모델 구조에서는 디코더의 출력을 인코더의 해당 레이어 출력과 연결하고 전치 합성곱을 사용해 업샘플링한다. Wave-U-Net 구조가 점진적으로 업샘플링하고 고주파 성분을 추가한 후 필터링하는 방식이라면 새로운 모델은 직접적인 신호를 합성하는 방식이다. 이를 통해 디코더에서 더 큰 stride를 사용할 수 있어 계산 속도가 빠르고 더 많은 채널을 사용할 수 있어 성능이 향상된다.
Conclusion
이 논문에서는 파형 기반 소스 분리와 오디오 합성 분야의 이전 연구에서 영감을 받은 간단한 구조인 Demucs를 제시한다. 이 모델은 MusDB 데이터셋에만 훈련했을 때, spectrogram 기반 방식과 waveform 기반 방식의 SDR 격차를 줄였다. 마지막으로 라벨링되지 않은 데이터를 학습시켜 최신 spectrogram 기반 방식과 거의 비슷한 성능을 얻어내었으며, 베이스 음원에 대해서는 더 나은 성능을 보였다. 이는 waveform 기반 방식이 spectrogram과 경쟁할 만할 정도로 성능이 개선되었음을 보여준다.
마무리
- 라벨링되지 않은 데이터를 효과적으로 활용하는 방법이 참고할만함
- waveform 기반의 방법을 활용한 기술로 더욱 자연스러운 결과를 도출할 수 있을 것으로 예상
논문 출처
- Défossez, A., Usunier, N., Bottou, L., & Bach, F. (2019). Demucs: Deep Extractor for Music Sources with extra unlabeled data remixed. arXiv preprint arXiv:1909.01174.
- 주요 정보
- 저자: Alexandre Défossez, Nicolas Usunier, Léon Bottou, Francis Bach
- 제목: Demucs: Deep Extractor for Music Sources with extra unlabeled data remixed
- 출처: arXiv preprint
- 식별자: arXiv:1909.01174
- 연도: 2019
'논문 리뷰' 카테고리의 다른 글
OpenVoice: Versatile Instant Voice Cloning (2) | 2025.01.03 |
---|