[OpenNote]학습 데이터셋 구축-1 (오디오 데이터셋 수집)

AI 음성 인식

[OpenNote]학습 데이터셋 구축-1 (오디오 데이터셋 수집)

yc7764 2025. 5. 24. 20:03

들어가기 전

현재 사전 학습된 오픈 모델을 활용하고 있으나 성능에 한계가 있는 것을 확인
이에 따라 한국어, 서비스에 맞도록 파인튜닝을 진행할 예정
활용 가능한 음성 관련 데이터들을 수집하고 확인해서 학습 데이터셋을 구축할 예정
현재까지 수집한 데이터셋을 리스트업하고 원본 데이터의 정보들을 확인
각 데이터별 특성과 AI 모델에 맞도록 전처리 후 활용할 예정
전처리 및 데이터셋 구축 관련 코드와 학습 결과 등은 추후 Github를 통해 공유할 예정
모든 데이터는 상업적 목적으로 활용하지 않으며, 원본 데이터 정보는 공개하나 구축한 데이터셋을 직접 공유할 계획은 없음

데이터셋 종류

1. 한국어 음성

데이터 기본 정보
- 데이터셋 명칭: KsponSpeech
- 출처/배포처: AIHUB
- URL: https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=123
- 라이센스: 제한적으로 비상업적/상업적 목적의 연구에 활용 가능
데이터셋 상세 정보
- 전체 용량: 104.79GB
- 전체 오디오 파일 수: 628,545개
- 총 오디오 길이: 약 975시간 (58,532분)
전체 데이터셋 폴더 구조

10.한국어음성/
├── KsponSpeech_scripts/         # 스크립트 관련 폴더
│   ├── train.trn
│   ├── dev.trn
│   ├── eval_clean.trn
│   └── eval_other.trn
├── KsponSpeech_eval/            # 평가용 데이터 폴더
│   ├── eval_clean/
│   │   ├── KsponSpeech_E00238.pcm
│   │   ├── KsponSpeech_E01097.pcm
│   │   └── ... (다수의 .pcm 파일)
│   └── eval_other/
│       ├── KsponSpeech_E03583.pcm
│       ├── KsponSpeech_E03705.pcm
│       └── ... (다수의 .pcm 파일)
├── KsponSpeech_01/              # 음성 데이터 폴더 (1)
│   ├── KsponSpeech_0100/
│   ├── KsponSpeech_0101/
│   │   ├── KsponSpeech_100951.pcm
│   │   ├── KsponSpeech_100951.txt
│   │   ├── KsponSpeech_100952.pcm
│   │   ├── KsponSpeech_100952.txt
│   │   └── ... (다수의 .pcm, .txt 파일)
│   ├── KsponSpeech_0102/
│   └── ... (다수의 하위 폴더)
├── KsponSpeech_02/              # 음성 데이터 폴더 (2)
├── KsponSpeech_03/              # 음성 데이터 폴더 (3)
├── KsponSpeech_04/              # 음성 데이터 폴더 (4)
└── KsponSpeech_05/              # 음성 데이터 폴더 (5)

2. ClovaCall

데이터 기본 정보
- 데이터셋 명칭: clovacall_data-2
- 출처/배포처: Naver 클로바AI
- URL: https://github.com/clovaai/ClovaCall
- 라이센스: URL 내의 Dataset downloading and license 내용 참고
데이터셋 상세 정보
- 전체 용량: 5.3GB
- 전체 오디오 파일 수: 60,746개
- 총 오디오 길이: 약 47시간 (2,848분)
전체 데이터셋 폴더 구조

clovacall_data-2/
├── train_ClovaCall.json      # 학습 데이터 메타/스크립트 파일
├── test_ClovaCall.json       # 테스트 데이터 메타/스크립트 파일
├── wavs_train/               # 학습용 오디오 파일 폴더
│   └── ... (다수의 .wav 파일)
└── wavs_test/                # 테스트용 오디오 파일 폴더
    └── ... (다수의 .wav 파일)

3. KSS Dataset: Korean Single Speaker Speech Dataset

데이터 기본 정보
- 데이터셋 명칭:Korean Single Speaker Speech Dataset
- 출처/배포처: 박규병(Kyubyong Park)
- URL: https://www.kaggle.com/datasets/bryanpark/korean-single-speaker-speech-dataset
- 라이센스: CC BY-NC-SA 4.0
데이터셋 상세 정보
- 전체 용량: 4.1GB
- 전체 오디오 파일 수: 12,854개
- 총 오디오 길이: 약 13시간 (771분)
전체 데이터셋 폴더 구조

kss/
├── transcript.v.1.4.txt      # 전체 스크립트(텍스트) 파일
└── kss/
    ├── 1/
    │   ├── 1_1000.wav
    │   ├── 1_1001.wav
    │   └── ... (다수의 .wav 파일)
    ├── 2/
    │   ├── 2_1100.wav
    │   ├── 2_1101.wav
    │   └── ... (다수의 .wav 파일)
    ├── 3/
    │   └── ... (다수의 .wav 파일)
    └── 4/
        └── ... (다수의 .wav 파일)

4. Mozilla dataset

데이터 기본 정보
- 데이터셋 명칭: Mozilla Common Voice 한국어 데이터셋
- 출처/배포처: Mozilla Foundation
- URL: https://commonvoice.mozilla.org/en/datasets
- 라이센스: CC0 (퍼블릭 도메인)
데이터셋 상세 정보
- 전체 용량: 1.2GB
- 전체 오디오 파일 수: 31,876개
- 총 오디오 길이:
전체 데이터셋 폴더 구조

mozilla/
├── cv-corpus-20.0-2024-12-06-ko/
│   └── cv-corpus-20.0-2024-12-06/
│       └── ko/
│           ├── clip_durations.tsv
│           ├── dev.tsv
│           ├── invalidated.tsv
│           ├── other.tsv
│           ├── reported.tsv
│           ├── test.tsv
│           ├── train.tsv
│           ├── unvalidated_sentences.tsv
│           ├── validated.tsv
│           ├── validated_sentences.tsv
│           └── clips/
│               ├── common_voice_ko_41869424.mp3
│               ├── common_voice_ko_41869425.mp3
│               └── ... (다수의 .mp3 파일)
├── cv-corpus-20.0-delta-2024-12-06-ko/
├── cv-corpus-19.0-2024-09-13-ko/
├── cv-corpus-19.0-delta-2024-09-13-ko/
├── cv-corpus-18.0-2024-06-14-ko/
├── cv-corpus-18.0-delta-2024-06-14-ko/
├── cv-corpus-17.0-2024-03-15-ko/
├── cv-corpus-17.0-delta-2024-03-15-ko/
├── cv-corpus-16.1-2023-12-06-ko/
├── cv-corpus-16.1-delta-2023-12-06-ko/
├── cv-corpus-15.0-2023-09-08-ko/
├── cv-corpus-15.0-delta-2023-09-08-ko/
├── cv-corpus-14.0-2023-06-23-ko/
├── cv-corpus-14.0-delta-2023-06-23-ko/
├── cv-corpus-13.0-2023-03-09-ko/
├── cv-corpus-13.0-delta-2023-03-09-ko/
└── cv-corpus-12.0-2022-12-07-ko/

5. Zeroth korean

데이터 기본 정보
- 데이터셋 명칭: Zeroth korean
- 출처/배포처: OpenSLR SLR40
- URL: https://github.com/goodatlas/zeroth
- 라이센스: CC BY 4.0 (출처 표기 시 상업적 이용 가능)
데이터셋 상세 정보
- 전체 용량: 10GB
- 전체 오디오 파일 수: 22,720개
- 총 오디오 길이: 52.8시간
- 화자 수: 115명
- 발화 수: 22,263개
전체 데이터셋 폴더 구조

zeroth_korean/
├── train_data_01/
│   └── 003/
│       └── 106/
│           ├── 106_003_2499.flac
│           ├── 106_003_2135.flac
│           ├── ... (다수의 .flac 오디오 파일)
│           └── 106_003.trans.txt   # 해당 폴더 오디오의 텍스트 스크립트
│       └── 107/
│       └── ... (다수의 하위 폴더)
│   └── ... (다수의 상위 폴더)
├── test_data_01/
│   └── ... (구조 동일)
├── zeroth_morfessor.seg
├── zeroth.lm.tg.arpa.gz
├── zeroth.lm.tgmed.arpa.gz
├── zeroth.lm.tgsmall.arpa.gz
├── zeroth.lm.fg.arpa.gz
├── zeroth_lexicon
└── AUDIO_INFO

마치며

이외에도 다른 데이터셋이 있지만 많이 사용되는 데이터셋을 위주로 활용
데이터별 특성, 도메인 등 보다 상세한 정보를 분석할 예정
추후 추가 데이터셋 확보 시 해당 글 수정할 예정
수집한 데이터로 학습데이터셋을 생성
STT, Diarization 모델을 파인튜닝 및 성능 평가할 목적으로 활용