AI 음성 인식
[OpenNote]학습 데이터셋 구축-1 (오디오 데이터셋 수집)
yc7764
2025. 5. 24. 20:03
들어가기 전
- 현재 사전 학습된 오픈 모델을 활용하고 있으나 성능에 한계가 있는 것을 확인
- 이에 따라 한국어, 서비스에 맞도록 파인튜닝을 진행할 예정
- 활용 가능한 음성 관련 데이터들을 수집하고 확인해서 학습 데이터셋을 구축할 예정
- 현재까지 수집한 데이터셋을 리스트업하고 원본 데이터의 정보들을 확인
- 각 데이터별 특성과 AI 모델에 맞도록 전처리 후 활용할 예정
- 전처리 및 데이터셋 구축 관련 코드와 학습 결과 등은 추후 Github를 통해 공유할 예정
- 모든 데이터는 상업적 목적으로 활용하지 않으며, 원본 데이터 정보는 공개하나 구축한 데이터셋을 직접 공유할 계획은 없음
데이터셋 종류
1. 한국어 음성
- 데이터 기본 정보
- 데이터셋 명칭: KsponSpeech
- 출처/배포처: AIHUB
- URL: https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=123
- 라이센스: 제한적으로 비상업적/상업적 목적의 연구에 활용 가능
- 데이터셋 상세 정보
- 전체 용량: 104.79GB
- 전체 오디오 파일 수: 628,545개
- 총 오디오 길이: 약 975시간 (58,532분)
- 전체 데이터셋 폴더 구조
10.한국어음성/
├── KsponSpeech_scripts/ # 스크립트 관련 폴더
│ ├── train.trn
│ ├── dev.trn
│ ├── eval_clean.trn
│ └── eval_other.trn
├── KsponSpeech_eval/ # 평가용 데이터 폴더
│ ├── eval_clean/
│ │ ├── KsponSpeech_E00238.pcm
│ │ ├── KsponSpeech_E01097.pcm
│ │ └── ... (다수의 .pcm 파일)
│ └── eval_other/
│ ├── KsponSpeech_E03583.pcm
│ ├── KsponSpeech_E03705.pcm
│ └── ... (다수의 .pcm 파일)
├── KsponSpeech_01/ # 음성 데이터 폴더 (1)
│ ├── KsponSpeech_0100/
│ ├── KsponSpeech_0101/
│ │ ├── KsponSpeech_100951.pcm
│ │ ├── KsponSpeech_100951.txt
│ │ ├── KsponSpeech_100952.pcm
│ │ ├── KsponSpeech_100952.txt
│ │ └── ... (다수의 .pcm, .txt 파일)
│ ├── KsponSpeech_0102/
│ └── ... (다수의 하위 폴더)
├── KsponSpeech_02/ # 음성 데이터 폴더 (2)
├── KsponSpeech_03/ # 음성 데이터 폴더 (3)
├── KsponSpeech_04/ # 음성 데이터 폴더 (4)
└── KsponSpeech_05/ # 음성 데이터 폴더 (5)
2. ClovaCall
- 데이터 기본 정보
- 데이터셋 명칭: clovacall_data-2
- 출처/배포처: Naver 클로바AI
- URL: https://github.com/clovaai/ClovaCall
- 라이센스: URL 내의 Dataset downloading and license 내용 참고
- 데이터셋 상세 정보
- 전체 용량: 5.3GB
- 전체 오디오 파일 수: 60,746개
- 총 오디오 길이: 약 47시간 (2,848분)
- 전체 데이터셋 폴더 구조
clovacall_data-2/
├── train_ClovaCall.json # 학습 데이터 메타/스크립트 파일
├── test_ClovaCall.json # 테스트 데이터 메타/스크립트 파일
├── wavs_train/ # 학습용 오디오 파일 폴더
│ └── ... (다수의 .wav 파일)
└── wavs_test/ # 테스트용 오디오 파일 폴더
└── ... (다수의 .wav 파일)
3. KSS Dataset: Korean Single Speaker Speech Dataset
- 데이터 기본 정보
- 데이터셋 명칭:Korean Single Speaker Speech Dataset
- 출처/배포처: 박규병(Kyubyong Park)
- URL: https://www.kaggle.com/datasets/bryanpark/korean-single-speaker-speech-dataset
- 라이센스: CC BY-NC-SA 4.0
- 데이터셋 상세 정보
- 전체 용량: 4.1GB
- 전체 오디오 파일 수: 12,854개
- 총 오디오 길이: 약 13시간 (771분)
- 전체 데이터셋 폴더 구조
kss/
├── transcript.v.1.4.txt # 전체 스크립트(텍스트) 파일
└── kss/
├── 1/
│ ├── 1_1000.wav
│ ├── 1_1001.wav
│ └── ... (다수의 .wav 파일)
├── 2/
│ ├── 2_1100.wav
│ ├── 2_1101.wav
│ └── ... (다수의 .wav 파일)
├── 3/
│ └── ... (다수의 .wav 파일)
└── 4/
└── ... (다수의 .wav 파일)
4. Mozilla dataset
- 데이터 기본 정보
- 데이터셋 명칭: Mozilla Common Voice 한국어 데이터셋
- 출처/배포처: Mozilla Foundation
- URL: https://commonvoice.mozilla.org/en/datasets
- 라이센스: CC0 (퍼블릭 도메인)
- 데이터셋 상세 정보
- 전체 용량: 1.2GB
- 전체 오디오 파일 수: 31,876개
- 총 오디오 길이:
- 전체 데이터셋 폴더 구조
mozilla/
├── cv-corpus-20.0-2024-12-06-ko/
│ └── cv-corpus-20.0-2024-12-06/
│ └── ko/
│ ├── clip_durations.tsv
│ ├── dev.tsv
│ ├── invalidated.tsv
│ ├── other.tsv
│ ├── reported.tsv
│ ├── test.tsv
│ ├── train.tsv
│ ├── unvalidated_sentences.tsv
│ ├── validated.tsv
│ ├── validated_sentences.tsv
│ └── clips/
│ ├── common_voice_ko_41869424.mp3
│ ├── common_voice_ko_41869425.mp3
│ └── ... (다수의 .mp3 파일)
├── cv-corpus-20.0-delta-2024-12-06-ko/
├── cv-corpus-19.0-2024-09-13-ko/
├── cv-corpus-19.0-delta-2024-09-13-ko/
├── cv-corpus-18.0-2024-06-14-ko/
├── cv-corpus-18.0-delta-2024-06-14-ko/
├── cv-corpus-17.0-2024-03-15-ko/
├── cv-corpus-17.0-delta-2024-03-15-ko/
├── cv-corpus-16.1-2023-12-06-ko/
├── cv-corpus-16.1-delta-2023-12-06-ko/
├── cv-corpus-15.0-2023-09-08-ko/
├── cv-corpus-15.0-delta-2023-09-08-ko/
├── cv-corpus-14.0-2023-06-23-ko/
├── cv-corpus-14.0-delta-2023-06-23-ko/
├── cv-corpus-13.0-2023-03-09-ko/
├── cv-corpus-13.0-delta-2023-03-09-ko/
└── cv-corpus-12.0-2022-12-07-ko/
5. Zeroth korean
- 데이터 기본 정보
- 데이터셋 명칭: Zeroth korean
- 출처/배포처: OpenSLR SLR40
- URL: https://github.com/goodatlas/zeroth
- 라이센스: CC BY 4.0 (출처 표기 시 상업적 이용 가능)
- 데이터셋 상세 정보
- 전체 용량: 10GB
- 전체 오디오 파일 수: 22,720개
- 총 오디오 길이: 52.8시간
- 화자 수: 115명
- 발화 수: 22,263개
- 전체 데이터셋 폴더 구조
zeroth_korean/
├── train_data_01/
│ └── 003/
│ └── 106/
│ ├── 106_003_2499.flac
│ ├── 106_003_2135.flac
│ ├── ... (다수의 .flac 오디오 파일)
│ └── 106_003.trans.txt # 해당 폴더 오디오의 텍스트 스크립트
│ └── 107/
│ └── ... (다수의 하위 폴더)
│ └── ... (다수의 상위 폴더)
├── test_data_01/
│ └── ... (구조 동일)
├── zeroth_morfessor.seg
├── zeroth.lm.tg.arpa.gz
├── zeroth.lm.tgmed.arpa.gz
├── zeroth.lm.tgsmall.arpa.gz
├── zeroth.lm.fg.arpa.gz
├── zeroth_lexicon
└── AUDIO_INFO
마치며
- 이외에도 다른 데이터셋이 있지만 많이 사용되는 데이터셋을 위주로 활용
- 데이터별 특성, 도메인 등 보다 상세한 정보를 분석할 예정
- 추후 추가 데이터셋 확보 시 해당 글 수정할 예정
- 수집한 데이터로 학습데이터셋을 생성
- STT, Diarization 모델을 파인튜닝 및 성능 평가할 목적으로 활용