AI 음성 인식

[OpenNote]학습 데이터셋 구축-1 (오디오 데이터셋 수집)

yc7764 2025. 5. 24. 20:03

들어가기 전

  • 현재 사전 학습된 오픈 모델을 활용하고 있으나 성능에 한계가 있는 것을 확인
  • 이에 따라 한국어, 서비스에 맞도록 파인튜닝을 진행할 예정
  • 활용 가능한 음성 관련 데이터들을 수집하고 확인해서 학습 데이터셋을 구축할 예정
  • 현재까지 수집한 데이터셋을 리스트업하고 원본 데이터의 정보들을 확인
  • 각 데이터별 특성과 AI 모델에 맞도록 전처리 후 활용할 예정
  • 전처리 및 데이터셋 구축 관련 코드와 학습 결과 등은 추후 Github를 통해 공유할 예정
  • 모든 데이터는 상업적 목적으로 활용하지 않으며, 원본 데이터 정보는 공개하나 구축한 데이터셋을 직접 공유할 계획은 없음

데이터셋 종류

1. 한국어 음성

AIHUB 홈페이지 내 한국어 음성 데이터셋 상세 페이지

  1. 데이터 기본 정보
  2. 데이터셋 상세 정보
    • 전체 용량: 104.79GB
    • 전체 오디오 파일 수: 628,545개
    • 총 오디오 길이: 약 975시간 (58,532분)
  3. 전체 데이터셋 폴더 구조
10.한국어음성/
├── KsponSpeech_scripts/         # 스크립트 관련 폴더
│   ├── train.trn
│   ├── dev.trn
│   ├── eval_clean.trn
│   └── eval_other.trn
├── KsponSpeech_eval/            # 평가용 데이터 폴더
│   ├── eval_clean/
│   │   ├── KsponSpeech_E00238.pcm
│   │   ├── KsponSpeech_E01097.pcm
│   │   └── ... (다수의 .pcm 파일)
│   └── eval_other/
│       ├── KsponSpeech_E03583.pcm
│       ├── KsponSpeech_E03705.pcm
│       └── ... (다수의 .pcm 파일)
├── KsponSpeech_01/              # 음성 데이터 폴더 (1)
│   ├── KsponSpeech_0100/
│   ├── KsponSpeech_0101/
│   │   ├── KsponSpeech_100951.pcm
│   │   ├── KsponSpeech_100951.txt
│   │   ├── KsponSpeech_100952.pcm
│   │   ├── KsponSpeech_100952.txt
│   │   └── ... (다수의 .pcm, .txt 파일)
│   ├── KsponSpeech_0102/
│   └── ... (다수의 하위 폴더)
├── KsponSpeech_02/              # 음성 데이터 폴더 (2)
├── KsponSpeech_03/              # 음성 데이터 폴더 (3)
├── KsponSpeech_04/              # 음성 데이터 폴더 (4)
└── KsponSpeech_05/              # 음성 데이터 폴더 (5)

2. ClovaCall

ClovaCall Github 저장소 페이지

  1. 데이터 기본 정보
    • 데이터셋 명칭: clovacall_data-2
    • 출처/배포처: Naver 클로바AI
    • URL: https://github.com/clovaai/ClovaCall
    • 라이센스: URL 내의 Dataset downloading and license 내용 참고
  2. 데이터셋 상세 정보
    • 전체 용량: 5.3GB
    • 전체 오디오 파일 수: 60,746개
    • 총 오디오 길이: 약 47시간 (2,848분)
  3.  전체 데이터셋 폴더 구조
clovacall_data-2/
├── train_ClovaCall.json      # 학습 데이터 메타/스크립트 파일
├── test_ClovaCall.json       # 테스트 데이터 메타/스크립트 파일
├── wavs_train/               # 학습용 오디오 파일 폴더
│   └── ... (다수의 .wav 파일)
└── wavs_test/                # 테스트용 오디오 파일 폴더
    └── ... (다수의 .wav 파일)

3. KSS Dataset: Korean Single Speaker Speech Dataset

Kaggle 내의 KSS 데이터셋 페이지

  1. 데이터 기본 정보
  2. 데이터셋 상세 정보
    • 전체 용량: 4.1GB
    • 전체 오디오 파일 수: 12,854개
    • 총 오디오 길이: 약 13시간 (771분)
  3.  전체 데이터셋 폴더 구조
kss/
├── transcript.v.1.4.txt      # 전체 스크립트(텍스트) 파일
└── kss/
    ├── 1/
    │   ├── 1_1000.wav
    │   ├── 1_1001.wav
    │   └── ... (다수의 .wav 파일)
    ├── 2/
    │   ├── 2_1100.wav
    │   ├── 2_1101.wav
    │   └── ... (다수의 .wav 파일)
    ├── 3/
    │   └── ... (다수의 .wav 파일)
    └── 4/
        └── ... (다수의 .wav 파일)

4. Mozilla dataset

Mozilla Common Voice 한국어 데이터셋 페이지

  1. 데이터 기본 정보
  2. 데이터셋 상세 정보
    • 전체 용량: 1.2GB
    • 전체 오디오 파일 수: 31,876개
    • 총 오디오 길이:
  3.  전체 데이터셋 폴더 구조
mozilla/
├── cv-corpus-20.0-2024-12-06-ko/
│   └── cv-corpus-20.0-2024-12-06/
│       └── ko/
│           ├── clip_durations.tsv
│           ├── dev.tsv
│           ├── invalidated.tsv
│           ├── other.tsv
│           ├── reported.tsv
│           ├── test.tsv
│           ├── train.tsv
│           ├── unvalidated_sentences.tsv
│           ├── validated.tsv
│           ├── validated_sentences.tsv
│           └── clips/
│               ├── common_voice_ko_41869424.mp3
│               ├── common_voice_ko_41869425.mp3
│               └── ... (다수의 .mp3 파일)
├── cv-corpus-20.0-delta-2024-12-06-ko/
├── cv-corpus-19.0-2024-09-13-ko/
├── cv-corpus-19.0-delta-2024-09-13-ko/
├── cv-corpus-18.0-2024-06-14-ko/
├── cv-corpus-18.0-delta-2024-06-14-ko/
├── cv-corpus-17.0-2024-03-15-ko/
├── cv-corpus-17.0-delta-2024-03-15-ko/
├── cv-corpus-16.1-2023-12-06-ko/
├── cv-corpus-16.1-delta-2023-12-06-ko/
├── cv-corpus-15.0-2023-09-08-ko/
├── cv-corpus-15.0-delta-2023-09-08-ko/
├── cv-corpus-14.0-2023-06-23-ko/
├── cv-corpus-14.0-delta-2023-06-23-ko/
├── cv-corpus-13.0-2023-03-09-ko/
├── cv-corpus-13.0-delta-2023-03-09-ko/
└── cv-corpus-12.0-2022-12-07-ko/

5. Zeroth korean

Zeroth korean Github 저장소 페이지

  1. 데이터 기본 정보
    • 데이터셋 명칭: Zeroth korean
    • 출처/배포처: OpenSLR SLR40
    • URL: https://github.com/goodatlas/zeroth
    • 라이센스: CC BY 4.0 (출처 표기 시 상업적 이용 가능)
  2. 데이터셋 상세 정보
    • 전체 용량: 10GB
    • 전체 오디오 파일 수: 22,720개
    • 총 오디오 길이: 52.8시간
    • 화자 수: 115명
    • 발화 수: 22,263개
  3.  전체 데이터셋 폴더 구조
zeroth_korean/
├── train_data_01/
│   └── 003/
│       └── 106/
│           ├── 106_003_2499.flac
│           ├── 106_003_2135.flac
│           ├── ... (다수의 .flac 오디오 파일)
│           └── 106_003.trans.txt   # 해당 폴더 오디오의 텍스트 스크립트
│       └── 107/
│       └── ... (다수의 하위 폴더)
│   └── ... (다수의 상위 폴더)
├── test_data_01/
│   └── ... (구조 동일)
├── zeroth_morfessor.seg
├── zeroth.lm.tg.arpa.gz
├── zeroth.lm.tgmed.arpa.gz
├── zeroth.lm.tgsmall.arpa.gz
├── zeroth.lm.fg.arpa.gz
├── zeroth_lexicon
└── AUDIO_INFO

마치며

  • 이외에도 다른 데이터셋이 있지만 많이 사용되는 데이터셋을 위주로 활용
  • 데이터별 특성, 도메인 등 보다 상세한 정보를 분석할 예정
  • 추후 추가 데이터셋 확보 시 해당 글 수정할 예정
  • 수집한 데이터로 학습데이터셋을 생성
  • STT, Diarization 모델을 파인튜닝 및 성능 평가할 목적으로 활용