AI(Artificial Intelligence) speech process
- Speech recognition; 음성인식
- Speech synthesis; 음성합성
- Speaker Recognition; 화자 인식
- Classification; 분류
음성 정보
- 발음의 종류, 성별, 음색, 높이
- frequency; 주파수(단위 : Hz; Hertz; 헤르츠) : 1초에 몇 번 진동했는지 나타내는 수치이다.
- 모든 소리는 다양한 주파수 성분들의 합으로 이루어져 있다.
- speechs; sound = signal + noise
Fourier Transform; 푸리에변환
sampling time; 특정 시간 길이의 음성 조각(Frame; 프레임)이 각각의 주파수 성분들을 얼마만큼 갖고 있는지를 의미하는 spectrum을 얻게 해주는 함수
Spectrogram; 스펙트로그램 : 시간 변화에 따른 스펙트럼의 변화
음성 전체로부터 얻은 여러개의 스펙트럼을 시간 축에 나열한 결과
사람의 귀 또한 이와 유사한 메커니즘을 갖고 있어 소리에 들어 있는 각각의 주파수 성분들을 추출하는 방식으로 청취한 소리에 내재된 정보들을 얻는 것입니다.
STT; Speech To Text : 음성을 텍스트로 변환하는 기술
화자가 누구든지 상관없이 문장을 동일하게 인식해야 하므로 기본 주파수와 같이 화자에 종속적인 정보보다는 발음 정보가 중요하다.
사람이 음성을 들을 때
실제 소리에는 고주파 대역보다 저주파 대역에 소리의 의미 있는 정보가 집중되어 있다, 실제 사람의 달팽이관(cochela)도 저주파 대역 소리를 더 집중해서 들을 수 있도록 설계되어 있다고 볼 수 있다.(사람이 흔히 귀로 들을 수 있는 주파수인 가청 주파수:20~20,000Hz) 실제 주파수를 사람의 달팽이관 특성에 맞게 수학적으로 변환해주는 방법이 Mel Scale이다. 높이가 다른 2개의 음을 사람에게 들려줬을 때, 사람의 달팽이관을 통해 인지하는 차이와 실제 주파수 값의 차이를 조사하여 통계를 구축하였고, 이를 함수로 관계를 정의 했다. 즉, Mel Scale은 주파수 성분을 중요도에 따라 차등적으로 사용하기 위한 좋은 지표로 사용된다.



용어
Coefficient ;계수 ( 6x+2y = 0 에서 6과 2가 계수이다.)
MFCC; Mel-Frequency Cepstral Coefficient
sounds -> vector ; 음성 데이터에서 특징을 뽑아내는 알고리즘
fbank

num_mel_bins = features of audio
cnn -> batch, channel, time, demension(num_mel_bins)
num_mel_bins 는 filter-bank 의 개수?

torchaudio.compliance.kaldi.fbank — Torchaudio 0.13.1 documentation
Shortcuts
pytorch.org
https://hyunlee103.tistory.com/46
오디오 데이터 전처리 (4) Mel Filter Bank
오디오 데이터 전처리 (3)에서 이어지는 4번째 글입니다. 지난 글에서는 잠깐 전체 흐름을 벗어나 cepstrum 분석에 대해 간단히 알아보았습니다. Cepstrum은 주파수 대역 간의 변동 특성을 파악하기
hyunlee103.tistory.com
https://ratsgo.github.io/speechbook/docs/fe/mfcc
MFCCs
articles about speech recognition
ratsgo.github.io
TTS AI Model VALL-E
- article
https://www.thedailypost.kr/news/articleView.html?idxno=91008
MS, 3초 샘플로 목소리 재현하는 인공지능(AI) '발리' 발표 - 글로벌 뉴스 미디어 채널 데일리포스
ㅣ데일리포스트=김정은 기자ㅣ마이크로소프트(MS)가 새로운 음성 합성 인공지능(AI) 모델인 \'발리(VALL-E)\'를 발표했다. 고품질 음성 합성 애플리케이션인 발리는 단 3초의 음성 샘플로 사람의 목
www.thedailypost.kr
- Sample Test
VALL-E
VALL-E Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [Paper] Chengyi Wang*, Sanyuan Chen*, Yu Wu*, Ziqiang Zhang, Long Zhou, Shujie Liu, Zhuo Chen, Yanqing Liu, Huaming Wang, Jinyu Li, Lei He, Sheng
valle-demo.github.io
- 논문
https://arxiv.org/abs/2301.02111
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
We introduce a language modeling approach for text to speech synthesis (TTS). Specifically, we train a neural codec language model (called Vall-E) using discrete codes derived from an off-the-shelf neural audio codec model, and regard TTS as a conditional
arxiv.org
Reference
'AI > 공부' 카테고리의 다른 글
| multi-class and multi-label (0) | 2023.05.12 |
|---|---|
| 23/01/13 (1) | 2023.01.13 |
| 23/01/11 pytorch (0) | 2023.01.11 |
| 23/01/10 Text-to-Speech (0) | 2023.01.10 |