語音合成

標籤: 暫無標籤

60

更新時間: 2013-08-31

語音合成是通過機械的、電子的方法產生人造語音的技術。TTS技術(又稱文語轉換技術)隸屬於語音合成,它是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的漢語口語輸出的技術,

概述
語音合成是利用電子計算機和一些專門裝置模擬人,製造語音的技術。
轉換系統
文語轉換系統實際上可以看作是一個人工智慧系統。為了合成出高質量的語言,除了依賴於各種規則,包括語義學規則、辭彙規則、語音學規則外,還必須對文字的內容有很好的理解,這也涉及到自然語言理解的問題。下圖顯示了一個完整的文語轉換系統示意圖。文語轉換過程是先將文字序列轉換成音韻序列,再由系統根據音韻序列生成語音波形。其中第一步涉及語言學處理,例如分詞、字音轉換等,以及一整套有效的韻律控制規則;第二步需要先進的語音合成技術,能按要求實時合成出高質量的語音流。因此一般說來,文語轉換系統都需要一套複雜的文字序列到音素序列的轉換程序,也就是說,文語轉換系統不僅要應用數字信號處理技術,而且必須有大量的語言學知識的支持。
語音合成

  語音合成

TTS結構
韻律處理
為合成語音規劃出音段特徵,如音高、音長和音強等,使合成語音能正確表達語意,聽起來更加自然。
參數合成
在語音合成技術的發展中,早期的研究主要是採用參數合成方法。值得提及的是Holmes的並聯共振峰合成器(1973)和Klatt的串/並聯共振峰合成器(1980),只要精心調整參數,這兩個合成器都能合成出非常自然的語音。最具代表性的文語轉換系統當數美國DEC公司的DECtalk(1987)。但是經過多年的研究與實踐表明,由於準確提取共振峰參數比較困難,雖然利用共振峰合成器可以得到許多逼真的合成語音,但是整體合成語音的音質難以達到文語轉換系統的實用要求。
系統概念
一種語音合成系統,其包括:分割單元,其被配置成將對應於目標語音的音位串分割為多個節段,來產生第一節段序列;
選擇單元,其被配置成基於第一節段序列通過組合多個語音單元產生對應於第一節段序列的多個第一語音單元串,並從所述多個第一語音單元串中選擇一個語音單元串;和連接單元,其被配置成連接包含在所選擇語音單元串中的多個語音單元,以產生合成語音,選擇單元包括檢索單元,其被配置成反覆實施第一處理和第二處理,該第一處理基於對應於第二節段序列的最多W個(W為預定值)第二語音單元串產生對應於第三節段序列的多個第三語音單元串,所述第二節段序列作為第一節段序列中的部分序列,所述第三節段序列作為通過將節段添加給第二節段序列而獲得的部分序列,第二處理從所述多個第三語音單元串中選擇最多W個第三語音單元串,第一計算單元,其被配置成計算所述多個第三語音單元串中每個的總成本,第二計算單元,其被配置成基於涉及語音單元數據獲取速度的限制來為所述多個第三語音單元串中的每個計算對應於總成本的懲罰係數,其中懲罰係數依賴於接近所述限制的程度,和第三計算單元,其被配置成通過使用懲罰係數修正總成本來計算所述多個第三語音單元串中每個的估計值,其中檢索單元基於所述多個第三語音單元串中每個的估計值從所述多個第三語音單元串中選擇最多W個第三語音單元串。
級聯模型
在該模型中,聲道被認為是一組串聯的二階諧振器。該模型主要用於絕大部分母音的合成。
混合模型
在級聯型共振峰合成模型中,共振峰濾波器首尾相接;而在並聯型模型中,輸入信號先分別通過幅度調節再加到每一個共振峰濾波器上,然後將各路的輸出疊加起來。將兩者比較,對於合成聲源位於聲道末端的語音(大多數的母音),級聯型合乎語音產生的聲學理論,並且無需為每一個濾波器分設幅度調節;而對於合成聲源位於聲道中間的語音(大多數清擦音和塞音),並聯型則比較合適,但是其幅度調節很複雜。基於此種考慮,人們將兩者結合在一起,提出了混和型共振峰模型。
共振峰模型是基於對聲道的一種比較準確的模擬,因而可以合成出自然度比較高的語音,另外由於共振峰參數有著明確的物理意義,直接對應於聲道參數,因此,可以容易利用共振峰描述自然語流中的各種現象,並且總結聲學規則,最終用於共振峰合成系統。
但是,人們同時也發現該技術有明顯的弱點。首先由於它是建立在對聲道的模擬上,因此,對於聲道模型的不精確勢必會影響其合成質量。另外,實際工作表明,共振峰模型雖然描述了語音中最基本最主要的部分,但並不能表徵影響語音自然度的其他許多細微的語音成分,從而影響了合成語音的自然度。另外,共振峰合成器控制十分複雜,對於一個好的合成器來說,其控制參數往往達到幾十個,實現起來十分困難。
基於這些原因,研究者繼續尋求和發現其他新的合成技術。人們從波形的直接錄製和播放得到啟發,提出了基於波形拼接的合成技術,LPC合成技術和PSOLA合成技術是其中的代表。與共振峰合成技術不同,波形拼接合成是基於對錄製的合成基元的波形進行拼接,而不是基於對發聲過程的模擬。
合成技術
PSOLA
20世紀80年代末提出的PSOLA合成技術(基音同步疊加技術)給波形拼接合成技術注入了新的活力。PSOLA技術著眼於對語音信號超時段特徵的控制,如基頻、時長、音強等的控制。而這些參數對於語音的韻律控制以及修改是至關重要的,因此,PSOLA技術比LPC技術具有可修改性更強的優點,可以合成出高自然度的語音。
PSOLA技術的主要特點是:在拼接語音波形片斷之前,首先根據上下文的要求,用PSOLA演算法對拼接單元的韻律特徵進行調整,使合成波形既保持了原始發音的主要音段特徵,又能使拼接單元的韻律特徵符合上下文的要求,從而獲得很高的清晰度和自然度。
PSOLA技術保持了傳統波形拼接技術的優點,簡單直觀,運算量小,而且還能方便地控制語音信號的韻律參數,具有合成自然連續語流的條件,得到了廣泛的應用。
但是,PSOLA技術也有其缺點。首先,PSOLA技術是一種基音同步的語音分析/合成技術,首先需要準確的基因周期以及對其起始點的判定。基音周期或其起始點的判定誤差將會影響PSOLA技術的效果。其次,PSOLA技術是一種簡單的波形映射拼接合成,這種拼接是否能夠保持平穩過渡以及它對頻域參數有什麼影響等並沒有得到解決,因此,在合成時會產生不理想的結果。

LMA

隨著人們對語音合成的自然度和音質的要求越來越高,PSOLA演算法表現出對韻律參數調整能力較弱和難以處理協同發音的缺陷,因此,人們又提出了一種基於LMA聲道模型的語音合成方法。這種方法具有傳統的參數合成可以靈活調節韻律參數的優點,同時又具有比PSOLA演算法更高的合成音質。
這兩種技術各有所長,共振峰技術比較成熟,有大量的研究成果可以利用,而PSOLA技術則是比較新的技術,具有良好的發展前景。過去這兩種技術基本上是互相獨立發展的,
中文語音
作為一種有調語言,漢語韻律特徵非常複雜。古漢語的平仄以及現代漢語拼音,對於同樣一個音節,出現在不同的環境下,其韻律參數都是各不相同的。用有限的存儲單元存儲基本漢語基本語音單元,進而從有限的存儲單元中合成出無限辭彙,組成連續漢語語句。必須在一定的韻律規則下對音庫單元的韻律參數進行調整,以得到符合當前語言環境的語音庫單元。語音合成器用來完成這種功能。
中文語音合成系統在DSP下實現時,除清晰度,能懂度和自然度外,還要求合成演算法具有較底的運算複雜度,盡量小的語音庫以減少對有限存儲空間的佔用程度。