西西大胆午夜人体视频,午夜福利网国产a,无码视频一区二区三区

CSDN 出品的《2018-2019 中國人工智能產(chǎn)業(yè)路線圖》V2.0 版即將重磅面世！

V1.0 版發(fā)布以來，我們有幸得到了諸多讀者朋友及行業(yè)專家的鼎力支持，在此表示由衷感謝。此次 V2.0 版路線圖將進(jìn)行新一輪大升級，內(nèi)容包括 3 大 AI 前沿產(chǎn)業(yè)趨勢分析，10 位 AI 特邀專家的深度技術(shù)分析，15 家一線互聯(lián)網(wǎng)企業(yè)的 AI 實(shí)力大巡展，以及 20 個(gè) AI 優(yōu)秀應(yīng)用案例，力求為讀者呈現(xiàn)更全面的中國人工智能產(chǎn)業(yè)發(fā)展概況和趨勢判斷。

V2.0 版將于 11 月 8 日舉辦的 2018 AI 開發(fā)者大會上正式發(fā)布，在此之前，我們將不間斷公布精要內(nèi)容，以饗讀者。此為 V2.0 版中深度技術(shù)分析系列稿件第 2 篇，作者為 CSDN 特邀 AI 專家標(biāo)貝科技聯(lián)合創(chuàng)始人&CTO 李秀林。

作者簡介：李秀林，中國科學(xué)院博士，15 年語音相關(guān)技術(shù)研發(fā)和學(xué)術(shù)研究，申請專利三十余項(xiàng)，在國內(nèi)外語音界有很高的知名度；曾帶領(lǐng)團(tuán)隊(duì)獲得百度百萬美元大獎。2006 年—2013 年，松下研發(fā)中心高級研發(fā)經(jīng)理；2013 年—2016 年，百度語音合成技術(shù)負(fù)責(zé)人；2016 年—2018 年，滴滴研究院語音團(tuán)隊(duì)負(fù)責(zé)人&首席算法工程師；2018 年3 月加盟標(biāo)貝科技，作為聯(lián)合創(chuàng)始人兼CTO。

▌一、語音合成技術(shù)簡介

語音，在人類的發(fā)展過程中，起到了巨大的作用。語音是語言的外部形式，是最直接地記錄人的思維活動的符號體系，也是人類賴以生存發(fā)展和從事各種社會活動最基本、最重要的交流方式之一。而讓機(jī)器開口說話，則是人類千百年來的夢想。語音合成（Text To Speech），是人類不斷探索、實(shí)現(xiàn)這一夢想的科學(xué)實(shí)踐，也是受到這一夢想不斷推動、不斷提升的技術(shù)領(lǐng)域。

在漫長的探索過程中，真正產(chǎn)生實(shí)用意義的合成系統(tǒng)，產(chǎn)生于 20 世紀(jì) 70 年代。受益于計(jì)算機(jī)技術(shù)和信號處理技術(shù)的發(fā)展，第一代參數(shù)合成系統(tǒng)--共振峰合成系統(tǒng)誕生了。它利用不同發(fā)音的共振峰信息，可以實(shí)現(xiàn)可懂的語音合成效果，但整體音質(zhì)方面，還難以滿足商用的要求。

進(jìn)入 90 年代，存儲技術(shù)得到了長足發(fā)展，從而誕生了拼接合成系統(tǒng)。拼接合成系統(tǒng)，利用 PSOLA 算法，將存儲的原始發(fā)音片段進(jìn)行調(diào)整后拼接起來，從而實(shí)現(xiàn)了相較于共振峰參數(shù)合成效果更好的音質(zhì)。

之后，語音合成技術(shù)不斷向前發(fā)展，參數(shù)合成、拼接合成兩條主要的技術(shù)路線都取得了長足進(jìn)展，相互競爭、相互促進(jìn)，使得合成語音的質(zhì)量大幅提升，語音合成技術(shù)在眾多場景中得以應(yīng)用。整體上看，主要包括如下幾個(gè)方面：

從規(guī)則驅(qū)動轉(zhuǎn)向數(shù)據(jù)驅(qū)動：在早期的系統(tǒng)中，大多需要大量的專家知識，對發(fā)音或者聲學(xué)參數(shù)進(jìn)行調(diào)整，不但費(fèi)時(shí)費(fèi)力，而且難以滿足對不同上下文的覆蓋，也在一定程度上影響技術(shù)的實(shí)施。隨著技術(shù)的發(fā)展，越來越多的數(shù)據(jù)得以應(yīng)用到系統(tǒng)中，以語音合成音庫為例，從最初的幾百句話，發(fā)展到后來的幾千、幾萬句規(guī)模，使得發(fā)音樣本數(shù)量大大增加，基于統(tǒng)計(jì)模型的技術(shù)得以廣泛應(yīng)用。從最初的樹模型、隱馬爾可夫模型、高斯混合模型，到近幾年的神經(jīng)網(wǎng)絡(luò)模型，大大提升了語音合成系統(tǒng)對語音的描述能力。

不斷提升的可懂且舒適的合成效果：語音合成系統(tǒng)的合成效果評價(jià)，一般是通過主觀評測實(shí)驗(yàn)，利用多個(gè)參試人員對多個(gè)語音樣本進(jìn)行打分。如果語音樣本來自不同的系統(tǒng)，則稱為對比評測。為了提升語音的音質(zhì)，參數(shù)合成系統(tǒng)中先后采用過 LPC 合成器、STRAIGHT 合成器、以 wavenet 為代表的神經(jīng)網(wǎng)絡(luò)聲碼器等；拼接合成系統(tǒng)中則采用不斷擴(kuò)大音庫規(guī)模、改善上下文覆蓋的策略，都取得了明顯的效果。在理想情況下，用戶希望語音合成的語音，能夠以假亂真，達(dá)到真人發(fā)音水平。隨著技術(shù)的不斷發(fā)展，這一目標(biāo)已經(jīng)越來越近。在一種極端情況下，一組樣本來自合成系統(tǒng)，一組樣本來自真人發(fā)音，那么所做的對比評測，即可視為語音合成系統(tǒng)的圖靈測試。如果用戶無法準(zhǔn)確分辨哪些語音樣本是機(jī)器生成的，哪些是人類產(chǎn)生的，那么就可以認(rèn)為這一合成系統(tǒng)通過了圖靈測試。

文本處理能力不斷增強(qiáng)：人類在朗讀文本時(shí)，實(shí)際上是有一個(gè)理解的過程。要想讓機(jī)器也能較好地朗讀，這個(gè)理解過程必不可少。在語音合成系統(tǒng)中，一般會包括一個(gè)文本處理的前端，對輸入文本進(jìn)行數(shù)字、符號的處理，分詞斷句，以及多音字處理等一系列環(huán)節(jié)。通過利用海量的文本數(shù)據(jù)和統(tǒng)計(jì)模型技術(shù)，合成系統(tǒng)中文本處理的水平已經(jīng)可以滿足大多數(shù)場景下的商業(yè)應(yīng)用要求。更進(jìn)一步地，自然語言理解技術(shù)，還可以用于預(yù)測句子的焦點(diǎn)、情緒、語氣語調(diào)等，但由于這部分受上下文的影響很大，而這類數(shù)據(jù)又相對較少，所以目前這部分情感相關(guān)的技術(shù)還不夠成熟。

圖 1. 語音合成系統(tǒng)框圖

以上，是語音合成技術(shù)的發(fā)展概況。接下來，我們來探討一下最近幾年深度學(xué)習(xí)技術(shù)對合成技術(shù)發(fā)展的影響。

▌二、深度學(xué)習(xí)與語音合成

深度學(xué)習(xí)技術(shù)，對語音合成的影響，主要分為兩個(gè)階段：

第一階段：錦上添花。從 2012 年開始，深度學(xué)習(xí)技術(shù)在語音領(lǐng)域逐漸開始受到關(guān)注并得以應(yīng)用。這一階段，深度學(xué)習(xí)技術(shù)的主要作用，是替換原有的統(tǒng)計(jì)模型，提升模型的刻畫能力。比如用 DNN 替代時(shí)長模型，用 RNN 替代聲學(xué)參數(shù)模型等。語音的生成部分，仍然是利用拼接合成或者聲碼器合成的方式，與此前的系統(tǒng)沒有本質(zhì)差異。對比兩種系統(tǒng)發(fā)現(xiàn)，在仔細(xì)對比的情況下，替代后的系統(tǒng)的效果略好于原系統(tǒng)，但整體感覺差異不大，未能產(chǎn)生質(zhì)的飛躍。

第二階段：另辟蹊徑。這一階段的很多研究工作，都具有開創(chuàng)性，是對語音合成的重大創(chuàng)新。2016 年，一篇具有標(biāo)志性的文章發(fā)表，提出了 WaveNet 方案。2017 年初，另一篇標(biāo)志性的文章發(fā)表，提出了端到端的 Tacotron 方案。2018 年初，Tacotron2 將兩者進(jìn)行了融合，形成了目前語音合成領(lǐng)域的標(biāo)桿性系統(tǒng)。在此過程中，也有 DeepVoice，SampleRNN, Char2Wav 等很多有價(jià)值的研究文獻(xiàn)陸續(xù)發(fā)表，大大促進(jìn)了語音合成技術(shù)的發(fā)展，吸引了越來越多的研究者參與其中。

圖 2. WaveNet 中的帶洞卷積結(jié)構(gòu)

WaveNet是受到 PixelRNN 的啟發(fā)，將自回歸模型應(yīng)用于時(shí)域波形生成的成功嘗試。利用 WaveNet 生成的語音，在音質(zhì)上大大超越了之前的參數(shù)合成效果，甚至合成的某些句子，能夠到達(dá)以假亂真的水平，引起了巨大的轟動。其中，所采用的帶洞卷積（dilated convolution）大大提升了感受野，以滿足對高采樣率的音頻時(shí)域信號建模的要求。WaveNet 的優(yōu)點(diǎn)非常明顯，但由于其利用前 N-1 個(gè)樣本預(yù)測第 N 個(gè)樣本，所以效率非常低，這也是 WaveNet 的一個(gè)明顯缺點(diǎn)。后來提出的 Parallel WaveNet 和 ClariNet，都是為了解決這個(gè)問題，思路是利用神經(jīng)網(wǎng)絡(luò)提煉技術(shù)，用預(yù)先訓(xùn)練好的 WaveNet 模型（teacher）來訓(xùn)練可并行計(jì)算的 IAF 模型（student），從而實(shí)現(xiàn)實(shí)時(shí)合成，同時(shí)保持近乎自然語音的高音質(zhì)。

Tacotron是端到端語音合成系統(tǒng)的代表，與以往的合成系統(tǒng)不同，端到端合成系統(tǒng)，可以直接利用錄音文本和對應(yīng)的語音數(shù)據(jù)對，進(jìn)行模型訓(xùn)練，而無需過多的專家知識和專業(yè)處理能力，大大降低了進(jìn)入語音合成領(lǐng)域的門檻，為語音合成的快速發(fā)展提供了新的催化劑。

圖 3. Tacotron 的端到端網(wǎng)絡(luò)結(jié)構(gòu)

Tacotron 把文本符號作為輸入，把幅度譜作為輸出，然后通過 Griffin-Lim 進(jìn)行信號重建，輸出高質(zhì)量的語音。Tacotron 的核心結(jié)構(gòu)是帶有注意力機(jī)制的 encoder-decoder 模型，是一種典型的 seq2seq 結(jié)構(gòu)。這種結(jié)構(gòu)，不再需要對語音和文本的局部對應(yīng)關(guān)系進(jìn)行單獨(dú)處理，極大地降低了對訓(xùn)練數(shù)據(jù)的處理難度。由于 Tacotron 模型比較復(fù)雜，可以充分利用模型的參數(shù)和注意力機(jī)制，對序列進(jìn)行更精細(xì)地刻畫，以提升合成語音的表現(xiàn)力。相較于 WaveNet 模型的逐采樣點(diǎn)建模，Tacotron 模型是逐幀建模，合成效率得以大幅提升，有一定的產(chǎn)品化潛力，但合成音質(zhì)比 WaveNet 有所降低。

Tacotron2是基于 Tacotron 和 WaveNet 進(jìn)行融合的自然結(jié)果，既充分利用了端到端的合成框架，又利用了高音質(zhì)的語音生成算法。在這一框架中，采用與 Tacotron 類似的結(jié)構(gòu)，用于生成 Mel 譜，作為 WaveNet 的輸入，而 WaveNet 則退化成神經(jīng)網(wǎng)絡(luò)聲碼器，兩者共同組成了一個(gè)端到端的高音質(zhì)系統(tǒng)。

圖 4. Tacotron 2 的網(wǎng)絡(luò)結(jié)構(gòu)

▌三、語音合成的應(yīng)用

語音合成技術(shù)，已經(jīng)成功應(yīng)用在很多領(lǐng)域，包括語音導(dǎo)航、信息播報(bào)等。對于語音合成的應(yīng)用前景，標(biāo)貝科技有著自己的看法。因?yàn)闃?biāo)貝科技既是語音數(shù)據(jù)服務(wù)商，同時(shí)也是語音合成整體解決方案提供商，所以對于語音合成的應(yīng)用前景，也做過很多思考。目前語音合成的聲音，從合成效果上，已經(jīng)可以滿足大多數(shù)用戶的需求，但是從音色選擇上，還不夠豐富；從發(fā)音方式上，還是偏單調(diào)。針對這種情況，標(biāo)貝科技推出了“聲音超市」，為合作伙伴提供了一個(gè)可供選擇的，所聽即所得的聲音平臺。我們認(rèn)為，語音合成會以更貼近場景需求的合成效果，在如下的三大場景中得以廣泛應(yīng)用：語音交互、閱讀&教育、泛娛樂。

語音交互

近年來，隨著人工智能概念的推廣，語音交互成為了一個(gè)熱點(diǎn)，智能助手、智能客服等應(yīng)用層出不窮。語音交互中，主要有三個(gè)關(guān)鍵技術(shù)，語音識別、語音合成和語義理解，語音合成在其中的作用顯而易見。受限于語義理解的技術(shù)發(fā)展水平，目前的應(yīng)用主要是聚焦于不同的垂直領(lǐng)域，用于解決某些特定領(lǐng)域的問題，還存在一定的局限性。

閱讀&教育

閱讀是一個(gè)長期且廣泛的需求，我們每天都需要通過閱讀獲取大量的信息，既有碎片化的信息獲取，也有深度閱讀；既包括新聞、朋友圈、博文，也包括小說、名著；有的是為了與社會同步，有的是消磨時(shí)光，有的是為了提升自我修養(yǎng)。在這種多維度的信息需求當(dāng)中，語音合成技術(shù)提供了一種「簡單」的方式，一種可以「并行」輸入的方式，同時(shí)也是一種「廉價(jià)」的方式。相較于傳統(tǒng)的閱讀，自有其優(yōu)勢。在開車時(shí)、散步時(shí)、鍛煉時(shí)，都可以輕松獲取信息。

在教育方面，尤其是語言教育方面，模仿與交互是必不可少的鍛煉方式。目前的教育方式中，想學(xué)到標(biāo)準(zhǔn)的發(fā)音，是需要大量的成本的，比如各種課外班，甚至一對一教育。隨著語音合成技術(shù)的不斷進(jìn)步，以假亂真的合成效果，一方面可以大大增加有聲教育素材，另一方面，甚至可以部分取代真人對話的教育內(nèi)容。

泛娛樂

泛娛樂是之前與語音合成交叉較少的場景，但我們認(rèn)為這恰恰是一個(gè)巨大的有待開發(fā)的市場。我們已經(jīng)擁有豐富的聲音 IP 資源，并且可以通過聲音超市進(jìn)行展示，供大家選購自己喜歡的聲音。這些都是為了將語音合成技術(shù)廣泛應(yīng)用到泛娛樂領(lǐng)域所做的準(zhǔn)備。以配音領(lǐng)域?yàn)槔?，利用語音合成技術(shù)，可以大大降低配音的成本和周期；以目前火爆的短視頻為例，利用語音合成技術(shù)可以非常容易地為自己的視頻配上有趣的聲音來展現(xiàn)內(nèi)容；以虛擬主持人為例，利用語音合成技術(shù)，可以提升信息的時(shí)效性，同時(shí)大大緩解主持人的工作壓力，降低其工作強(qiáng)度。

總之，隨著語音合成技術(shù)的快速發(fā)展，所生成的語音會越來越自然生動，也會越來越有情感表現(xiàn)力。我們堅(jiān)信，技術(shù)的進(jìn)步，會不斷沖破原有的障礙，滿足越來越多的用戶需求，使得更好的應(yīng)用不斷涌現(xiàn)，實(shí)現(xiàn)用聲音改變生活的美好愿景！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1806

文章
49014

瀏覽量
249423
語音合成

語音合成

+關(guān)注

關(guān)注
2

文章
92

瀏覽量
16498
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5561

瀏覽量
122794

原文標(biāo)題：方興未艾的語音合成技術(shù)與應(yīng)用

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

亚洲av成人精品日韩一区,97久久久精品综合88久久,玩弄japan白嫩少妇hd,亚洲av片不卡无码久久,玩弄人妻少妇500系列

搜索歷史

語音合成技術(shù)簡介,深度學(xué)習(xí)技術(shù)對合成技術(shù)發(fā)展的影響

評論