首頁> 現代都市> 我真不是科技巨星啊> 006 領先全球語音技術

006 領先全球語音技術

2024-08-31 23:09:21 作者：開心爆米花

第一時間，陳耀安裝編程軟體。

這款名叫「宇宙」的編程軟體，是從黑科技U盤找到的，利用它，可以加快編程速度。

編寫代碼的時候，它會給你智能聯想、智能補充、智能修復。

996加班碼代碼不存在的，Bug不存在的。

要說配音軟體，網上一搜一大把，專業電影公司也有自己的專業配音軟體，效果也非常不錯。

陳耀開發的黑馬配音，究竟牛逼在哪裡？

一句話總結——AI智能配音！

說白了，就是利用人工智慧語音，代替配音師完成電影、動漫的配音。

如此智能的配音技術，別說在國內，全世界沒有一家公司能做得到。

因為，這裡邊涉及到非常複雜的「自然語音識別」技術啊！

在國內，做「自然語音」技術，百度和訊飛毫無疑問是最領先的，兩家的語音輸入法，好多人都在用，背後的技術就是來自於他們強大的AI語音識別引擎。

在國外，語音技術最牛逼的是亞馬遜、谷歌和微軟，微軟小冰許多人都玩過。

這些公司已經是當今世界最前沿的科技公司了，但他們依然無法做出真正的智能配音軟體。

想要讓智能語音，像是真人一樣完成電影、動漫的配音，需要解決兩大難題。

第一，超高的智能化。

現在的所謂人工智慧，直白點說，還真有點傻。

智能音箱，你向智能音箱提問，答案往往讓人感覺滑稽可笑。

例如，你問問智能音箱：「在你的腳下有一張5元和一張100元的鈔票，你會撿哪一張？」

語音助手的回答，要麼是「不知道啦。」要麼回答：「撿100元。」

正確的答案應該是：兩張都撿了！

再問問智能音箱：「馬路上開車，突然從左邊衝出來一個人，右邊衝出來一條狗，車子應該向左轉還是向右轉？」

智能音箱會回答不知道啦，要麼回答向右轉。

真正的答案應該是：剎車！

現在的所謂人工智慧，給人的感覺更像是個智障，或者說是個死腦筋的呆子。

所有問答都是程式設計師在背後設定好的，不是真正的神經網絡智能。

所謂的深度學習，也做不到靈活變通。

例如問他一個腦筋急轉彎。

小明的爸爸有四個兒子，大兒子叫大明，二兒子叫二明，三兒子叫三明，四兒子叫什麼？

語音助手根據邏輯算法，它會回答：「四明！」

有一種東西叫大數據，程式設計師完全可以把所有的腦筋急轉彎採集下來啊，那樣，上面的問題，智能音箱不就可以答對了嗎？

但要是我換一個詢問方式。

有一個人叫傻筆，傻筆的爸爸有三個兒子，大兒子叫大筆，二兒子叫二筆，三兒子叫什麼？

然後智能音箱又不會回答了，要麼不知道，要麼胡說八道。

雖然配音不需要什麼高智商，也不需要它回答問題，但它至少也要有圖象分辨能力。

給電影、動漫做配音，配音師需要根據裡邊的場景，人物的表情等等調整說話的語氣、語調。

現在的人工智慧在文字識別很強，基本可以做到100%，看著電影字幕，機器人也能配音。

但問題是……

識別不了電影動漫裡邊的景象、表情，效果就會非常差勁。

在動態圖象識別方面，當今世界沒有一家公司真正做得好。

第二個問題，就是人工語音的感情。

真人說話的聲音，抑揚頓挫、喜怒哀樂、有呼吸、有口水聲，節奏或快或慢，這樣的配音效果是當今的語音無法做到的。

現在的語音就是電子音，金屬音，雖然某些公司做的語音做得很逼真，但還是能很明顯聽得出那種沒人情味的「機器人」聲音。

同一句話在不同的影視動漫場景，都會有不同的表現效果。

喜！

「今生得不到你的愛，來世再相見。」女主角在災難現場找到了男主角，他還活著，她的語氣是喜悅的。

怒！

「今生得不到你的愛，來世再相見。」反派被女主一劍刺穿胸膛，他語氣充滿了憤怒與不甘。

哀！

「今生得不到你的愛，來世再相見。」男主角向女主表白，被拒絕了，他語氣低落。

樂！

「今生得不到你的愛，來世再相見。」男主角在愚人節戲弄女主成功，他得意大笑。

真人配音可以根據不同的場景，表現出不同的配音效果。

而AI語音只能根據文字配音，每說一次，它的語氣、語調都是一樣的，一樣一樣的。

如此呆板的語音，是不可能用在影視動漫配音的。

所以，人工智慧想要應用在配音領域，在智能化和真感情方面都要有革命性的飛躍。

當今世界沒有一家公司能做好，這就是留給初創者的機會。

陳耀手指飛快地在鍵盤上敲打著，一串串代碼出現在編輯框當中。

他的大腦和手速都經過黑科技強化的，碼字的速度那叫一個神速。

眨眨眼的時間，20行代碼……眨眨眼的時間，50行代碼……

換做普通人，別說有他那樣的手速，眼睛都沒這麼快的速度啊，還沒看清寫了什麼，就飛速滾屏刷新了。

陳耀完全沉浸在編寫程序的境界中，體驗著那種閃電一般的刷新快感。

大概三個小時後……

「啪！」陳耀重重敲下回車鍵：「OK，大功告成！」

黑馬配音軟體開發成功了！

更強大的是它內置的智能語音引擎，前者的任務量不算大，大部分的時間都花在了語音引擎上。

語音引擎的底層，是當今世界第一個，真正意義上的智能神經網絡框架，算法的複雜程度堪比人類的大腦神經。

換做谷歌、微軟，起碼要20年的時間才能做出來。

陳耀揉了揉手指：「我花了3個小時，真是累啊。」

之所以這麼快，除了他本身速度快，還有另外一個原因，裡邊許多的數據，都是來自宇宙U盤，直接導入，省去了不少功夫。

原本，陳耀想直接在U盤裡邊找配音軟體的成品，這樣就不用自己編寫代碼了。

可是，目前U盤只是解鎖了第一個白羊座分區，這個分區並沒有成品，想要解鎖其他分區需要更多的積分。

其實轉念一想，黑馬配音軟體有自己參與編寫也挺好，成就感更強，反正也花不了多少時間。

現在配音軟體有了，語音引擎也有了，接下來，生產發音角色。

……

PS：不知道大家有沒有用過起點讀書的語音朗讀功能？不妨用語音聽聽一下感覺。

陳耀同學現在做的肯定比當今的語音技術強大很多很多。

求收藏、投票