首頁> 現代都市> 我真不是科技巨星啊> 006 領先全球語音技術

006 領先全球語音技術

2024-08-31 23:09:21 作者: 開心爆米花
  第一時間,陳耀安裝編程軟體。

  這款名叫「宇宙」的編程軟體,是從黑科技U盤找到的,利用它,可以加快編程速度。

  編寫代碼的時候,它會給你智能聯想、智能補充、智能修復。

  996加班碼代碼不存在的,Bug不存在的。

  要說配音軟體,網上一搜一大把,專業電影公司也有自己的專業配音軟體,效果也非常不錯。

  陳耀開發的黑馬配音,究竟牛逼在哪裡?

  一句話總結——AI智能配音!

  說白了,就是利用人工智慧語音,代替配音師完成電影、動漫的配音。

  如此智能的配音技術,別說在國內,全世界沒有一家公司能做得到。

  因為,這裡邊涉及到非常複雜的「自然語音識別」技術啊!

  在國內,做「自然語音」技術,百度和訊飛毫無疑問是最領先的,兩家的語音輸入法,好多人都在用,背後的技術就是來自於他們強大的AI語音識別引擎。

  在國外,語音技術最牛逼的是亞馬遜、谷歌和微軟,微軟小冰許多人都玩過。

  這些公司已經是當今世界最前沿的科技公司了,但他們依然無法做出真正的智能配音軟體。

  想要讓智能語音,像是真人一樣完成電影、動漫的配音,需要解決兩大難題。

  第一,超高的智能化。

  現在的所謂人工智慧,直白點說,還真有點傻。

  智能音箱,你向智能音箱提問,答案往往讓人感覺滑稽可笑。

  例如,你問問智能音箱:「在你的腳下有一張5元和一張100元的鈔票,你會撿哪一張?」

  語音助手的回答,要麼是「不知道啦。」要麼回答:「撿100元。」

  正確的答案應該是:兩張都撿了!

  再問問智能音箱:「馬路上開車,突然從左邊衝出來一個人,右邊衝出來一條狗,車子應該向左轉還是向右轉?」

  智能音箱會回答不知道啦,要麼回答向右轉。

  真正的答案應該是:剎車!

  現在的所謂人工智慧,給人的感覺更像是個智障,或者說是個死腦筋的呆子。

  所有問答都是程式設計師在背後設定好的,不是真正的神經網絡智能。

  所謂的深度學習,也做不到靈活變通。

  例如問他一個腦筋急轉彎。

  小明的爸爸有四個兒子,大兒子叫大明,二兒子叫二明,三兒子叫三明,四兒子叫什麼?

  語音助手根據邏輯算法,它會回答:「四明!」

  有一種東西叫大數據,程式設計師完全可以把所有的腦筋急轉彎採集下來啊,那樣,上面的問題,智能音箱不就可以答對了嗎?

  但要是我換一個詢問方式。

  有一個人叫傻筆,傻筆的爸爸有三個兒子,大兒子叫大筆,二兒子叫二筆,三兒子叫什麼?

  然後智能音箱又不會回答了,要麼不知道,要麼胡說八道。

  雖然配音不需要什麼高智商,也不需要它回答問題,但它至少也要有圖象分辨能力。


  給電影、動漫做配音,配音師需要根據裡邊的場景,人物的表情等等調整說話的語氣、語調。

  現在的人工智慧在文字識別很強,基本可以做到100%,看著電影字幕,機器人也能配音。

  但問題是……

  識別不了電影動漫裡邊的景象、表情,效果就會非常差勁。

  在動態圖象識別方面,當今世界沒有一家公司真正做得好。

  第二個問題,就是人工語音的感情。

  真人說話的聲音,抑揚頓挫、喜怒哀樂、有呼吸、有口水聲,節奏或快或慢,這樣的配音效果是當今的語音無法做到的。

  現在的語音就是電子音,金屬音,雖然某些公司做的語音做得很逼真,但還是能很明顯聽得出那種沒人情味的「機器人」聲音。

  同一句話在不同的影視動漫場景,都會有不同的表現效果。

  喜!

  「今生得不到你的愛,來世再相見。」女主角在災難現場找到了男主角,他還活著,她的語氣是喜悅的。

  怒!

  「今生得不到你的愛,來世再相見。」反派被女主一劍刺穿胸膛,他語氣充滿了憤怒與不甘。

  哀!

  「今生得不到你的愛,來世再相見。」男主角向女主表白,被拒絕了,他語氣低落。

  樂!

  「今生得不到你的愛,來世再相見。」男主角在愚人節戲弄女主成功,他得意大笑。

  真人配音可以根據不同的場景,表現出不同的配音效果。

  而AI語音只能根據文字配音,每說一次,它的語氣、語調都是一樣的,一樣一樣的。

  如此呆板的語音,是不可能用在影視動漫配音的。

  所以,人工智慧想要應用在配音領域,在智能化和真感情方面都要有革命性的飛躍。

  當今世界沒有一家公司能做好,這就是留給初創者的機會。

  陳耀手指飛快地在鍵盤上敲打著,一串串代碼出現在編輯框當中。

  他的大腦和手速都經過黑科技強化的,碼字的速度那叫一個神速。

  眨眨眼的時間,20行代碼……眨眨眼的時間,50行代碼……

  換做普通人,別說有他那樣的手速,眼睛都沒這麼快的速度啊,還沒看清寫了什麼,就飛速滾屏刷新了。

  陳耀完全沉浸在編寫程序的境界中,體驗著那種閃電一般的刷新快感。

  大概三個小時後……

  「啪!」陳耀重重敲下回車鍵:「OK,大功告成!」

  黑馬配音軟體開發成功了!

  更強大的是它內置的智能語音引擎,前者的任務量不算大,大部分的時間都花在了語音引擎上。

  語音引擎的底層,是當今世界第一個,真正意義上的智能神經網絡框架,算法的複雜程度堪比人類的大腦神經。

  換做谷歌、微軟,起碼要20年的時間才能做出來。

  陳耀揉了揉手指:「我花了3個小時,真是累啊。」

  之所以這麼快,除了他本身速度快,還有另外一個原因,裡邊許多的數據,都是來自宇宙U盤,直接導入,省去了不少功夫。

  原本,陳耀想直接在U盤裡邊找配音軟體的成品,這樣就不用自己編寫代碼了。

  可是,目前U盤只是解鎖了第一個白羊座分區,這個分區並沒有成品,想要解鎖其他分區需要更多的積分。

  其實轉念一想,黑馬配音軟體有自己參與編寫也挺好,成就感更強,反正也花不了多少時間。

  現在配音軟體有了,語音引擎也有了,接下來,生產發音角色。

  ……

  PS:不知道大家有沒有用過起點讀書的語音朗讀功能?不妨用語音聽聽一下感覺。

  陳耀同學現在做的肯定比當今的語音技術強大很多很多。

  求收藏、投票


關閉
Δ