第1906章 讓研究浪漫起來
搞完這些又花了近一個小時,周至也就懶得回臥室了,按照老習慣,朝座位邊的大臥榻上一倒完事兒。
接下來的兩天裡,周至帶著麥小苗開始熟悉甲骨綴合項目和數字圖書館的圖資料庫架構。
這兩個項目也是接下來會契合細胞類神經網絡實驗研究的重點。
甲骨綴合項目最早源於瀚文大字庫圖片字轉矢量字的自動識別技術,以及字根解構與拼合技術,這兩個子項目的成功,也給瀚文大字庫的研發節約了大量的時間,尤其是二期與三期項目,幾乎是拿到兩位老師兄《字海》的卡片後,在極短的時間內就完成了識別,輸入,矢量化,入庫等工作。
也由於二期字庫的極快豐富,直接封殺了港島、新島、灣島甚至島國等漢字使用區想要自主研發全碼字庫的可能,吸引了日韓兩國派遣工作組來「共襄盛舉」,最終讓瀚文大字庫成為了全球唯一且統一的漢語言字符大字庫。
這些技術當然不會在完成大字庫研發後就束之高閣,而是繼續深化發展,很快周至又給它們找到了應用場景,那就是甲骨綴合。
于是之前的兩個技術,也就發展成了邊緣識別契合算法和變化字根通合算法。
這兩個算法說起來倒是簡單,就是實現部分人眼和人腦的功能。
前一個算法就是不管圖片上的碎片是大是小,位置如何,角度如何,也能夠讓計算機識別出其邊緣特徵,並且將之與資料庫當中其餘碎片的邊緣特徵進行匹配,如果找到匹配得上的位置,就會嘗試進行甲骨的拼合。
拼合好之後的甲骨,上面的文字往往就從寥寥幾個不明含義的散字變成一段話,很多隱藏在碎片當中的歷史信息就會第一次呈現在研究者們的面前。
價值當然不言而喻。
而第二個算法就更加的離散和非線性了。
甲骨文字雖然已經十分成熟,但是其流行的歷史時間相當長,且組字的時候並沒有固定的結構,因此往往一個字,多達數十種寫法。
比如步,其實就是一個左腳和一個右腳的字根,這兩個字根的寫法就有很多種,有繁有簡,而這兩個字根被貞人將之刻到甲骨上組合成「步」字以後,其位置關係和角度關係可謂五花八門。
對於經過訓練的人類來說,這兩個字根只要刻得大差不差,腦子當中很自然地就會冒出這種概念:這個是左腳,這個是右腳。
然後只要兩個字根擺放在一起,大致上下交錯就行,腦子就會自然而然地冒出另一個概念:嗯,這大概率是一個「步」字。
但是這樣的思維活動,對於目前的計算機技術來講,就顯得過於的「高級」了,因為現在的計算機技術,主要還在處理線性邏輯運算階段,而對於這類一個輸入多個輸出,或者多個輸出共同導致一個輸入的複雜非線性關係,還難以處理。
麥小苗研究的學科,就是用來解決這個問題的。
往大了說,這就是人工智慧的方向,往小了說,這就是讓計算機解決非線性問題的初級嘗試。
當然了,要解決實際問題,光有數學理論和工具也沒用,要和甲骨綴合這麼複雜的項目契合起來,不了解項目目前的運行方式那是絕對不行的。
麥小苗在深入了解了甲骨綴合和數字圖書館項目之後,生出了一個疑問:「肘子問你個問題啊,你是不是從一開始就有發展神經網絡系統的想法?因為從這兩個項目現在的階段來看,完全就是細胞元架構體系,完全符合神經網絡系統最底層的系統結構,接下來我們只需要研究如何構建各個元之間的相互關係算法就好了。」
「小苗你實在是高看我了。」周至笑道:「這兩個項目之所以具有如此的特殊性,完全在於它們都屬於文史類的研究項目,與你們擅長的理工類項目思路完全不一樣。」
「我一直在給天宇立冬春佳他們灌輸一個觀點,那就是理工的邏輯體系,常常是一個盤山公路一樣的體系,有一條明確的道路到達山頂,這就是線性邏輯的顯著特徵。」
「而文史類的項目,其邏輯體系實際上是一個球型網狀的結構,在這樣的結構中,還用盤山公路一樣的體系來解決問題,能夠成功嗎?」
「在一些小問題,局部問題上,的確可以成功。還是那個例子,比如關鍵詞檢索,搜蘇軾二字,將歷史上所有典籍中帶蘇軾的段落都給他找出來,最多在將蘇軾這個詞條下的各種標籤比如東坡,黃州團練,前後赤壁賦,明月幾時有等等搜檢出來,得到一個蘇軾的生平傳記和歷史評價,這就已經很難了。」
「能做到這一步當然已經很了不起,但是文史研究者想要探究的往往還有另外一類的問題,我舉個課題為例:《試論蘇軾人格魅力與宋人審美之間的相互關係,及其對後世美學之影響》。對於這樣的問題,想要在目前的數字圖書館裡尋找答案,那是沒有現成的,需要進行大量的學習和資料收集以後,在學者的腦子裡完成要素間的相互關聯,最後經過複雜思維才能得到靠譜的結論。」
「理論上是可以讓信息系統自我實現對這個問題的回答。」麥小苗點頭:「只要細胞樣本與關係算法類兩個要素足夠豐富,從一個點發散出去遍歷整個球網,可以得到一大堆的事件概率組合,最終構成一個……用你的話說,靠譜的結論。」
「別問我啊。」周至說道:「該我問你才對,你的實驗室,目標是這個嗎?」
麥小苗想了想說到:「之前其實我也沒有想好,因為我的研究多在理論上,回國前也了解了一下國內的發展現狀,當時我以為最好的部署方式就是利用超算進行一些物理或者天文的研究,嘗試對數據進行非線性處理,也就是說算力設備是單一的,而數據是分布式的。」
「還是你這干文科的想像力更加豐富,讓我的研究都變得浪漫起來了。」
說完又苦起了臉:「可是這研發費用,可能……」