人類大腦:究竟是不是一臺計算機?也透過演算法來學習?AI終於找到了答案

雖然深度神經網路是一個獲得巨大成功的學習演算法,但其在生物大腦中並不適用。研究人員正在尋找其他可能的方法。

研究人員正在透過研究人工深度網路中的演算法,對生物神經元網路如何學習的過程有了更多的瞭解

2007年,深度神經網路背後的一些主要科學家,在人工智慧年會期間組織了一次非正式的“衛星”會議。

然而,此次會議曾拒絕了他們召開正式研討會的請求;這是

距離深度神經網路——接管人工智慧還有幾年的時間。

這次非正式會議的最後一位發言人是多倫多大學的傑弗裡·辛頓(Geoffrey Hinton),他是認知心理學家和計算機科學家,負責深網領域的一些重大突破。他以一句俏皮話開始:“大約一年前,我回家吃晚飯的時候,我對家裡人說‘

我想我終於弄明白了大腦的工作原理' 。而我15歲的女兒調侃道,'別了老爸,別再這樣了,你都說了這句話快10年了'。

觀眾們都笑了起來。辛頓(Hinton)繼續說:“

你看,這就是她的工作原理。(我已經明白她會這麼說)

” 更多的笑聲接踵而至。

辛頓(Hinton)的這一笑話掩蓋了一個嚴肅的理想目標:用人工智慧(AI)來理解大腦。

如今,深網統治了人工智慧,其部分原因是由於一種叫做反向傳播(backpropagation)的演算法,或稱backprop的演算法。

該演算法使深網能夠從資料中學習,賦予它們分類影象、識別語音、翻譯語言、理解自動駕駛汽車的路況,以及完成其他一系列任務的能力。

但真正的大腦不太可能依賴於相同的演算法。

蒙特利爾大學的計算機科學家、魁北克人工智慧研究所的科學主任、2007年研討會的組織者之一約書亞·本吉奧(Yoshua Bengio)認為,

這不僅僅是因為 "大腦能夠比最先進的人工智慧系統,更好更快地進行概括和學習"。

由於各種原因,反向傳播演算法(Backpropagation)與大腦的解剖學和生理學不相容,特別是在大腦皮層方面。

多倫多大學的認知心理學家和計算機科學家傑弗裡·辛頓(Geoffrey Hinton)負責深度神經網路技術的一些重大突破,包括反向傳播的發展。

本吉奧(Bengio)和許多其他受辛頓(Hinton)啟發的人

一直在思考更具生物學意義的學習機制,至少可以與反向傳播的成功相匹配。其中就有三種——反饋對齊、平衡傳播和預測編碼,已經顯示出特別廣闊的應用前景

。一些研究人員還將某些型別的大腦皮質神經元和注意力等過程的特性納入其模型中。所有這些努力都使我們更接近於理解可能在大腦中起作用的演算法。

大腦是一個巨大的謎團。人們普遍認為,如果我們能夠解開它的一些原理,它可能對人工智慧有所幫助

。”本吉奧(Bengio)說,“但它本身也極具價值。”

透過反向傳播演算法(Backpropagation)進行學習

幾十年來,

神經科學家關於大腦如何學習的理論

,主要是以加拿大心理學家唐納德·赫布(Donald Hebb)在1949年提出的一條規則為指導——

這條規則通常被解釋為 "神經元一起發射,就會相互連線"。也就是說,相鄰神經元的活動關聯性越大,它們之間的突觸連線就越強。

這一原則,經過一些修改,成功地解釋了某些有限型別的學習和視覺分類任務。

但對於那些必須從錯誤中學習的大型神經元網路來說,它的效果就差得多了

;對於網路深處的神經元來說,沒有直接針對性的方法來學習發現的錯誤,更新自己並減少犯錯。斯坦福大學的計算神經學家和計算機科學家丹尼爾·亞明斯(Daniel Yamins)認為:“

赫布理論是一種非常狹隘、特殊且不太敏感的錯誤資訊使用方式。

儘管如此,它仍是神經科學家所使用中最好的學習規則,甚至在它主導神經科學之前,它就啟發了20世紀50年代末第一批人工神經網路的發展。

這些網路中的每個人工神經元都會接收多個輸入,併產生一個輸出,就像它的生物對應物一樣。神經元將每個輸入乘以一個所謂的“突觸”權重(一個表示該輸入重要性的數字),然後將加權輸入相加。這個總和就是神經元的輸出。

到了20世紀60年代,人們清楚地看到,這種神經元可以組織成一個具有輸入層和輸出層的網路,並且可以訓練人工神經網路來解決某一類簡單的問題。

在訓練過程中,神經網路為其神經元確定了最佳的權重,以消除或減少錯誤。

然而,即使在20世紀60年代,解決更復雜的問題——顯然需要一個或多個 "隱藏 "層的神經元夾在輸入層和輸出層之間。

沒有人知道如何有效地訓練具有隱藏層的人工神經網路——直到1986年,辛頓(Hinton)、已故的大衛·魯梅爾哈特(David Rumelhart)和羅納德·威廉姆斯(Ronald Williams,現就職於美國東北大學)

發表了反向傳播演算法(Backpropagation)。

該演算法分兩個工作階段。在 "向前 "階段(forward phase)

,當網路得到一個輸入時,它推斷出一個輸出,但這個輸出可能是錯誤的。

第二個 "向後 "階段(backward   phase)更新突觸權重

,使輸出更符合目標值。

為了理解這個過程,可以考慮一個 "損失函式",它描述了作為丘陵和山谷景觀的推斷輸出和期望輸出之間的差異。

當一個網路用一組給定的突觸權重進行推理時,它最終會在損失景觀的某個位置。為了學習,它需要沿著斜坡或梯度向某個山谷移動,在那裡損失儘可能地最小化

。反傳播演算法就是一種更新突觸權重以降低梯度的方法。

為什麼稱為反向傳播演算法?

從本質上講,演算法的後向階段計算每個神經元的突觸權重對誤差的貢獻有多大,然後更新這些權重以提高網路的效能。

這種計算從輸出層到輸入層依次向後進行,

因此被稱為反向傳播。

對於輸入和期望輸出的集合反覆進行這種操作,最終你會得出整個神經網路可以接受的權重集。

對大腦來說,這種演算法是不可能實現的

反向傳播演算法的發明立即引起了一些神經科學家的強烈抗議,他們說這種方法永遠不可能在真實的大腦中發揮作用。

最著名的反對者是弗朗西斯·克里克(Francis Crick),這位獲得諾貝爾獎的DNA結構的共同發現者,後來成為一名神經科學家。1989年,克里克寫道:“

就學習過程而言,大腦實際上不太可能使用反向傳播演算法。

反向傳播演算法被認為在生物學上是不可信的,主要有幾個原因。首先,

雖然計算機可以很容易地分兩個階段實現該演算法,

但對生物神經網路來說,這樣做並不簡單。第二個原因是,計算神經科學家所說的權重傳輸問題:

反向傳播演算法複製或 “傳輸 ”有關推理中涉及的所有突觸權重的資訊,並更新這些權重以獲得更高的準確性。

但在生物網路中,神經元只看到其他神經元的輸出,而看不到形成該輸出的突觸權重或內部過程。

從神經元的角度來看,“知道自己的突觸權重是可以的。”亞明斯(Yamins)說,“真正不可行的是,你要知道其他神經元的一組突觸權重。”

任何生物學上可信的學習規則,也需要遵守這樣的限制:神經元只能從鄰近的神經元獲取資訊

;反向傳播演算法可能需要從更遠的神經元獲取資訊。所以,“如果你把反向傳播演算法看得很透徹,大腦似乎不可能計算出來。”本吉奧(Bengio)說

儘管如此,辛頓(Hinton)和其他幾個人還是立即接受了挑戰,致力於研究反向傳播的生物學上合理的變化。

“第一篇論證大腦會做(類似於)反向傳播的事情的論文大約和反向傳播本身一樣古老。”賓夕法尼亞大學的計算神經科學家康拉德·科丁(Konrad Kording)說。

在過去的十幾年裡,隨著人工神經網路的成功,使其在人工智慧研究中佔據了主導地位,為反向傳播尋找生物等價物的努力也在加強。

保持更逼真的生命力

以權重傳輸問題最奇怪的解決方案之一為例——由倫敦谷歌DeepMind的蒂莫西·利利克拉普(Timothy Lillicrap)和他的同事在2016年提供。

他們的演算法,不是依靠前向傳遞記錄的權重矩陣,而是使用一個用隨機值初始化後向傳遞的矩陣。一旦分配,這些值永遠不會改變,所以每次向後傳遞都不需要傳輸權重。

令幾乎所有人驚訝的是向,這一神經網路AI盡然學會了。

因為用於推理的前向權重在每次後向傳遞時都會更新,所以神經網路仍然在下降損失函式的梯度,但路徑不同。前向權重與隨機選擇的後向權重值慢慢對齊,最終得出正確答案,

該演算法因此得名:反饋對齊演算法。

“事實證明,實際上,這並不像你想象的那樣糟糕。”亞明斯(Yamins)說——至少對於簡單的問題是這樣。

對於大規模的問題,以及對於有更多隱藏層的深層網路,反饋對齊的效果不如反向傳播演算法。

因為每一次對前向權重的更新,都不如真正的反向傳播資訊準確,所以需要更多的資料來訓練網路。

蒙特利爾大學(universityofmontreal)的人工智慧研究員和計算機科學家約書亞·本吉奧(Yoshua Bengio)是尋求學習演算法的科學家之一,這些演算法與反向傳播(backpropagation)一樣有效,但在生物學上更可信。

研究人員還探索瞭如何匹配反向傳播演算法的效能,同時保持經典的赫布理論(Hebbian)學習要求,即神經元只對其區域性鄰居作出反應。

反向傳播演算法(Backprop)可以被認為是一組神經元進行推理,另一組神經元進行更新突觸權重的計算。辛頓(Hinton)的想法是研究演算法,每個神經元同時進行兩組計算。“這基本上就是傑夫(Geoff)2007年演講內容的復刻。”本吉奧(Bengio)說。

在辛頓(Hinton)工作的基礎上,本吉奧(Bengio)的團隊在2017年提出了一個學習規則,需要一個具有迴圈連線的神經網路(即如果神經元A啟用神經元B,那麼神經元B反過來啟用神經元A)。

如果這樣一個網路被給予一些輸入,它會使網路產生迴響,因為每個神經元都會對其近鄰的推拉做出反應。

最終,網路達到一種狀態,在這種狀態下,神經元與輸入和彼此處於平衡狀態,併產生一個輸出,但這個輸出可能是錯誤的。

然後,演算法會將輸出神經元向所需的結果推移。這使得另一個訊號透過網路反向傳播,引發類似的動態。網路找到了一個新的平衡點。

數學的美妙之處在於,如果你比較這兩種配置,在輕推之前和之後,你已經得到了你需要的所有資訊來尋找梯度

。”本吉奧(Bengio)說。訓練網路只需要在大量的標記資料上重複這個 “平衡傳播 ”的過程。

預測感知

神經元只能透過對其本地環境做出反應來學習的約束,也在大腦感知的新理論中得到了體現。

貝倫·米里奇( Beren Millidge)是愛丁堡大學的博士生,也是薩塞克斯大學的訪問學者,

他和他的同事們一直在調和這種新的感知觀點——所謂的預測編碼,和反向傳播的要求。

米里奇(Millidge)認為:“

如果預測編碼,是以某種方式建立起來的,它將為你提供一個生物學上合理的學習規則。

預測編碼認為,大腦不斷地對感覺輸入的原因做出預測。

這個過程涉及分層的神經處理層。為了產生某種輸出,每一層都必須預測下面一層的神經活動。

如果最高層期望看到一張臉,它就會預測下面一層的活動,可以證明這種感知的合理性。

下面的一層也會對其下面的一層的預期做出類似的預測,以此類推。最底層預測實際的感覺輸入——比如說,落在視網膜上的光子。

透過這種方式,預測從上層流向下層。

赫布理論(Hebbian)是一種非常狹隘的、特殊的、不是很敏感的使用誤差資訊的方式。——丹尼爾·亞明斯(Daniel Yamins),斯坦福大學

但在層次結構的每一層都可能出現誤差:一個層對它所期望的輸入所做的預測與實際輸入之間的差異。

最底層根據收到的感覺資訊,調整其突觸權重,以最小化其誤差。這種調整會導致新更新的最低層和上面的層之間產生誤差,所以更高的層必須重新調整其突觸權重,以最小化其預測誤差。這些錯誤訊號會向上波及。

網路反反覆覆移動,直到每一層都將其預測誤差最小化。

米里奇(Millidge)已經證明,如果設定得當,預測編碼網路可以在與

反向傳播演算法

基本相同的學習梯度上收斂。他說:“你可以非常,非常,非常接近反向傳播演算法的梯度。“

然而,對於傳統的反向傳播演算法在深度神經網路中進行的每一次向後傳遞,預測編碼網路都需要多次迭代。

這在生物學上是否合理,取決於這在真實大腦中可能需要多長時間。

最關鍵的是,網路必須在外部世界的輸入發生變化之前,收斂到一個解決方案。

米里奇(Millidge)說:“這不可能是‘

我有一隻老虎在向我撲來,讓我在大腦上下來回做100次迭代。

’”。儘管如此,他認為i,如果一些不準確是可以接受的,預測編碼可以很快得到普遍有用的答案。

金字塔神經元

一些科學家根據單個神經元的已知特性,開始著手建立類似於反向傳播演算法的細枝末節的工作

。標準神經元有樹突,可以從其他神經元的軸突上收集資訊。樹突將訊號傳輸到神經元的細胞體,在那裡訊號被整合。

這可能會或可能不會導致一個尖峰,或動作電位,在神經元的軸突上傳到突觸後神經元的樹突上。

但並不是所有的神經元都完全具有這種結構。

尤其是金字塔神經元——皮層中最豐富的神經元型別,有明顯的不同。

金字塔神經元——有一個樹狀結構,有兩組不同的樹突。樹幹向上延伸,分支成所謂的頂端樹突。根部向下延伸,分支為基底樹突。

科丁(Kording)在2001年獨立開發的模型,以及最近麥吉爾大學和魁北克人工智慧研究所的布萊克·理查茲(Blake Richards)及其同事開發的模型都表明,

金字塔神經元可以同時進行前向和後向計算,從而構成深度學習網路的基本單元。

關鍵在於將進入神經元的訊號進行前向推理和後向流錯的分離,在模型中可以分別由基底和頂端樹突處理。

這兩種訊號的資訊都可以編碼在神經元作為輸出沿其軸突發送的電活動尖峰中。

在理查茲(Richards)團隊的最新研究中,“

我們已經到了可以證明的地步,我們可以證明,透過相當逼真的神經元模擬,你可以訓練錐體神經元網路來完成各種任務。

”理查茲(Richards)說,“然後,使用這些模型的略微抽象一點的版本,我們可以讓金字塔神經元的網路學習人們在機器學習中的那種困難任務。”

注意力的作用

對於使用反向傳播演算法的深度網路來說,一個隱含的要求是存在一個 "老師":可以計算神經元網路產生的錯誤的東西。

但是,阿姆斯特丹荷蘭神經科學研究所的彼得·羅爾夫塞馬(Pieter Roelfsema)說:“大腦中沒有一個老師會告訴運動皮層的每一個神經元,‘你應該被開啟,你應該被關閉。’”。

斯坦福大學的計算神經學家和計算機科學家丹尼爾·亞明斯(danielyamins)正在研究如何識別哪些演算法在生物大腦中最為活躍的。

羅爾夫塞馬(Roelfsema)認為大腦解決這個問題的方法是在注意的過程中。

在20世紀90年代末,他和他的同事們發現,

當猴子將目光固定在一個物體上時,皮層中代表該物體的神經元會變得更加活躍。

猴子集中注意力的行為會對負責的神經元產生一個反饋訊號。“

這是一個高度選擇性的反饋訊號。這不是一個錯誤訊號。它只是對所有這些神經元說:你要為一個行為負責

。”

羅爾夫塞馬(Roelfsema)的見解是,當這種反饋訊號與某些其他神經科學發現中所揭示的過程相結合時,可以實現類似於背道具的學習。

例如,劍橋大學的沃爾夫拉姆·舒爾茨(Wolfram Schultz)等人已經證明,當動物執行的動作產生比預期更好的結果時,大腦的多巴胺系統被啟用。“它用神經調節劑充斥整個大腦。”羅爾夫塞馬(Roelfsema)說。

多巴胺水平就像一個全域性性的強化訊號。

理論上,注意力反饋訊號可以只刺激那些負責某個動作的神經元,透過更新它們的突觸權重來響應全域性強化訊號

。羅爾夫塞馬(Roelfsema)和他的同事們利用這個想法建立了一個一個深層次的神經網路,並研究了它的數學特性。”

事實證明,你會得到錯誤的反向傳播演算法。你得到的方程基本上是一樣的。但現在這在生物學上變得有道理了

。“

該團隊在去年12月的神經資訊處理系統線上會議上展示了這項工作。

羅爾夫塞馬(Roelfsema)表示:”

我們可以訓練深度網路,它只比反向傳播慢了兩到三倍

。 因此,它擊敗了所有其他已經提出的生物可信的演算法。“

儘管如此,活體大腦使用這些可信機制的具體經驗證據仍然難以捉摸。

本吉奧(Bengio)說:”我想我們還缺少一些東西。以我的經驗,這可能是一件小事,也許對現有的一種方法稍加改動,那將真正起到作用。“

與此同時,亞明斯(Yamins)和他在斯坦福大學的同事們,對如何確定哪種學習規則是正確的提出了建議。

透過分析1,056個實現不同學習模型的人工神經網路,他們發現,控制網路的學習規則的型別可以從神經元子集隨時間的活動中識別出來。這種資訊有可能是從猴腦中記錄下來的。亞明斯說:“

事實證明,如果你收集了正確的觀察資料,就有可能提出一個相當簡單的方案,讓你能夠識別學習規則。

”。

鑑於這些進步,計算神經科學家們悄然樂觀。科丁(Kording)認為:”

大腦有很多不同的方式可以進行反向傳播。而進化真是太棒了,這使得反向傳播演算法變得很有用。我推測,進化論會把我們帶到最終目的地

。“

GolevkaTech——專注於分享最新的能源、材料、人工智慧領域最新諮詢與觀點

撰寫:

GolevkaTech

重要宣告:

此處所發表的圖文和影片均為作者的原創稿件,版權歸原創作者所擁有。所刊發的圖片和影片作品,除特別標註外,均視為圖文作者和被拍攝者預設此版權之歸屬權。

相關文章