TD,learning,PER和Epsilon:深度學習對高等教育教學的啟示
發(fā)布時間:2019-08-11 來源: 感恩親情 點擊:
摘要:本文從研究深度學習出發(fā),提出深度學習在增強學習領(lǐng)域能被高等教育借鑒的三種重要算法:時間差分學習、優(yōu)先經(jīng)驗回放、創(chuàng)新指數(shù),通過對這些算法的具體分析,總結(jié)這些算法如何優(yōu)勢互補,綜合運用到高等教育教學實踐上,提高高等教育教學效果。
關(guān)鍵詞:深度學習;時間差分學習;優(yōu)先經(jīng)驗回放;創(chuàng)新指數(shù)
中圖分類號:G642.41 文獻標志碼:A 文章編號:1674-9324(2018)31-0239-03
一、引言
“深度學習”本質(zhì)上是一個計算機科學領(lǐng)域的概念。谷歌的深度學習機器人Alpha-Go在圍棋上輕松戰(zhàn)勝人類頂尖高手的故事已經(jīng)家喻戶曉。如果把中國棋院、韓國棋院、日本棋院比作世界圍棋界最頂尖的三所高校,頂尖的棋手是這三所高校最優(yōu)秀的畢業(yè)生。而Alpha-Go開發(fā)團隊里圍棋水平最高的工程師也只有業(yè)余五段,相當于小學畢業(yè)學歷,一天大學都沒有上過,但是掌握了深度學習方法的學生,結(jié)果成績遠遠超越了所有頂尖大學最優(yōu)秀的畢業(yè)生。這是一個值得思考和研究的問題。深度學習和AI(Artificial Intelligence)“人工智能”緊密相關(guān)。
計算機是通過數(shù)理邏輯運算來進行學習的,如果計算機的深度學習算法反向被人類學習借鑒,那就表明這些學習方法在數(shù)理邏輯上也是可以被證明有效的。本文從這個角度出發(fā),提出已經(jīng)在深度學習上得到檢驗有效的“算法”,反過來也可以讓人類的學習方法和效率得到提升,最后提出深度學習的研究成果對高等教育教學的啟示。
二、深度學習概述
深度學習是近十年才被提出的一個概念(Hinton[1],2006)。簡單地說深度學習就是讓計算機通過模仿人類大腦的神經(jīng)網(wǎng)絡能夠像人類一樣學習。
深度學習分為“認知”學習和“增強”學習兩大類。
。ㄒ唬┱J知學習
深度學習根據(jù)其應用的領(lǐng)域不同,或者說模仿人腦的機能不同,分為“認知”學習和“增強”學習兩大類。
所謂“認知學習”,就是每一項輸入都有一個標準的輸出答案。例如圖像識別、語音識別、數(shù)學計算題、史實知識點,等等。因為監(jiān)督者立刻就可以反饋對或錯,所以也被稱為“有監(jiān)督的學習”。
(二)增強學習
而“增強學習”和“認知學習”最大的不同就在于沒有標準答案。對于沒有標準答案的問題,就不能輕易地去否定或肯定一個與原來流行的權(quán)威理論不同的思想,而是隨著不斷地探索,會得到一些時而清晰時而模糊的反饋,要經(jīng)歷一個較長的過程才能看出最終的結(jié)果是好是壞。當下的每一步是對整體結(jié)果的“增強”。下圍棋就是這樣的,一步棋的好壞在當時并不明確,而隨著棋局的進一步展開才會顯現(xiàn),而最終的輸贏要在很多步之后才明確。因為無法立刻反饋對或錯,所以這種學習也被稱為“無監(jiān)督的學習”。
增強學習核心有三個部分:
1.狀態(tài)(State):關(guān)于當前狀態(tài)的變量。
2.行動(Action):計劃采取的行動。
3.回報(Reward)采取行動后新的狀態(tài)對原有狀態(tài)的改變。
深度學習對高等教育教研的啟發(fā)主要在“增強”學習領(lǐng)域。
高等教育和初等教育的一個重要區(qū)別是,初等教育的學習方法中“認知”占了很大的比重,而高等教育的學習方法中“增強”占了很大的比重。這并不意味著增強學習要比認知學習來得更難。只能說對計算機來說意味著不同的算法,而對人類來說則意味著不同的思維方式,不同的算法(不同的思維方式)對應解決不同的問題。例如,讓一個建筑工程師設計一幢新的樓房要比讓他學會一門新的外語容易很多,雖然前者屬于增強學習,而后者屬于認知學習。
下面就具體分析三個增強學習中的重要算法及其對高等教育教學的啟發(fā)。
三、增強學習中的三個重要算法:TD Learning,PER和Epsilon
(一)時間差分學習(Temporal Difference Learning,簡稱TD Learning)
時間差分學習是在“動態(tài)規(guī)劃”算法和“蒙特卡羅模擬”算法的基礎上發(fā)展起來的。
動態(tài)規(guī)劃類似于“窮舉法”,把未來可能出現(xiàn)的狀況全部羅列出來,逐個比較。它的缺陷也很明顯:當問題的復雜程度提高時(表現(xiàn)為變量的增加),它需要的計算量呈指數(shù)級增加。例如,一個真實的19*19的圍棋盤,變化有3361種,這個數(shù)字比全宇宙的原子數(shù)還要大,現(xiàn)有的任何計算機都無法計算。這也即是所謂的“維度的詛咒”(Curse of Dimensionality)。
“蒙特卡羅”模擬針對“維度的詛咒”進行優(yōu)化,不要求“窮舉”,而是用數(shù)據(jù)反復試驗來得到結(jié)果。蒙特卡羅模擬算法比動態(tài)規(guī)劃算法的運算量大大減少了,但是因為每做一次實驗都要從頭算到尾,針對復雜問題的運算量依然很大。
時間差分學習法把動態(tài)規(guī)劃和蒙特卡羅模擬結(jié)合起來,也就是說不需要每次都從頭算到尾了,只要根據(jù)當前的回報和下一個狀態(tài)值來更新現(xiàn)在的狀態(tài)就可以了。
(二)優(yōu)先經(jīng)驗回放Prioritized Experience Replay(簡稱PER)
前面講到的時間差分學習法有一個弱點,那就是容易“一葉障目,不見泰山”。造成這個弱點的一個重要原因是,深度學習所使用的實驗數(shù)據(jù)是高度相關(guān)的連續(xù)數(shù)列。解決這個問題的方法是“經(jīng)驗回放”。
深度學習領(lǐng)域的經(jīng)驗回放概念最早由Lin Long Ji[2](1993)提出。在學習過程中,經(jīng)驗(x,a,y,r)不斷被保存到一個數(shù)據(jù)集中區(qū),并且還不斷地被調(diào)用,而不是只根據(jù)最新獲取的經(jīng)驗來更新。在實際生活中,能夠記住的“經(jīng)驗”總是有限的,計算機雖然儲存容量大,但依然是有限制的。因此,一個改進的算法“優(yōu)先經(jīng)驗回放”(Prioritized Experience Replay,PER)就很重要。結(jié)合上面的時間差分學習法,那些和預期值偏離越大的“經(jīng)驗”被賦予特別高的“優(yōu)先級”,它們未來被調(diào)用的可能性就越高,這樣就避免了傳統(tǒng)學習中常見的“好了傷疤忘了疼”的重復犯錯。
熱點文章閱讀