东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

        TD,learning,PER和Epsilon:深度學(xué)習(xí)對高等教育教學(xué)的啟示

        發(fā)布時(shí)間:2019-08-11 來源: 感恩親情 點(diǎn)擊:


          摘要:本文從研究深度學(xué)習(xí)出發(fā),提出深度學(xué)習(xí)在增強(qiáng)學(xué)習(xí)領(lǐng)域能被高等教育借鑒的三種重要算法:時(shí)間差分學(xué)習(xí)、優(yōu)先經(jīng)驗(yàn)回放、創(chuàng)新指數(shù),通過對這些算法的具體分析,總結(jié)這些算法如何優(yōu)勢互補(bǔ),綜合運(yùn)用到高等教育教學(xué)實(shí)踐上,提高高等教育教學(xué)效果。
          關(guān)鍵詞:深度學(xué)習(xí);時(shí)間差分學(xué)習(xí);優(yōu)先經(jīng)驗(yàn)回放;創(chuàng)新指數(shù)
          中圖分類號:G642.41 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-9324(2018)31-0239-03
          一、引言
          “深度學(xué)習(xí)”本質(zhì)上是一個(gè)計(jì)算機(jī)科學(xué)領(lǐng)域的概念。谷歌的深度學(xué)習(xí)機(jī)器人Alpha-Go在圍棋上輕松戰(zhàn)勝人類頂尖高手的故事已經(jīng)家喻戶曉。如果把中國棋院、韓國棋院、日本棋院比作世界圍棋界最頂尖的三所高校,頂尖的棋手是這三所高校最優(yōu)秀的畢業(yè)生。而Alpha-Go開發(fā)團(tuán)隊(duì)里圍棋水平最高的工程師也只有業(yè)余五段,相當(dāng)于小學(xué)畢業(yè)學(xué)歷,一天大學(xué)都沒有上過,但是掌握了深度學(xué)習(xí)方法的學(xué)生,結(jié)果成績遠(yuǎn)遠(yuǎn)超越了所有頂尖大學(xué)最優(yōu)秀的畢業(yè)生。這是一個(gè)值得思考和研究的問題。深度學(xué)習(xí)和AI(Artificial Intelligence)“人工智能”緊密相關(guān)。
          計(jì)算機(jī)是通過數(shù)理邏輯運(yùn)算來進(jìn)行學(xué)習(xí)的,如果計(jì)算機(jī)的深度學(xué)習(xí)算法反向被人類學(xué)習(xí)借鑒,那就表明這些學(xué)習(xí)方法在數(shù)理邏輯上也是可以被證明有效的。本文從這個(gè)角度出發(fā),提出已經(jīng)在深度學(xué)習(xí)上得到檢驗(yàn)有效的“算法”,反過來也可以讓人類的學(xué)習(xí)方法和效率得到提升,最后提出深度學(xué)習(xí)的研究成果對高等教育教學(xué)的啟示。
          二、深度學(xué)習(xí)概述
          深度學(xué)習(xí)是近十年才被提出的一個(gè)概念(Hinton[1],2006)。簡單地說深度學(xué)習(xí)就是讓計(jì)算機(jī)通過模仿人類大腦的神經(jīng)網(wǎng)絡(luò)能夠像人類一樣學(xué)習(xí)。
          深度學(xué)習(xí)分為“認(rèn)知”學(xué)習(xí)和“增強(qiáng)”學(xué)習(xí)兩大類。
         。ㄒ唬┱J(rèn)知學(xué)習(xí)
          深度學(xué)習(xí)根據(jù)其應(yīng)用的領(lǐng)域不同,或者說模仿人腦的機(jī)能不同,分為“認(rèn)知”學(xué)習(xí)和“增強(qiáng)”學(xué)習(xí)兩大類。
          所謂“認(rèn)知學(xué)習(xí)”,就是每一項(xiàng)輸入都有一個(gè)標(biāo)準(zhǔn)的輸出答案。例如圖像識別、語音識別、數(shù)學(xué)計(jì)算題、史實(shí)知識點(diǎn),等等。因?yàn)楸O(jiān)督者立刻就可以反饋對或錯(cuò),所以也被稱為“有監(jiān)督的學(xué)習(xí)”。
         。ǘ┰鰪(qiáng)學(xué)習(xí)
          而“增強(qiáng)學(xué)習(xí)”和“認(rèn)知學(xué)習(xí)”最大的不同就在于沒有標(biāo)準(zhǔn)答案。對于沒有標(biāo)準(zhǔn)答案的問題,就不能輕易地去否定或肯定一個(gè)與原來流行的權(quán)威理論不同的思想,而是隨著不斷地探索,會(huì)得到一些時(shí)而清晰時(shí)而模糊的反饋,要經(jīng)歷一個(gè)較長的過程才能看出最終的結(jié)果是好是壞。當(dāng)下的每一步是對整體結(jié)果的“增強(qiáng)”。下圍棋就是這樣的,一步棋的好壞在當(dāng)時(shí)并不明確,而隨著棋局的進(jìn)一步展開才會(huì)顯現(xiàn),而最終的輸贏要在很多步之后才明確。因?yàn)闊o法立刻反饋對或錯(cuò),所以這種學(xué)習(xí)也被稱為“無監(jiān)督的學(xué)習(xí)”。
          增強(qiáng)學(xué)習(xí)核心有三個(gè)部分:
          1.狀態(tài)(State):關(guān)于當(dāng)前狀態(tài)的變量。
          2.行動(dòng)(Action):計(jì)劃采取的行動(dòng)。
          3.回報(bào)(Reward)采取行動(dòng)后新的狀態(tài)對原有狀態(tài)的改變。
          深度學(xué)習(xí)對高等教育教研的啟發(fā)主要在“增強(qiáng)”學(xué)習(xí)領(lǐng)域。
          高等教育和初等教育的一個(gè)重要區(qū)別是,初等教育的學(xué)習(xí)方法中“認(rèn)知”占了很大的比重,而高等教育的學(xué)習(xí)方法中“增強(qiáng)”占了很大的比重。這并不意味著增強(qiáng)學(xué)習(xí)要比認(rèn)知學(xué)習(xí)來得更難。只能說對計(jì)算機(jī)來說意味著不同的算法,而對人類來說則意味著不同的思維方式,不同的算法(不同的思維方式)對應(yīng)解決不同的問題。例如,讓一個(gè)建筑工程師設(shè)計(jì)一幢新的樓房要比讓他學(xué)會(huì)一門新的外語容易很多,雖然前者屬于增強(qiáng)學(xué)習(xí),而后者屬于認(rèn)知學(xué)習(xí)。
          下面就具體分析三個(gè)增強(qiáng)學(xué)習(xí)中的重要算法及其對高等教育教學(xué)的啟發(fā)。
          三、增強(qiáng)學(xué)習(xí)中的三個(gè)重要算法:TD Learning,PER和Epsilon
         。ㄒ唬⿻r(shí)間差分學(xué)習(xí)(Temporal Difference Learning,簡稱TD Learning)
          時(shí)間差分學(xué)習(xí)是在“動(dòng)態(tài)規(guī)劃”算法和“蒙特卡羅模擬”算法的基礎(chǔ)上發(fā)展起來的。
          動(dòng)態(tài)規(guī)劃類似于“窮舉法”,把未來可能出現(xiàn)的狀況全部羅列出來,逐個(gè)比較。它的缺陷也很明顯:當(dāng)問題的復(fù)雜程度提高時(shí)(表現(xiàn)為變量的增加),它需要的計(jì)算量呈指數(shù)級增加。例如,一個(gè)真實(shí)的19*19的圍棋盤,變化有3361種,這個(gè)數(shù)字比全宇宙的原子數(shù)還要大,現(xiàn)有的任何計(jì)算機(jī)都無法計(jì)算。這也即是所謂的“維度的詛咒”(Curse of Dimensionality)。
          “蒙特卡羅”模擬針對“維度的詛咒”進(jìn)行優(yōu)化,不要求“窮舉”,而是用數(shù)據(jù)反復(fù)試驗(yàn)來得到結(jié)果。蒙特卡羅模擬算法比動(dòng)態(tài)規(guī)劃算法的運(yùn)算量大大減少了,但是因?yàn)槊孔鲆淮螌?shí)驗(yàn)都要從頭算到尾,針對復(fù)雜問題的運(yùn)算量依然很大。
          時(shí)間差分學(xué)習(xí)法把動(dòng)態(tài)規(guī)劃和蒙特卡羅模擬結(jié)合起來,也就是說不需要每次都從頭算到尾了,只要根據(jù)當(dāng)前的回報(bào)和下一個(gè)狀態(tài)值來更新現(xiàn)在的狀態(tài)就可以了。
         。ǘ﹥(yōu)先經(jīng)驗(yàn)回放Prioritized Experience Replay(簡稱PER)
          前面講到的時(shí)間差分學(xué)習(xí)法有一個(gè)弱點(diǎn),那就是容易“一葉障目,不見泰山”。造成這個(gè)弱點(diǎn)的一個(gè)重要原因是,深度學(xué)習(xí)所使用的實(shí)驗(yàn)數(shù)據(jù)是高度相關(guān)的連續(xù)數(shù)列。解決這個(gè)問題的方法是“經(jīng)驗(yàn)回放”。
          深度學(xué)習(xí)領(lǐng)域的經(jīng)驗(yàn)回放概念最早由Lin Long Ji[2](1993)提出。在學(xué)習(xí)過程中,經(jīng)驗(yàn)(x,a,y,r)不斷被保存到一個(gè)數(shù)據(jù)集中區(qū),并且還不斷地被調(diào)用,而不是只根據(jù)最新獲取的經(jīng)驗(yàn)來更新。在實(shí)際生活中,能夠記住的“經(jīng)驗(yàn)”總是有限的,計(jì)算機(jī)雖然儲存容量大,但依然是有限制的。因此,一個(gè)改進(jìn)的算法“優(yōu)先經(jīng)驗(yàn)回放”(Prioritized Experience Replay,PER)就很重要。結(jié)合上面的時(shí)間差分學(xué)習(xí)法,那些和預(yù)期值偏離越大的“經(jīng)驗(yàn)”被賦予特別高的“優(yōu)先級”,它們未來被調(diào)用的可能性就越高,這樣就避免了傳統(tǒng)學(xué)習(xí)中常見的“好了傷疤忘了疼”的重復(fù)犯錯(cuò)。

        相關(guān)熱詞搜索:教育教學(xué) 啟示 深度 學(xué)習(xí) TD

        版權(quán)所有 蒲公英文摘 smilezhuce.com