东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

感恩親情 蒲公英文摘 > 感恩親情 >

TD,learning，PER和Epsilon：深度學(xué)習(xí)對高等教育教學(xué)的啟示

發(fā)布時(shí)間:2019-08-11 來源: 感恩親情點(diǎn)擊：

　　摘要：本文從研究深度學(xué)習(xí)出發(fā)，提出深度學(xué)習(xí)在增強(qiáng)學(xué)習(xí)領(lǐng)域能被高等教育借鑒的三種重要算法：時(shí)間差分學(xué)習(xí)、優(yōu)先經(jīng)驗(yàn)回放、創(chuàng)新指數(shù)，通過對這些算法的具體分析，總結(jié)這些算法如何優(yōu)勢互補(bǔ)，綜合運(yùn)用到高等教育教學(xué)實(shí)踐上，提高高等教育教學(xué)效果。
　　關(guān)鍵詞：深度學(xué)習(xí)；時(shí)間差分學(xué)習(xí)；優(yōu)先經(jīng)驗(yàn)回放；創(chuàng)新指數(shù)
　　中圖分類號：G642.41 文獻(xiàn)標(biāo)志碼：A 文章編號：1674-9324（2018）31-0239-03
　　一、引言
　　“深度學(xué)習(xí)”本質(zhì)上是一個(gè)計(jì)算機(jī)科學(xué)領(lǐng)域的概念。谷歌的深度學(xué)習(xí)機(jī)器人Alpha-Go在圍棋上輕松戰(zhàn)勝人類頂尖高手的故事已經(jīng)家喻戶曉。如果把中國棋院、韓國棋院、日本棋院比作世界圍棋界最頂尖的三所高校，頂尖的棋手是這三所高校最優(yōu)秀的畢業(yè)生。而Alpha-Go開發(fā)團(tuán)隊(duì)里圍棋水平最高的工程師也只有業(yè)余五段，相當(dāng)于小學(xué)畢業(yè)學(xué)歷，一天大學(xué)都沒有上過，但是掌握了深度學(xué)習(xí)方法的學(xué)生，結(jié)果成績遠(yuǎn)遠(yuǎn)超越了所有頂尖大學(xué)最優(yōu)秀的畢業(yè)生。這是一個(gè)值得思考和研究的問題。深度學(xué)習(xí)和AI（Artificial Intelligence）“人工智能”緊密相關(guān)。
　　計(jì)算機(jī)是通過數(shù)理邏輯運(yùn)算來進(jìn)行學(xué)習(xí)的，如果計(jì)算機(jī)的深度學(xué)習(xí)算法反向被人類學(xué)習(xí)借鑒，那就表明這些學(xué)習(xí)方法在數(shù)理邏輯上也是可以被證明有效的。本文從這個(gè)角度出發(fā)，提出已經(jīng)在深度學(xué)習(xí)上得到檢驗(yàn)有效的“算法”，反過來也可以讓人類的學(xué)習(xí)方法和效率得到提升，最后提出深度學(xué)習(xí)的研究成果對高等教育教學(xué)的啟示。
　　二、深度學(xué)習(xí)概述
　　深度學(xué)習(xí)是近十年才被提出的一個(gè)概念（Hinton[1]，2006）。簡單地說深度學(xué)習(xí)就是讓計(jì)算機(jī)通過模仿人類大腦的神經(jīng)網(wǎng)絡(luò)能夠像人類一樣學(xué)習(xí)。
　　深度學(xué)習(xí)分為“認(rèn)知”學(xué)習(xí)和“增強(qiáng)”學(xué)習(xí)兩大類。
　�。ㄒ唬┱J(rèn)知學(xué)習(xí)
　　深度學(xué)習(xí)根據(jù)其應(yīng)用的領(lǐng)域不同，或者說模仿人腦的機(jī)能不同，分為“認(rèn)知”學(xué)習(xí)和“增強(qiáng)”學(xué)習(xí)兩大類。
　　所謂“認(rèn)知學(xué)習(xí)”，就是每一項(xiàng)輸入都有一個(gè)標(biāo)準(zhǔn)的輸出答案。例如圖像識別、語音識別、數(shù)學(xué)計(jì)算題、史實(shí)知識點(diǎn)，等等。因?yàn)楸O(jiān)督者立刻就可以反饋對或錯(cuò)，所以也被稱為“有監(jiān)督的學(xué)習(xí)”。
　�。ǘ┰鰪�(qiáng)學(xué)習(xí)
　　而“增強(qiáng)學(xué)習(xí)”和“認(rèn)知學(xué)習(xí)”最大的不同就在于沒有標(biāo)準(zhǔn)答案。對于沒有標(biāo)準(zhǔn)答案的問題，就不能輕易地去否定或肯定一個(gè)與原來流行的權(quán)威理論不同的思想，而是隨著不斷地探索，會(huì)得到一些時(shí)而清晰時(shí)而模糊的反饋，要經(jīng)歷一個(gè)較長的過程才能看出最終的結(jié)果是好是壞。當(dāng)下的每一步是對整體結(jié)果的“增強(qiáng)”。下圍棋就是這樣的，一步棋的好壞在當(dāng)時(shí)并不明確，而隨著棋局的進(jìn)一步展開才會(huì)顯現(xiàn)，而最終的輸贏要在很多步之后才明確。因?yàn)闊o法立刻反饋對或錯(cuò)，所以這種學(xué)習(xí)也被稱為“無監(jiān)督的學(xué)習(xí)”。
　　增強(qiáng)學(xué)習(xí)核心有三個(gè)部分：
　　1.狀態(tài)（State）：關(guān)于當(dāng)前狀態(tài)的變量。
　　2.行動(dòng)（Action）：計(jì)劃采取的行動(dòng)。
　　3.回報(bào)（Reward）采取行動(dòng)后新的狀態(tài)對原有狀態(tài)的改變。
　　深度學(xué)習(xí)對高等教育教研的啟發(fā)主要在“增強(qiáng)”學(xué)習(xí)領(lǐng)域。
　　高等教育和初等教育的一個(gè)重要區(qū)別是，初等教育的學(xué)習(xí)方法中“認(rèn)知”占了很大的比重，而高等教育的學(xué)習(xí)方法中“增強(qiáng)”占了很大的比重。這并不意味著增強(qiáng)學(xué)習(xí)要比認(rèn)知學(xué)習(xí)來得更難。只能說對計(jì)算機(jī)來說意味著不同的算法，而對人類來說則意味著不同的思維方式，不同的算法（不同的思維方式）對應(yīng)解決不同的問題。例如，讓一個(gè)建筑工程師設(shè)計(jì)一幢新的樓房要比讓他學(xué)會(huì)一門新的外語容易很多，雖然前者屬于增強(qiáng)學(xué)習(xí)，而后者屬于認(rèn)知學(xué)習(xí)。
　　下面就具體分析三個(gè)增強(qiáng)學(xué)習(xí)中的重要算法及其對高等教育教學(xué)的啟發(fā)。
　　三、增強(qiáng)學(xué)習(xí)中的三個(gè)重要算法：TD Learning，PER和Epsilon
　�。ㄒ唬⿻r(shí)間差分學(xué)習(xí)（Temporal Difference Learning，簡稱TD Learning）
　　時(shí)間差分學(xué)習(xí)是在“動(dòng)態(tài)規(guī)劃”算法和“蒙特卡羅模擬”算法的基礎(chǔ)上發(fā)展起來的。
　　動(dòng)態(tài)規(guī)劃類似于“窮舉法”，把未來可能出現(xiàn)的狀況全部羅列出來，逐個(gè)比較。它的缺陷也很明顯：當(dāng)問題的復(fù)雜程度提高時(shí)（表現(xiàn)為變量的增加），它需要的計(jì)算量呈指數(shù)級增加。例如，一個(gè)真實(shí)的19*19的圍棋盤，變化有3361種，這個(gè)數(shù)字比全宇宙的原子數(shù)還要大，現(xiàn)有的任何計(jì)算機(jī)都無法計(jì)算。這也即是所謂的“維度的詛咒”（Curse of Dimensionality）。
　　“蒙特卡羅”模擬針對“維度的詛咒”進(jìn)行優(yōu)化，不要求“窮舉”，而是用數(shù)據(jù)反復(fù)試驗(yàn)來得到結(jié)果。蒙特卡羅模擬算法比動(dòng)態(tài)規(guī)劃算法的運(yùn)算量大大減少了，但是因?yàn)槊孔鲆淮螌?shí)驗(yàn)都要從頭算到尾，針對復(fù)雜問題的運(yùn)算量依然很大。
　　時(shí)間差分學(xué)習(xí)法把動(dòng)態(tài)規(guī)劃和蒙特卡羅模擬結(jié)合起來，也就是說不需要每次都從頭算到尾了，只要根據(jù)當(dāng)前的回報(bào)和下一個(gè)狀態(tài)值來更新現(xiàn)在的狀態(tài)就可以了。
　�。ǘ﹥�(yōu)先經(jīng)驗(yàn)回放Prioritized Experience Replay（簡稱PER）
　　前面講到的時(shí)間差分學(xué)習(xí)法有一個(gè)弱點(diǎn)，那就是容易“一葉障目，不見泰山”。造成這個(gè)弱點(diǎn)的一個(gè)重要原因是，深度學(xué)習(xí)所使用的實(shí)驗(yàn)數(shù)據(jù)是高度相關(guān)的連續(xù)數(shù)列。解決這個(gè)問題的方法是“經(jīng)驗(yàn)回放”。
　　深度學(xué)習(xí)領(lǐng)域的經(jīng)驗(yàn)回放概念最早由Lin Long Ji[2]（1993）提出。在學(xué)習(xí)過程中，經(jīng)驗(yàn)（x，a，y，r）不斷被保存到一個(gè)數(shù)據(jù)集中區(qū)，并且還不斷地被調(diào)用，而不是只根據(jù)最新獲取的經(jīng)驗(yàn)來更新。在實(shí)際生活中，能夠記住的“經(jīng)驗(yàn)”總是有限的，計(jì)算機(jī)雖然儲存容量大，但依然是有限制的。因此，一個(gè)改進(jìn)的算法“優(yōu)先經(jīng)驗(yàn)回放”（Prioritized Experience Replay，PER）就很重要。結(jié)合上面的時(shí)間差分學(xué)習(xí)法，那些和預(yù)期值偏離越大的“經(jīng)驗(yàn)”被賦予特別高的“優(yōu)先級”，它們未來被調(diào)用的可能性就越高，這樣就避免了傳統(tǒng)學(xué)習(xí)中常見的“好了傷疤忘了疼”的重復(fù)犯錯(cuò)。

相關(guān)熱詞搜索：教育教學(xué) 啟示深度學(xué)習(xí) TD

熱點(diǎn)文章閱讀

版權(quán)所有 蒲公英文摘 smilezhuce.com

<tfoot id="mausp"></tfoot>