【計算機自動化項目生成概述】 電氣工程及其自動化自考
發(fā)布時間:2020-03-03 來源: 歷史回眸 點擊:
摘要:近年來,計算機自動化項目生成作為應(yīng)對測驗項目曝光問題的很具前景的一項技術(shù),逐漸得到越來越多研究者的重視。這種技術(shù)是以認(rèn)知心理學(xué)和心理測量學(xué)為基礎(chǔ),在測試過程中借助計算機自動生成目標(biāo)難度水平的項目。該文首先簡要介紹了這種技術(shù)的理論基礎(chǔ)和兩種具體方法,然后以項目設(shè)計系統(tǒng)法為例說明自動化項目生成研究的具體步驟與優(yōu)點,最后評述了這種技術(shù)的局限性及未來的發(fā)展趨勢。
關(guān)鍵詞:計算機自動化項目生成,認(rèn)知設(shè)計系統(tǒng)法,項目模型法,構(gòu)念效度。
分類號:B841
隨著心理測驗在招聘選拔情境中的應(yīng)用越來越普遍,測驗項目的曝光問題也逐漸引起人們的重視。測驗項目的曝光不僅會影響測驗的公平性,也可能會影響測驗的心理測量學(xué)屬性。計算機自動化項目生成被許多研究者認(rèn)為是應(yīng)對測驗項目曝光問題的很具前景的一項技術(shù)。自動化項目生成是指在測驗過程中,計算機根據(jù)項目編制者或者自適應(yīng)施測程序的要求,在項目生成算法的指導(dǎo)下,即時自動生成符合指定項目參數(shù)的項目。盡管這個項目先前并不存在,也沒有經(jīng)過試測,但項目參數(shù)可以通過基于項目刺激特征與項目屬性之間關(guān)系的心理測量學(xué)模型進(jìn)行預(yù)測。因而自動化項目生成可以看作是認(rèn)知心理學(xué)、心理測量學(xué)以及計算機技術(shù)三者有機結(jié)合的產(chǎn)物,是對傳統(tǒng)項目編制方法的革新。這種技術(shù)已經(jīng)被應(yīng)用到能力和成就測驗領(lǐng)域,還被用于對復(fù)雜技能的評估,如問題解決、臨床診斷和教學(xué)技能,因項目編制效率高、結(jié)構(gòu)效度好而受到歡迎。
1 理論基礎(chǔ)
盡管早在20世紀(jì)70年代已經(jīng)有研究者提出項目生成的思想,但真正利用項目生成方法編制測驗的實踐則是從80年代中期才開始的。其間Embretson對構(gòu)念效度的重新闡述對促進(jìn)自動化項目生成的發(fā)展起著關(guān)鍵作用。Cronbach和Meehl提出的構(gòu)念效度已經(jīng)指導(dǎo)能力測驗幾十年了,但Embretson認(rèn)為他們的提法混淆了構(gòu)念本身的含義以及與其他類似構(gòu)念的關(guān)聯(lián)。由于相關(guān)數(shù)據(jù)的累積只能通過測驗編制完成之后的施測獲取,因此傳統(tǒng)的構(gòu)念效度概念只能用來描述測驗當(dāng)前的構(gòu)念,卻不能為測驗設(shè)計提供指導(dǎo)。
為了將測驗設(shè)計結(jié)合進(jìn)構(gòu)念效度概念,Embretson提出一個兩部分分離的構(gòu)念效度:構(gòu)念表征(construct representation)和規(guī)則廣度(nomothetic span)。構(gòu)念表征涉及鑒別任務(wù)表現(xiàn)潛在的認(rèn)知成分,而規(guī)則廣度則關(guān)注測驗分?jǐn)?shù)與其他構(gòu)念之間的詳細(xì)關(guān)系。Embretson認(rèn)為傳統(tǒng)構(gòu)念效度的方法只包含后者,通過和其他測量相關(guān)聯(lián)給測驗分?jǐn)?shù)賦予意義(規(guī)則廣度):而認(rèn)知心理學(xué)的新進(jìn)展表明測量的意義也可以直接獲得,即通過對在單個項目的問題解決行為中所涉及的過程、策略和知識的理解來確立(構(gòu)念表征)。構(gòu)念表征的研究范式包含運用認(rèn)知心理學(xué)的方法為測量任務(wù)建立心理加工模型,如操縱測量任務(wù)的刺激特征,從而改變對假定認(rèn)知過程的影響。
這種兩部分分離的構(gòu)念效度對測驗編制來說有很大優(yōu)勢。最重要的是可以用認(rèn)知理論指導(dǎo)測驗編制。因為測驗分?jǐn)?shù)的意義在構(gòu)念表征階段已經(jīng)確立,因此可以設(shè)計測驗項目來反映特定的認(rèn)知結(jié)構(gòu),進(jìn)而根據(jù)那些已經(jīng)得到實證性支持的影響目標(biāo)過程、策略和知識結(jié)構(gòu)的刺激特征來選擇項目;同時,規(guī)則廣度也受目標(biāo)認(rèn)知過程與重要外部變量之間關(guān)系的影響,對問題解決過程的認(rèn)知分析可有助于它的提高。
2 具體方法
根據(jù)認(rèn)知理論在項目生成中的影響過程和作用,Embretson等認(rèn)為可將目前主要的自動化項目生成方法分成兩種:認(rèn)知設(shè)計系統(tǒng)法和項目模型法。這兩種方法分別對應(yīng)于Bejar等所提出的強理論(strong theory)和弱理論(weak theory)。強理論通過問題解決過程中隱含的心理學(xué)原理來精細(xì)地控制組成測驗的模型或生成模型的實例的難度,如Embretson的矩陣完成測驗和Beiar的心理旋轉(zhuǎn)測驗;弱理論以一組內(nèi)容和難度上有廣泛代表性的校準(zhǔn)好的測驗項目為起點,依據(jù)最佳實踐原則(best-practice guideline)而非心理學(xué)原理生成模型,如GRE數(shù)學(xué)測驗。這種分類方法對項目自動生成具有實踐指導(dǎo)意義,因此下面將對兩種方法的基本思想、步驟以及應(yīng)用條件進(jìn)行詳細(xì)介紹。
2.1 認(rèn)知設(shè)計系統(tǒng)法
認(rèn)知設(shè)計系統(tǒng)法的基本思想是通過實驗研究,發(fā)現(xiàn)項目刺激特征中的基本成分和隨機成分;境煞只蚩刂瞥煞(radicals or controlling elements)是指對項目心理測量學(xué)特性(如難度)有顯著影響的項目刺激特征;隨機成分或非控制成分(incidentals or non-controlling elements)被定義為對項目的心理測量學(xué)特性(如難度)沒有顯著影響的項目刺激特征。一般認(rèn)為,基本成分主要有以下兩類:第一類與工作記憶操作有關(guān),如矩陣推理測驗項目中規(guī)則的數(shù)量,閱讀理解測驗中的單詞轉(zhuǎn)換等;第二類與知識操作有關(guān),如閱讀理解測驗中的詞頻等。隨機成分都是些表層特征,如數(shù)學(xué)題目中涉及人物或物品的名稱等。
2.2 項目模型法
項目模型法,也稱模版法(template),是指以具有良好心理測量學(xué)指標(biāo)的項目為基準(zhǔn)(原型或框架),通過替換那些被認(rèn)為與問題解決過程無關(guān)的特征,如物體名稱、具體數(shù)字等,形成多個新項目。雖然這些新項目看起來與原來的項目不同,但實質(zhì)卻是類似的。實際上項目模型法也可看作是生成同構(gòu)異形題多個實例的過程,這些項目在實質(zhì)內(nèi)容和心理測量學(xué)屬性上都相一致。如果正如假設(shè)的那樣,新項目繼承了項目模板的特性,在心理測量學(xué)特性上與原先模板的特性非常接近,則可以直接通過這些新項目估計測試者的能力,而不需要進(jìn)行試測。
2.3 兩種方法的比較
這兩種方法的根本差別在于對認(rèn)知心理學(xué)研究成果的倚重程度,認(rèn)知設(shè)計系統(tǒng)法對認(rèn)知心理學(xué)的依賴程度更高些。
對項目模型法來說,認(rèn)知心理學(xué)的影響主要體現(xiàn)在兩個方面:(1)必須要限定那些與測量構(gòu)念相關(guān)的變量允許替換的范圍,以免在很大程度上改變認(rèn)知加工過程。如替代的速度和距離需要更復(fù)雜的計算,以改變問題的難度。(2)利用語義網(wǎng)絡(luò)來確定什么樣的替代變量的組合是有意義的。比如在交通方式及其相應(yīng)的動詞上,飛機對應(yīng)飛行,汽車對應(yīng)行駛。項目模型法是期望通過最小限度地替換現(xiàn)存項目中的部分成分,去生成與原模板特性類似的大量項目。項目模型法因應(yīng)用范圍廣、花費比較適中等優(yōu)點,受到ETS等考試服務(wù)機構(gòu)的青睞,如用于GRE中的數(shù)學(xué)測驗、數(shù)量推理測驗的項目生成。然而這樣的項目因變動較小,重復(fù)曝光,容易被測試者記住,進(jìn)而導(dǎo)致心理測量學(xué)屬性的顯著差異。
對認(rèn)知設(shè)計系統(tǒng)法來說,認(rèn)知心理學(xué)的研究起重要作用,它直接影響項目類型的認(rèn)知加工分析和 解決過程中認(rèn)知模型的建立。這個模型對項目解決過程、刺激特征對過程的影響以及過程對成績的影響進(jìn)行了詳細(xì)說明。因此,基于認(rèn)知設(shè)計系統(tǒng)法建構(gòu)的項目,允許替換所有項目表層特征,只是基本成分的隱蔽性要求更好些。通過這種比較,我們可以看出對于那些有堅固認(rèn)知研究基礎(chǔ)的項目類型來說,認(rèn)知設(shè)計系統(tǒng)法顯然是更合理的選擇。目前這種方法已經(jīng)被用于非言語能力傾向測驗,如矩陣推理項目、圖形類推、空間折疊以及空間物品排列;正試圖應(yīng)用于其他類型的項目,如言語類推、言語分類、字母序列、段落理解以及數(shù)學(xué)問題解決。
3 具體步驟
下面介紹認(rèn)知設(shè)計系統(tǒng)法的具體步驟。其實在具體實施中,項目模型法也秉承類似的做法,只是對實驗控制和認(rèn)知心理學(xué)實驗的倚重程度上有所不同。根據(jù)Embretson等的做法,認(rèn)知設(shè)計系統(tǒng)法指導(dǎo)下的自動化項目生成主要包括以下4個階段:
3.1 為現(xiàn)存項目建立認(rèn)知模型
在項目生成研究的最初階段,認(rèn)知設(shè)計系統(tǒng)法需要為現(xiàn)存的能力測驗項目建立認(rèn)知模型,目的是從整體上了解項目變異的來源。首先從文獻(xiàn)綜述出發(fā),考察潛在的認(rèn)知加工過程以及影響項目變異的刺激特征,即哪些刺激特征可能會對項目的難度、區(qū)分度等屬性產(chǎn)生影響。一般而言,實驗室研究中使用的任務(wù)通常會比真正的能力測驗上的項目更簡單,因此需要假設(shè)一個更復(fù)雜的模型來充分表征能力問題解決中的認(rèn)知加工過程。然后采用多種研究手段(如眼動、計算機模擬)對所識別出的、可能影響項目屬性的刺激特征進(jìn)行實驗驗證,求這些刺激特征與項目屬性之間的相關(guān),或者比較操縱這些刺激特征引起項目屬性的變化來確定它們的影響。盡管一般而言,項目難度是研究者最關(guān)注的項目屬性,但反應(yīng)時數(shù)據(jù)對認(rèn)知加工模型的支持也很必要。
3.2 根據(jù)規(guī)則生成項目并修正認(rèn)知模型
在項目生成研究的第二階段,認(rèn)知設(shè)計系統(tǒng)法主要關(guān)注項目編制和測驗設(shè)計的問題,即項目刺激特征能否被單獨操縱來影響加工難度,這些項目刺激特征是基于上一步建立的認(rèn)知模型中的變量。為操縱項目刺激特征,根據(jù)認(rèn)知模型變量建構(gòu)一套項目編制說明(項目生成算法),然后在據(jù)此手工編制一批新項目進(jìn)行試測,確定項目刺激特征是否影響項目難度以及被試在這些項目上的表現(xiàn)。雖然通過試測可以估計項目和被試參數(shù),但這一階段的主要關(guān)注點仍是項目刺激特征。對于認(rèn)知模型來說,項目刺激特征應(yīng)當(dāng)能充分預(yù)測項目難度、反應(yīng)時以及其他一些心理測量學(xué)指標(biāo)。另外,從實證的角度來說,具有相同刺激特征組合的項目在心理測量學(xué)指標(biāo)上應(yīng)該高度接近。
3.3 計算機自動化生成項目
在項目生成研究的第三階段,需要編制計算機程序?qū)崿F(xiàn)項目自動化生成,即計算機自動化項目生成器。盡管編制出項目生成和呈現(xiàn)機制方面的程序很重要,然而為特定項目類型發(fā)展出項目結(jié)構(gòu)則是成功的關(guān)鍵。項目結(jié)構(gòu)基于第二階段修正的認(rèn)知模型,是對所有影響項目認(rèn)知復(fù)雜性的各種項目刺激特征特定組合的詳細(xì)說明。這樣,具有相同項目結(jié)構(gòu)的項目攜帶有相同來源和水平的認(rèn)知復(fù)雜性,并相應(yīng)地具有相同的心理測量學(xué)指標(biāo)。其他一些未納入認(rèn)知模型的刺激特征,對項目認(rèn)知復(fù)雜性不造成顯著的影響,是可以變動的。需要注意的是,不同項目類型(如測量空間能力與測量推理能力的項目)在項目結(jié)構(gòu)上可能存在質(zhì)的差異。
3.4 實證性地檢驗自動生成的項目
在這最后階段,還需要收集些實證數(shù)據(jù)來評估項目生成器的穩(wěn)定性以及自動生成項目的質(zhì)量。項目生成器的穩(wěn)定性主要是檢視自動化生成的項目外觀上是否符合預(yù)期的設(shè)定。自動化生成項目的質(zhì)量通過比較項目生成算法預(yù)測出的參數(shù)與項目的實際參數(shù)進(jìn)行評估,若兩者非常接近,則表明設(shè)立的認(rèn)知模型以及項目生成算法是有效的。
4 相關(guān)IRT模型
正如前面所提及的,自動化項目生成需要合適的心理測量模型以及實質(zhì)性研究(認(rèn)知基礎(chǔ))。實質(zhì)性研究很大程度上依賴于認(rèn)知心理學(xué),從而通過預(yù)測取代估計項目參數(shù),而心理測量學(xué)模型則依賴于項目反應(yīng)理論的發(fā)展。隨著測量模型和認(rèn)知心理學(xué)理論的發(fā)展,研究者提出多種能將認(rèn)知心理學(xué)理論和測量模型連接起來的拓展項目反應(yīng)理論模型,如線性邏輯斯蒂模型(LLTM,Linear Logistic TestModel)、約束兩參數(shù)邏輯斯蒂模型(2PL-constrainedmodel)和項目結(jié)構(gòu)的多層次IRT模型(HierarchicalIRT model for item structure)。其中前兩種模型特別適用于認(rèn)知設(shè)計系統(tǒng)法,最后一種特別適合于項目模型法。這些模型的共同特征是將影響項目認(rèn)知復(fù)雜性的變量進(jìn)行量化,納入到測量模型,從而為項目自動化生成的參數(shù)預(yù)測奠定基礎(chǔ)。
5 優(yōu)缺點評述
Embretson對自動化項目生成的優(yōu)缺點進(jìn)行了總結(jié)。她認(rèn)為,與傳統(tǒng)項目編制方法相比,自動化項目生成有如下幾點優(yōu)勢:(1)編制新的項目更容易,從而更好滿足自適應(yīng)測驗對大量項目的需求;(2)生成指定難度水平與合適心理測量學(xué)特性的項目,避免了傳統(tǒng)測驗編制時有大量項目因試測中品質(zhì)不合格而被拋棄;(3)如果項目生成算法足夠精準(zhǔn),則可不必經(jīng)過試測而將新生成項目放入題庫;(4)結(jié)構(gòu)效度存在于項目水平,即每個項目認(rèn)知復(fù)雜性的具體來源都可以通過給模型變量賦以特定權(quán)重來確定;(5)可以重新設(shè)計測驗來表征項目難度的特定來源,即認(rèn)知復(fù)雜性的某些來源的影響可以直接加以控制。而自動化項目生成的局限性主要體現(xiàn)在:(1)這種方法需要實質(zhì)心理學(xué)的支持,即為特定的項目類型發(fā)展出合理的認(rèn)知模型需要一些實證性研究來支持。然而對某種特定的測驗來說是否實際,還得在最初的研究花費與可以生成無限個的新項目的成果之間權(quán)衡。(2)盡管這種方法可以應(yīng)用于新的項目類型,但還是對已經(jīng)發(fā)展出來的項目類型最有效。因為對新項目類型來說,它們結(jié)構(gòu)效度中的規(guī)則廣度還需要通過從該項目類型獲得分?jǐn)?shù)的相關(guān)的研究來證實。
6 研究展望
從20世紀(jì)80年代中期開始,心理和教育測量領(lǐng)域的一些研究者對很多項目類型進(jìn)行了認(rèn)知分析并應(yīng)用到新項目的編制,探討如何將認(rèn)知理論結(jié)合到測驗編制中。到現(xiàn)在為止,已經(jīng)在多個方面取得進(jìn)展,如GRE的數(shù)量推理、分析性推理等。對于自動化項目生成,目前國外最新的研究趨勢主要集中在以下4個方面:
6.1 原有模型的修正
盡管先前的研究已經(jīng)找到影響認(rèn)知復(fù)雜性的一些因素,但隨著認(rèn)知心理學(xué)研究的深入,一些研究者認(rèn)為過去的認(rèn)知模型不能覆蓋所有這些重要的影響因素,因此需要對以往的模型進(jìn)行修正,以建立解釋率更高的認(rèn)知模型來擬合相關(guān)問題解決過程,如Diehl在項目生成算法中納入干擾項的特性。
6.2控制機制的引入
對于自動化項目生成,如何在研究者不干預(yù)的情形下產(chǎn)生符合要求的測驗?Embretson自動化生成的抽象推理測驗項目,從知覺角度分析,大約有7%的項目不符合要求。將自動生成的這些項目直接呈現(xiàn)給測試者,這在高利害關(guān)系的測驗中顯然是不允許的。因此有必要引入項目質(zhì)量控制機制,如Arendasy等人建議加入基于Rasch模型的校準(zhǔn)機制。
6.3 內(nèi)容領(lǐng)域的擴展
過去計算機自動化項目生成的一些測驗主要集中于有堅固認(rèn)知基礎(chǔ)的領(lǐng)域(如心理旋轉(zhuǎn)、隱蔽圖形和抽象推理測驗),很容易通過操縱相關(guān)刺激特征控制加工難度。言語測驗的自動化項目生成則涉獵較少。自然語言機制研究的進(jìn)展,逐漸為言語測驗的自動化項目生成提供技術(shù)支持,如GRE的分析性推理測驗項目的生成。
6.4 測驗技術(shù)的革新
計算機自適應(yīng)測驗可以根據(jù)對測試者的能力的初步估計,從已知項目參數(shù)的題庫中選擇最佳信息量的項目,從而提高測驗的效率。如果將自動化項目生成結(jié)合進(jìn)來,計算機自適應(yīng)測驗不是從題庫中抽取項目,而是調(diào)用根據(jù)對測試者的能力的初步估計即時生成的項目,從而實現(xiàn)自適應(yīng)項目生成。這將在很大程度上降低題庫維護(hù)成本,提高測驗的安全性。根據(jù)Embretson和Yang,盡管一些項目自動化生成以及自適應(yīng)施測的程序已經(jīng)存在,但尚沒有將這兩者結(jié)合起來的研究和實踐。
總而言之,正如Swanson所說,自動化項目生成將成為未來測評的主流是不容置疑的,目前討論的問題主要是如何發(fā)展和應(yīng)用這種技術(shù)。計算機自動化項目生成在測驗編制中有著巨大的潛力,如效率高、結(jié)構(gòu)效度好等特點,在世界各地的多項測驗中已經(jīng)得到較好的應(yīng)用(如美國GRE、英國BARB)。在我國這一方面的研究和實踐還非常少,如何借鑒其他國家和地區(qū)的經(jīng)驗,提高我國教育與心理測驗的效率和質(zhì)量是值得我們思考的問題,如自動化項目生成的原則也可用于指導(dǎo)人工編制項目,對目前正在構(gòu)建的國家級題庫具有實際意義。
相關(guān)熱詞搜索:概述 生成 自動化 計算機自動化項目生成概述 計算機自動化論文參考文獻(xiàn) 計算機自動化參考資料范文
熱點文章閱讀