[考試抄襲識(shí)別的心理測(cè)量學(xué)研究回顧]怎么通過(guò)圖片識(shí)別產(chǎn)品是否抄襲
發(fā)布時(shí)間:2020-03-03 來(lái)源: 日記大全 點(diǎn)擊:
摘要考試抄襲是最難識(shí)別的作弊方式。抄襲統(tǒng)計(jì)量(ACS)和人員擬合統(tǒng)計(jì)量(PFS)是識(shí)別抄襲的兩類主要統(tǒng)計(jì)方法。ACS是根據(jù)被懷疑抄襲者與被抄襲者實(shí)際得分模式相似的概率來(lái)識(shí)別抄襲者。PFS 則把一個(gè)觀察的項(xiàng)目得分模式與一定的測(cè)量模型相對(duì)比,來(lái)檢驗(yàn)被試得分模式是否與測(cè)量模型預(yù)測(cè)的模式相吻合。其中,PFS由于在識(shí)別異常得分模式時(shí)存在一些干擾因素,所以對(duì)結(jié)果的解釋存在多樣性,應(yīng)用較少。ACS是專門(mén)用于識(shí)別抄襲的統(tǒng)計(jì)方法,研究表明其識(shí)別率更高。目前ACS指標(biāo)在美國(guó)的SAT和一些資格認(rèn)證考試中已經(jīng)得到廣泛應(yīng)用。
關(guān)鍵詞考試抄襲,抄襲統(tǒng)計(jì)量,人員擬合統(tǒng)計(jì)量,神經(jīng)網(wǎng)絡(luò)技術(shù)。
分類號(hào)B841
測(cè)驗(yàn)中有許多干擾因素會(huì)影響測(cè)驗(yàn)分?jǐn)?shù),使測(cè)驗(yàn)結(jié)果偏離真實(shí)。其中一個(gè)因素就是作弊(cheating)。作弊的方法多種多樣,Cizek概括了三大類共59種作弊的方法,其中包括攜帶禁止使用的材料,通過(guò)現(xiàn)代通訊工具傳送信息,代考等[1]。抄襲答案(answer copying)是眾多作弊方法中的一種,也是在文獻(xiàn)中經(jīng)常提到的一種作弊方式,它指的是一個(gè)被試(copier)從另一個(gè)被試(source)那里得到全部或部分答案[2]。抄襲答案是最難識(shí)別的一種作弊方式[3],被試沒(méi)有攜帶任何禁止使用的材料,即使監(jiān)考者看見(jiàn)被試偷看旁邊被試的答案,因?yàn)閮H有視覺(jué)證據(jù)缺乏實(shí)物證據(jù),所以不易舉證被試抄襲答案。
用統(tǒng)計(jì)方法來(lái)識(shí)別考試抄襲可以追溯到20世紀(jì)20年代,近30年來(lái),大量的抄襲統(tǒng)計(jì)量(answer- copying statistics, ACS)被提出來(lái)并得到廣泛的研究和應(yīng)用[2~5]。從20世紀(jì)20年代開(kāi)始美國(guó)高等教育考試機(jī)構(gòu)就開(kāi)始使用統(tǒng)計(jì)方法識(shí)別抄襲。ETS曾資助過(guò)許多抄襲統(tǒng)計(jì)量的研究,目前ETS已在SAT測(cè)驗(yàn)中引入K指數(shù)作為抄襲識(shí)別統(tǒng)計(jì)量[1]。此后Wollack將ω統(tǒng)計(jì)量用于MBE(Multistate Bar Exam)和MPRE(Multistate Professional Responsibility Examination)考試中抄襲行為的識(shí)別[6]。
在我國(guó)考試作弊同樣嚴(yán)重,而控制和檢測(cè)作弊和抄襲的方法卻非常單一,本文的目的是介紹主要的抄襲統(tǒng)計(jì)量的原理和性能,促進(jìn)國(guó)內(nèi)學(xué)者對(duì)這些統(tǒng)計(jì)量的研究和應(yīng)用,從而提高考試的有效性和公平性。
1 抄襲統(tǒng)計(jì)量的基本原理
抄襲統(tǒng)計(jì)量(ACS)的統(tǒng)計(jì)原理是:在沒(méi)有抄襲的假設(shè)條件下建立被試反應(yīng)概率的模型,在此基礎(chǔ)上得到被試之間存在相似回答模式的概率,進(jìn)而發(fā)現(xiàn)異常的相似回答模式,存在這一模式的被試就被認(rèn)為是可能的作弊者[7]。
任何兩個(gè)獨(dú)立的被試都存在一些相同的反應(yīng)。選擇相同的正確答案是非常普遍的,尤其是高能力被試,即使對(duì)低能力被試,他們也非常有可能正確回答一些比較簡(jiǎn)單的項(xiàng)目。相似地,任何兩個(gè)被試都可能做出一致的錯(cuò)誤反應(yīng),每個(gè)項(xiàng)目一般都會(huì)有一些錯(cuò)誤選項(xiàng)來(lái)吸引能力比較低的被試。尤其是那些比較難的項(xiàng)目,錯(cuò)誤選項(xiàng)要比正確選項(xiàng)更容易被選擇。因此兩個(gè)被試選擇共同的錯(cuò)誤選項(xiàng)也是正常的。雖然在一些項(xiàng)目上做出匹配回答是可以接受的,但某種類型的匹配回答卻是異常的。兩個(gè)能力比較高的被試是不可能選擇相同的低頻錯(cuò)誤選項(xiàng),相似地,低能力被試也不可能正確回答非常難的項(xiàng)目,也就是說(shuō),如果低能力被試在較簡(jiǎn)單的項(xiàng)目上答錯(cuò),那么他在難項(xiàng)目上就不容易答對(duì)。這種匹配回答較少時(shí)并沒(méi)有統(tǒng)計(jì)意義,但如果有許多這樣的匹配發(fā)生,就有了統(tǒng)計(jì)學(xué)意義[6]。
ACS就是在以上假定的基礎(chǔ)上提出的。所有的ACS在計(jì)算時(shí)依據(jù)的都是被懷疑抄襲者與被抄襲者實(shí)際得分模式相似的概率。ACS一般被分為兩類[1]。一類是把觀察到的被懷疑抄襲者和被抄者匹配的反應(yīng)模式與一個(gè)已知的理論分布(如標(biāo)準(zhǔn)正態(tài)分布)進(jìn)行對(duì)比[8~10]。第二類則是首先要建立參加相同測(cè)驗(yàn)的被試(examinees)與被抄襲者(source)作出匹配反應(yīng)模式的分布(經(jīng)驗(yàn)分布或者經(jīng)驗(yàn)分布的近似估計(jì)),然后把觀察到的被懷疑抄襲者和被抄襲者作出相同反應(yīng)模式的概率與之進(jìn)行對(duì)比(轉(zhuǎn)引自[2]),將理論上出現(xiàn)概率小的匹配模式確定為可能的作弊模式。
2 主要的抄襲統(tǒng)計(jì)量及其性能
所有的抄襲統(tǒng)計(jì)量[2,8,9,11]都是以被懷疑抄襲者和被抄襲者匹配的反應(yīng)數(shù)目為基礎(chǔ)。但這些統(tǒng)計(jì)量也存在一些差異。ESA、K、 、 和S1等統(tǒng)計(jì)量是以匹配錯(cuò)誤回答數(shù)來(lái)定義并建立抽樣分布的[2,12,13]。而B(niǎo)m,g2,ω和S2等統(tǒng)計(jì)量則即考慮匹配的錯(cuò)誤回答數(shù),也要考慮匹配的正確回答數(shù)[9,10,13]。
2.1 以匹配錯(cuò)誤回答數(shù)目為基礎(chǔ)的抄襲統(tǒng)計(jì)量
研究者認(rèn)為如果兩個(gè)被試一致正確回答的數(shù)目很大,可以有兩種解釋:一是這對(duì)被試的能力都很高,二是一個(gè)低能力的被試從一個(gè)高能力的被試那里抄襲答案[14]。因?yàn)椴豢赡芡茰y(cè)出那種解釋是正確的,所以一些抄襲統(tǒng)計(jì)量主要集中在對(duì)匹配錯(cuò)誤回答的識(shí)別。
早期的研究者如Bird(轉(zhuǎn)引自文獻(xiàn)[15])所提出的抄襲統(tǒng)計(jì)量多數(shù)基于經(jīng)驗(yàn)方法,統(tǒng)計(jì)量的概率分布難以確定,參數(shù)估計(jì)不準(zhǔn)確,識(shí)別率不高,因此都沒(méi)有得到廣泛應(yīng)用。針對(duì)早期統(tǒng)計(jì)量的不足,Holland提出了K指數(shù)(轉(zhuǎn)引自文獻(xiàn)[2]),Sotaridina和Meijer對(duì)其不足進(jìn)行改進(jìn)提出了 、 和S1、S2指數(shù)[2,13]。這些統(tǒng)計(jì)量都表示由于偶然因素導(dǎo)致的匹配回答的概率。其中除S2之外都是以匹配錯(cuò)誤反應(yīng)為基礎(chǔ)來(lái)識(shí)別抄襲答案的統(tǒng)計(jì)量。這些統(tǒng)計(jì)量的區(qū)別主要在于變量M(各被試與被抄者的匹配的錯(cuò)誤回答的數(shù)目)的虛無(wú)分布和參數(shù)估計(jì)方法的不同。
2.1.1 K系列指數(shù)
在識(shí)別抄襲者時(shí),我們把其中一個(gè)被試叫做抄襲者copier(c),指的是被懷疑抄襲答案的被試。另一個(gè)被試叫做被抄者source(s)。c被懷疑從s那抄襲答案。則K指數(shù)可表示為
2.5神經(jīng)網(wǎng)絡(luò)技術(shù)
神經(jīng)網(wǎng)絡(luò)(NN)是近年來(lái)發(fā)展起來(lái)的一種以計(jì)算機(jī)為平臺(tái)的技術(shù),它是一些數(shù)學(xué)模型的集合,這些模型模仿生物神經(jīng)系統(tǒng)的一些特性,使其具有適應(yīng)性生物學(xué)習(xí)的功能[18]。該方法運(yùn)用神經(jīng)網(wǎng)絡(luò)把問(wèn)題分類,把各種輸入模式分配到不同的類別中。這個(gè)分類任務(wù)包括兩步。第一步是用一系列要研究的反應(yīng)模式的典型樣本作為訓(xùn)練(training)樣本來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),去識(shí)別感興趣的反應(yīng)模式。第二步是應(yīng)用,就是用訓(xùn)練過(guò)的神經(jīng)網(wǎng)絡(luò)去識(shí)別相似的反應(yīng)情況,包括觀察到的和沒(méi)觀察到的。在這個(gè)任務(wù)中,對(duì)于一個(gè)成功的神經(jīng)網(wǎng)絡(luò),它能把從少數(shù)典型樣本得到的信息推廣到在訓(xùn)練期間沒(méi)有用到的相似的反應(yīng)模式中去。當(dāng)一個(gè)作弊者的項(xiàng)目得分模式與被用來(lái)訓(xùn)練這個(gè)網(wǎng)絡(luò)的得分模式有相似的特性時(shí),它就被識(shí)別為抄襲者[18]。
2.6 人員擬合統(tǒng)計(jì)量
人員擬合統(tǒng)計(jì)量(person-fit statistics, PFS)是識(shí)別抄襲答案的另一類統(tǒng)計(jì)方法,此類統(tǒng)計(jì)量的原理是:把一個(gè)觀察的項(xiàng)目得分模式與一個(gè)測(cè)驗(yàn)?zāi)P蜅l件下的得分模式進(jìn)行對(duì)比[16],來(lái)檢驗(yàn)被試得分是否與測(cè)量模型相擬合。如果不擬合就表示存在抄襲。
Levine和Robin,Hulin等指出PFS能用于識(shí)別抄襲答案,而且應(yīng)該非常靈敏(轉(zhuǎn)引自文獻(xiàn)[15,16])。因?yàn)槿绻粋(gè)低能力的被試從一個(gè)高能力被試那里抄襲幾個(gè)比較難的項(xiàng)目,PFS的值就會(huì)變大甚至超出正常情況。Madsen比較合理的使用了這些統(tǒng)計(jì)量,他用Rash的人員擬合統(tǒng)計(jì)量來(lái)識(shí)別假被試的潛在的異常反應(yīng)模式,這些假被試盡力“裝壞”,以至于不能產(chǎn)生非常高的分?jǐn)?shù)(轉(zhuǎn)引自文獻(xiàn)[16])。雖然他的研究結(jié)果非常不具有說(shuō)服力,但他提出了這種應(yīng)用的潛在可能性。Sotaridona、MeijerVan和van der Linden和Sotaridona研究了用PFS識(shí)別由于抄襲答案(或者作弊)造成的不擬合得分[2][13][18]。
相對(duì)于ACS,關(guān)于PFS統(tǒng)計(jì)量的研究和應(yīng)用較少,Cizek認(rèn)為其統(tǒng)計(jì)檢驗(yàn)力比較低[7]。造成這一現(xiàn)象的原因是:PFS主要用于識(shí)別各種異常行為[19],如:作弊,猜測(cè)、預(yù)先知道答案、默認(rèn)反應(yīng)風(fēng)格,社會(huì)期望性反應(yīng)等,識(shí)別出來(lái)的異常行為不僅僅局限于抄襲答案。也就是說(shuō)如果被試的得分模式與項(xiàng)目反應(yīng)理論的模式不擬合,我們也不能斷定被試間存在抄襲的行為,因?yàn)槠渌漠惓P袨橐材軐?dǎo)致不擬合。而ACS主要是針對(duì)抄襲答案這種作弊的方式提出的一種統(tǒng)計(jì)識(shí)別方法,因此更有針對(duì)性。
3 關(guān)于各抄襲統(tǒng)計(jì)量性能的實(shí)驗(yàn)研究
在ACS的發(fā)展過(guò)程中,新的統(tǒng)計(jì)量不斷提出,新統(tǒng)計(jì)量的提出者一般要對(duì)其識(shí)別率和錯(cuò)誤率進(jìn)行檢驗(yàn),并與其他統(tǒng)計(jì)量進(jìn)行對(duì)比。國(guó)外的相關(guān)研究可分兩類,一類是模擬研究,一類是真實(shí)數(shù)據(jù)研究。模擬研究一般是用Monte Carlo等程序生成被試數(shù)據(jù),再?gòu)闹羞x擇一定比例的被試(如5%),將其對(duì)部分題目的回答修改為與其他被試(即被抄襲者s)相同,這些被試就是抄襲者(c)。真實(shí)數(shù)據(jù)則是選擇某個(gè)真實(shí)測(cè)驗(yàn)中的數(shù)據(jù),將一部分被試的部分題目改為與其他被試相同,分別作為抄襲者(c)和被抄襲者(s)。這兩類研究都是人為地生成抄襲者,目前還沒(méi)有見(jiàn)到對(duì)真實(shí)抄襲者的研究。
以下我們重點(diǎn)介紹關(guān)于近期提出的ACS統(tǒng)計(jì)量的有影響的幾個(gè)模擬研究和真實(shí)數(shù)據(jù)研究。
3.1模擬研究
4 總結(jié)與展望
4.1 各抄襲統(tǒng)計(jì)量性能的綜合比較
自抄襲研究的統(tǒng)計(jì)方法產(chǎn)生以來(lái),被提出的抄襲統(tǒng)計(jì)量有20多種,每一個(gè)統(tǒng)計(jì)量的提出都以改進(jìn)識(shí)別率為目的,并把I型錯(cuò)誤率控制在理論值之下。研究者對(duì)這些統(tǒng)計(jì)量的性能進(jìn)行了反復(fù)對(duì)比。
ω是研究最多的統(tǒng)計(jì)量,它能很好地控制I型錯(cuò)誤率。在大樣本和小樣本條件下識(shí)別率都高于其它統(tǒng)計(jì)量。Sotaridona和Meijer指出如果稱名反應(yīng)模型的項(xiàng)目參數(shù)能被可靠的估計(jì),ω可能是識(shí)別抄襲答案的最好選擇,因?yàn)樗鼘?duì)所有能力水平的抄襲者和小樣本條件的下的抄襲者都靈敏[2]。但估計(jì)IRT模型的項(xiàng)目參數(shù)時(shí)需要大量的樣本,這與小樣本條件下ω統(tǒng)計(jì)量可以很好的識(shí)別抄襲者相矛盾。因此,Wollack和Cohen研究了小樣本(100)對(duì)ω統(tǒng)計(jì)量的影響,研究表明即使不能精確的估計(jì)稱名反應(yīng)模型的項(xiàng)目參數(shù),也不會(huì)顯著降低ω統(tǒng)計(jì)量的性能[20]。但在項(xiàng)目反應(yīng)理論的假設(shè)條件被違背時(shí)ω統(tǒng)計(jì)量是否具有穩(wěn)健性目前還缺乏研究。
指數(shù)與其它的K指數(shù)相比由于改進(jìn)了對(duì)參數(shù)P的估計(jì),識(shí)別率得到改進(jìn),但仍不如ω有效,但研究表明隨著被試的增加 的識(shí)別率不斷增加,所以當(dāng)樣本量足夠大(大于2000)時(shí)可以考慮使用 指數(shù)。
S2指數(shù)除了包含匹配的錯(cuò)誤分?jǐn)?shù)之外還包含匹配的正確分?jǐn)?shù)的信息,在識(shí)別率上明顯好于S1,而且由于使用泊松分布來(lái)近似估計(jì)M的分布,在一定程度上又改進(jìn)了K系列指數(shù)的識(shí)別率。但S1和S2不能用在小樣本情形。另外,與其它指數(shù)相比S1和S2的計(jì)算相對(duì)簡(jiǎn)單,所以在應(yīng)用中也是較好的選擇。
轉(zhuǎn)化二項(xiàng)式基礎(chǔ)上的統(tǒng)計(jì)檢驗(yàn)和Kappa抄襲統(tǒng)計(jì)量,雖然反應(yīng)過(guò)程建立模型的方式不同,但都只用到從c和s反應(yīng)模式得到的信息,且不受被試總體的影響,識(shí)別率很高。因此它們也屬于有發(fā)展前途的統(tǒng)計(jì)量,值得推薦。另外神經(jīng)網(wǎng)絡(luò)技術(shù)也是一種非常有潛力的方法。
4.2 現(xiàn)有抄襲統(tǒng)計(jì)量的不足之處
有關(guān)抄襲統(tǒng)計(jì)量的研究取得了很大進(jìn)步,在一些重要考試中還得到了大規(guī)模應(yīng)用。但該領(lǐng)域的研究目前還存在很多局限。主要體現(xiàn)為:
4.2.1 任何一個(gè)抄襲統(tǒng)計(jì)量不是在所有的條件下都有效
沒(méi)有一個(gè)統(tǒng)計(jì)量在所有的實(shí)驗(yàn)條件下都能準(zhǔn)確的識(shí)別抄襲者。在題量少,樣本量小,α錯(cuò)誤低,抄襲量小時(shí),即使性能好的統(tǒng)計(jì)量如ω等的識(shí)別率也很低。還有一些統(tǒng)計(jì)量如g2等只在極端的實(shí)驗(yàn)條件下才有效。
4.2.2 研究結(jié)論不系統(tǒng),不能概括所有研究條件
轉(zhuǎn)換二項(xiàng)式為基礎(chǔ)的統(tǒng)計(jì)檢驗(yàn)、Kappa抄襲統(tǒng)計(jì)量和神經(jīng)網(wǎng)絡(luò)技術(shù)是新近提出的性能較好的統(tǒng)計(jì)量,在一定程度上克服了原有統(tǒng)計(jì)量的缺點(diǎn),但對(duì)這些統(tǒng)計(jì)量還缺乏全面系統(tǒng)的研究,已有研究設(shè)計(jì)的條件單一,且缺少與其它統(tǒng)計(jì)量的對(duì)比研究。
4.2.3 依賴于對(duì)被試的現(xiàn)場(chǎng)觀察
大部分抄襲統(tǒng)計(jì)量需要預(yù)先通過(guò)觀察確定被懷疑抄襲者和被懷疑被抄襲者,當(dāng)不知道這些信息時(shí)就無(wú)法進(jìn)行識(shí)別。PFS和神經(jīng)網(wǎng)絡(luò)技術(shù)克服了上述缺點(diǎn)。PFS把被試的得分模式與一定的測(cè)驗(yàn)?zāi)P瓦M(jìn)行對(duì)比,當(dāng)與測(cè)驗(yàn)?zāi)P筒粩M合時(shí)就識(shí)別為作弊者,神經(jīng)網(wǎng)絡(luò)技術(shù)把被試的反應(yīng)與訓(xùn)練階段輸入的作弊模式進(jìn)行對(duì)比,當(dāng)輸入的模式中存在與被試的作弊行為相符合的模式就可認(rèn)為發(fā)生了作弊。但PFS和神經(jīng)網(wǎng)絡(luò)技術(shù)也存在問(wèn)題,PFS識(shí)別出的異常行為不一定是作弊,也可能包含其它的異常行為,神經(jīng)網(wǎng)絡(luò)技術(shù)也受到輸入模式的限制,當(dāng)被試的作弊行為和輸入模式不符合時(shí)識(shí)別率就會(huì)下降。且大長(zhǎng)測(cè)驗(yàn)中輸入所有的得分向量幾乎不可能,使該方法受到很大限制。
另外,雖然抄襲統(tǒng)計(jì)量是非常有價(jià)值的抄襲識(shí)別工具,但它和其它的統(tǒng)計(jì)方法一樣都是以概率論為基礎(chǔ),都會(huì)導(dǎo)致統(tǒng)計(jì)推論錯(cuò)誤。被試間的異常匹配可能是由于偶然因素造成的,也可能是由于抄襲導(dǎo)致的。因此要最終確定是否作弊,還要依靠行為觀察資料。
4.2.4 缺少真實(shí)數(shù)據(jù)的研究
現(xiàn)有研究中多以模擬研究為主,模擬研究所設(shè)定的條件都較為理想,與實(shí)際情況有相當(dāng)大的差別。即使有的研究者考慮了半真實(shí)數(shù)據(jù)研究,但研究中的作弊者也是人為生成的,其結(jié)論也難以推廣到真實(shí)情景。由于真實(shí)情景中情況更為復(fù)雜,因此現(xiàn)有的統(tǒng)計(jì)量是否有效還有待驗(yàn)證。
4.2.5 模型假設(shè)存在不完備之處
以上討論的抄襲統(tǒng)計(jì)量都或多或少地存在模型假設(shè)不完善的問(wèn)題。如模型的虛無(wú)假設(shè)為c沒(méi)有抄襲s的答案,備擇假設(shè)為c抄襲s的答案。但以匹配錯(cuò)誤回答為基礎(chǔ)的統(tǒng)計(jì)量沒(méi)有考慮到因猜測(cè)因素而導(dǎo)致被試答案匹配的概率。以匹配正確和錯(cuò)誤回答為基礎(chǔ)的統(tǒng)計(jì)量則沒(méi)有考慮因被試知道題目答案而導(dǎo)致答案匹配的概率。另外,多數(shù)抄襲統(tǒng)計(jì)量在計(jì)算時(shí)并沒(méi)有利用全部匹配信息。
4.3 將來(lái)的研究趨勢(shì)
4.3.1開(kāi)發(fā)出能對(duì)抄襲這種異常得分模式進(jìn)行識(shí)別的專用PFS
PFS在識(shí)別抄襲時(shí),由于存在除抄襲之外其它的一些異常得分模式,導(dǎo)致其識(shí)別率比較低。而最近提出的PFS如單維性假設(shè)為基礎(chǔ)的統(tǒng)計(jì)量(Lzm和UB),或者是以曲線圖形法(Kemel平滑曲線)和以回歸分析法為基礎(chǔ)的個(gè)人擬合函數(shù)(PRF)都被用來(lái)識(shí)別具體的偏差行為。若較難項(xiàng)目組的擬合統(tǒng)計(jì)值(即Lzm值)低于容易項(xiàng)目組,或項(xiàng)目得分的Kemel平滑曲線呈倒U型,就可以認(rèn)為這種異常行為模式是抄襲。但是這些統(tǒng)計(jì)量只能識(shí)別極特殊的抄襲行為,對(duì)抄襲行為普遍有效的PFS統(tǒng)計(jì)量還有待探索。
4.3.2 多級(jí)記分測(cè)驗(yàn)的抄襲行為有待研究
現(xiàn)有的抄襲統(tǒng)計(jì)量都是在題目為0,1記分的基礎(chǔ)上提出的,因此都是只適用于識(shí)別2級(jí)記分測(cè)驗(yàn)中的抄襲行為。對(duì)多級(jí)記分測(cè)驗(yàn)則缺乏研究。隨著考試題型的多樣化,對(duì)多級(jí)記分測(cè)驗(yàn)中抄襲統(tǒng)計(jì)量的研究就顯得越來(lái)越重要。
4.3.3 充分利用答題信息,改進(jìn)假設(shè)模型
一個(gè)好的抄襲統(tǒng)計(jì)量應(yīng)該充分利用被試的抄襲信息,包含相同正確答案和相同錯(cuò)誤答案,及相同遺漏答案信息。這就需要對(duì)統(tǒng)計(jì)量的假設(shè)模型進(jìn)行完善。另外就是要尋找更合適的近似分布,使數(shù)據(jù)和模型擬合,并對(duì)參數(shù)進(jìn)行準(zhǔn)確的估計(jì)。
4.3.4加強(qiáng)現(xiàn)場(chǎng)研究
各統(tǒng)計(jì)量的有效性最終要通過(guò)現(xiàn)場(chǎng)研究來(lái)驗(yàn)證,而現(xiàn)有的研究似乎都停留在實(shí)驗(yàn)室研究階段。因此有必要與考試管理機(jī)構(gòu)合作,運(yùn)用真實(shí)測(cè)驗(yàn)數(shù)據(jù)得到更有說(shuō)服力的證據(jù),同時(shí)推動(dòng)其在實(shí)踐中的應(yīng)用。
4.3.5神經(jīng)網(wǎng)絡(luò)技術(shù)研究
神經(jīng)網(wǎng)絡(luò)技術(shù)的最大問(wèn)題是在訓(xùn)練階段要輸入所有可能的作弊模式,否則有些作弊行為就不能識(shí)別,由于要輸入的模式量巨大,在長(zhǎng)測(cè)驗(yàn)中幾乎無(wú)法實(shí)施。對(duì)這一局限的改進(jìn)方法是使輸入模式的更有概括性,同時(shí)提高模式識(shí)別的智能化水平。神經(jīng)網(wǎng)絡(luò)技術(shù)帶有人工智能的性質(zhì),可以說(shuō)代表了本領(lǐng)域一種新的發(fā)展趨向。
參考文獻(xiàn)
1 Cizek G J. Cheating on tests: how to do it, detect it, and prevent it. Mahwah, NJ: Lawrence Erlbaum Associates, Inc, 1999
2 Sotaridona L S, Meijer R R. Statistical properties of K-index for detecting answer copying. Journal of Educational Measurement, 2002, 39: 115~132
3 Thompson K N. A procedure for identifying the possibility of student answer copying on multiple-choice examinations. Marketing Education Review, 1994, 4: 6~13
4 Sotaridona L S. Cheating detecting using the S2 copying index. The Philippine Statistician, 2003, 52: 59~67
5 Wollack J A. Comparison of answer copying indices with real data. Measurement in Education, 2003, 40: 189~205
6 Wollack J A. Detecting answer copying on high-stakes tests. The Bar Examiner, 2004, 73, 35~45
7 Cizek G J. An overview of issues concerning cheating on large-scale tests. A annual meeting of the national council on measurement in education, 2001
8 Wollack J A. A Nominal Response Model approach for detecting answer copying. Applied Psychological measurement, 1997, 21: 307~320
9 Frary R B. Detection of answer copying on multiple-choice tests and interpretation of g2 statistics. Educational Statistics, 1977, 2: 235~256
10 Bay L G. Detection of cheating on multiple-choice examinations. Annual meeting of the American Educational Research Association, 1995
11 Sotaridona L S, van der Linden W J. A statistical test for detecting answer copying on multiple-choice tests. Journal of Educational Measurement, 2004, 41: 361~377
12 Bellezza F S, Bellezza S F, Detection of cheating on multiple-choice tests by using error-similarity analysis. Teaching of Psychology, 1989, 16: 151~155
13 Sotaridona L S, Meijer R R. Two new statistics to detect answer copying. Journal of Educational Measurement, 2003, 40: 53~69
14 Jacob B A, Levitt S D. An investigation of the Prevalence and predictors of teacher cheating, 2001
15 Frary R B. Statistical detection of multiple-choice answer copying: review and commentary. Applied Measurement In Education, 1993, 6(2): 153~165
16 Meijer R R, Sijtsma K. Methodology review: evaluating person fit. Applied Psychology Measurement, 2001, 25: 107~135
17 Sotaridona L S, van der Linden W J, Meijer R R. Detecting answer copying using the Kappa Statistic. Applied Psychological Measurement, 2003, 30: 412~43
18 Sotaridona L S. Screening of cheating on high-stakes tests using neural network. 2003
19 Meijer R R. Diagnosing item score patterns on a test using item response theory-based person-fit statistics. Psychological Methods, 2003, (8): 72~87
20 Sotaridona L S, van der Linden W J. Detecting answer copying when the regular response process follows a known response model. Journal of Educational and Behavioral Statistics, 2006, 31: 283~304
21 Nelson L R. Using selected indices to monitor cheating on multiple-choice exams. Journal of Educational Research and Measurement, 2006, 4
“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”
相關(guān)熱詞搜索:測(cè)量學(xué) 識(shí)別 抄襲 考試抄襲識(shí)別的心理測(cè)量學(xué)研究回顧 心理測(cè)量學(xué)期末考試 心理測(cè)量學(xué)期末考試題
熱點(diǎn)文章閱讀