[考試抄襲識(shí)別的心理測量學(xué)研究回顧]怎么通過圖片識(shí)別產(chǎn)品是否抄襲

發(fā)布時(shí)間:2020-03-03 來源: 日記大全點(diǎn)擊：

　　摘要考試抄襲是最難識(shí)別的作弊方式。抄襲統(tǒng)計(jì)量（ACS）和人員擬合統(tǒng)計(jì)量（PFS）是識(shí)別抄襲的兩類主要統(tǒng)計(jì)方法。ACS是根據(jù)被懷疑抄襲者與被抄襲者實(shí)際得分模式相似的概率來識(shí)別抄襲者。PFS 則把一個(gè)觀察的項(xiàng)目得分模式與一定的測量模型相對(duì)比，來檢驗(yàn)被試得分模式是否與測量模型預(yù)測的模式相吻合。其中，PFS由于在識(shí)別異常得分模式時(shí)存在一些干擾因素，所以對(duì)結(jié)果的解釋存在多樣性，應(yīng)用較少。ACS是專門用于識(shí)別抄襲的統(tǒng)計(jì)方法，研究表明其識(shí)別率更高。目前ACS指標(biāo)在美國的SAT和一些資格認(rèn)證考試中已經(jīng)得到廣泛應(yīng)用。
　　關(guān)鍵詞考試抄襲，抄襲統(tǒng)計(jì)量，人員擬合統(tǒng)計(jì)量，神經(jīng)網(wǎng)絡(luò)技術(shù)。
　　分類號(hào)B841
　　
　　測驗(yàn)中有許多干擾因素會(huì)影響測驗(yàn)分?jǐn)?shù)，使測驗(yàn)結(jié)果偏離真實(shí)。其中一個(gè)因素就是作弊（cheating）。作弊的方法多種多樣，Cizek概括了三大類共59種作弊的方法，其中包括攜帶禁止使用的材料，通過現(xiàn)代通訊工具傳送信息，代考等[1]。抄襲答案（answer copying）是眾多作弊方法中的一種，也是在文獻(xiàn)中經(jīng)常提到的一種作弊方式，它指的是一個(gè)被試（copier）從另一個(gè)被試（source）那里得到全部或部分答案[2]。抄襲答案是最難識(shí)別的一種作弊方式[3]，被試沒有攜帶任何禁止使用的材料，即使監(jiān)考者看見被試偷看旁邊被試的答案，因?yàn)閮H有視覺證據(jù)缺乏實(shí)物證據(jù)，所以不易舉證被試抄襲答案。
　　用統(tǒng)計(jì)方法來識(shí)別考試抄襲可以追溯到20世紀(jì)20年代，近30年來，大量的抄襲統(tǒng)計(jì)量（answer- copying statistics, ACS）被提出來并得到廣泛的研究和應(yīng)用[2～5]。從20世紀(jì)20年代開始美國高等教育考試機(jī)構(gòu)就開始使用統(tǒng)計(jì)方法識(shí)別抄襲。ETS曾資助過許多抄襲統(tǒng)計(jì)量的研究，目前ETS已在SAT測驗(yàn)中引入K指數(shù)作為抄襲識(shí)別統(tǒng)計(jì)量[1]。此后Wollack將ω統(tǒng)計(jì)量用于MBE（Multistate Bar Exam）和MPRE（Multistate Professional Responsibility Examination）考試中抄襲行為的識(shí)別[6]。
　　在我國考試作弊同樣嚴(yán)重，而控制和檢測作弊和抄襲的方法卻非常單一，本文的目的是介紹主要的抄襲統(tǒng)計(jì)量的原理和性能，促進(jìn)國內(nèi)學(xué)者對(duì)這些統(tǒng)計(jì)量的研究和應(yīng)用，從而提高考試的有效性和公平性。
　　
　　1 抄襲統(tǒng)計(jì)量的基本原理
　　
　　抄襲統(tǒng)計(jì)量（ACS）的統(tǒng)計(jì)原理是：在沒有抄襲的假設(shè)條件下建立被試反應(yīng)概率的模型，在此基礎(chǔ)上得到被試之間存在相似回答模式的概率，進(jìn)而發(fā)現(xiàn)異常的相似回答模式，存在這一模式的被試就被認(rèn)為是可能的作弊者[7]。
　　任何兩個(gè)獨(dú)立的被試都存在一些相同的反應(yīng)。選擇相同的正確答案是非常普遍的，尤其是高能力被試，即使對(duì)低能力被試，他們也非常有可能正確回答一些比較簡單的項(xiàng)目。相似地，任何兩個(gè)被試都可能做出一致的錯(cuò)誤反應(yīng)，每個(gè)項(xiàng)目一般都會(huì)有一些錯(cuò)誤選項(xiàng)來吸引能力比較低的被試。尤其是那些比較難的項(xiàng)目，錯(cuò)誤選項(xiàng)要比正確選項(xiàng)更容易被選擇。因此兩個(gè)被試選擇共同的錯(cuò)誤選項(xiàng)也是正常的。雖然在一些項(xiàng)目上做出匹配回答是可以接受的，但某種類型的匹配回答卻是異常的。兩個(gè)能力比較高的被試是不可能選擇相同的低頻錯(cuò)誤選項(xiàng)，相似地，低能力被試也不可能正確回答非常難的項(xiàng)目，也就是說，如果低能力被試在較簡單的項(xiàng)目上答錯(cuò)，那么他在難項(xiàng)目上就不容易答對(duì)。這種匹配回答較少時(shí)并沒有統(tǒng)計(jì)意義，但如果有許多這樣的匹配發(fā)生，就有了統(tǒng)計(jì)學(xué)意義[6]。
　　ACS就是在以上假定的基礎(chǔ)上提出的。所有的ACS在計(jì)算時(shí)依據(jù)的都是被懷疑抄襲者與被抄襲者實(shí)際得分模式相似的概率。ACS一般被分為兩類[1]。一類是把觀察到的被懷疑抄襲者和被抄者匹配的反應(yīng)模式與一個(gè)已知的理論分布（如標(biāo)準(zhǔn)正態(tài)分布）進(jìn)行對(duì)比[8～10]。第二類則是首先要建立參加相同測驗(yàn)的被試（examinees）與被抄襲者（source）作出匹配反應(yīng)模式的分布（經(jīng)驗(yàn)分布或者經(jīng)驗(yàn)分布的近似估計(jì)），然后把觀察到的被懷疑抄襲者和被抄襲者作出相同反應(yīng)模式的概率與之進(jìn)行對(duì)比（轉(zhuǎn)引自[2]），將理論上出現(xiàn)概率小的匹配模式確定為可能的作弊模式。
　　
　　2 主要的抄襲統(tǒng)計(jì)量及其性能
　　
　　所有的抄襲統(tǒng)計(jì)量[2,8,9,11]都是以被懷疑抄襲者和被抄襲者匹配的反應(yīng)數(shù)目為基礎(chǔ)。但這些統(tǒng)計(jì)量也存在一些差異。ESA、K、、和S1等統(tǒng)計(jì)量是以匹配錯(cuò)誤回答數(shù)來定義并建立抽樣分布的[2,12,13]。而Bm，g2，ω和S2等統(tǒng)計(jì)量則即考慮匹配的錯(cuò)誤回答數(shù)，也要考慮匹配的正確回答數(shù)[9,10,13]。
　　2.1 以匹配錯(cuò)誤回答數(shù)目為基礎(chǔ)的抄襲統(tǒng)計(jì)量
　　研究者認(rèn)為如果兩個(gè)被試一致正確回答的數(shù)目很大，可以有兩種解釋：一是這對(duì)被試的能力都很高，二是一個(gè)低能力的被試從一個(gè)高能力的被試那里抄襲答案[14]。因?yàn)椴豢赡芡茰y出那種解釋是正確的，所以一些抄襲統(tǒng)計(jì)量主要集中在對(duì)匹配錯(cuò)誤回答的識(shí)別。
　　早期的研究者如Bird（轉(zhuǎn)引自文獻(xiàn)[15]）所提出的抄襲統(tǒng)計(jì)量多數(shù)基于經(jīng)驗(yàn)方法，統(tǒng)計(jì)量的概率分布難以確定，參數(shù)估計(jì)不準(zhǔn)確，識(shí)別率不高，因此都沒有得到廣泛應(yīng)用。針對(duì)早期統(tǒng)計(jì)量的不足，Holland提出了K指數(shù)（轉(zhuǎn)引自文獻(xiàn)[2]），Sotaridina和Meijer對(duì)其不足進(jìn)行改進(jìn)提出了、和S1、S2指數(shù)[2,13]。這些統(tǒng)計(jì)量都表示由于偶然因素導(dǎo)致的匹配回答的概率。其中除S2之外都是以匹配錯(cuò)誤反應(yīng)為基礎(chǔ)來識(shí)別抄襲答案的統(tǒng)計(jì)量。這些統(tǒng)計(jì)量的區(qū)別主要在于變量M（各被試與被抄者的匹配的錯(cuò)誤回答的數(shù)目）的虛無分布和參數(shù)估計(jì)方法的不同。
　　2.1.1 K系列指數(shù)
　　在識(shí)別抄襲者時(shí)，我們把其中一個(gè)被試叫做抄襲者copier（c），指的是被懷疑抄襲答案的被試。另一個(gè)被試叫做被抄者source（s）。c被懷疑從s那抄襲答案。則K指數(shù)可表示為
　　
　　2.5神經(jīng)網(wǎng)絡(luò)技術(shù)
　　神經(jīng)網(wǎng)絡(luò)（NN）是近年來發(fā)展起來的一種以計(jì)算機(jī)為平臺(tái)的技術(shù)，它是一些數(shù)學(xué)模型的集合，這些模型模仿生物神經(jīng)系統(tǒng)的一些特性，使其具有適應(yīng)性生物學(xué)習(xí)的功能[18]。該方法運(yùn)用神經(jīng)網(wǎng)絡(luò)把問題分類，把各種輸入模式分配到不同的類別中。這個(gè)分類任務(wù)包括兩步。第一步是用一系列要研究的反應(yīng)模式的典型樣本作為訓(xùn)練（training）樣本來訓(xùn)練神經(jīng)網(wǎng)絡(luò)，去識(shí)別感興趣的反應(yīng)模式。第二步是應(yīng)用，就是用訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)去識(shí)別相似的反應(yīng)情況，包括觀察到的和沒觀察到的。在這個(gè)任務(wù)中，對(duì)于一個(gè)成功的神經(jīng)網(wǎng)絡(luò)，它能把從少數(shù)典型樣本得到的信息推廣到在訓(xùn)練期間沒有用到的相似的反應(yīng)模式中去。當(dāng)一個(gè)作弊者的項(xiàng)目得分模式與被用來訓(xùn)練這個(gè)網(wǎng)絡(luò)的得分模式有相似的特性時(shí)，它就被識(shí)別為抄襲者[18]。
　　2.6 人員擬合統(tǒng)計(jì)量
　　人員擬合統(tǒng)計(jì)量（person-fit statistics, PFS）是識(shí)別抄襲答案的另一類統(tǒng)計(jì)方法，此類統(tǒng)計(jì)量的原理是：把一個(gè)觀察的項(xiàng)目得分模式與一個(gè)測驗(yàn)?zāi)Ｐ蜅l件下的得分模式進(jìn)行對(duì)比[16]，來檢驗(yàn)被試得分是否與測量模型相擬合。如果不擬合就表示存在抄襲。
　　Levine和Robin，Hulin等指出PFS能用于識(shí)別抄襲答案，而且應(yīng)該非常靈敏（轉(zhuǎn)引自文獻(xiàn)[15,16]）。因?yàn)槿绻粋€(gè)低能力的被試從一個(gè)高能力被試那里抄襲幾個(gè)比較難的項(xiàng)目，PFS的值就會(huì)變大甚至超出正常情況。Madsen比較合理的使用了這些統(tǒng)計(jì)量，他用Rash的人員擬合統(tǒng)計(jì)量來識(shí)別假被試的潛在的異常反應(yīng)模式，這些假被試盡力“裝壞”，以至于不能產(chǎn)生非常高的分?jǐn)?shù)（轉(zhuǎn)引自文獻(xiàn)[16]）。雖然他的研究結(jié)果非常不具有說服力，但他提出了這種應(yīng)用的潛在可能性。Sotaridona、MeijerVan和van der Linden和Sotaridona研究了用PFS識(shí)別由于抄襲答案（或者作弊）造成的不擬合得分[2][13][18]。
　　相對(duì)于ACS，關(guān)于PFS統(tǒng)計(jì)量的研究和應(yīng)用較少，Cizek認(rèn)為其統(tǒng)計(jì)檢驗(yàn)力比較低[7]。造成這一現(xiàn)象的原因是：PFS主要用于識(shí)別各種異常行為[19]，如：作弊，猜測、預(yù)先知道答案、默認(rèn)反應(yīng)風(fēng)格，社會(huì)期望性反應(yīng)等，識(shí)別出來的異常行為不僅僅局限于抄襲答案。也就是說如果被試的得分模式與項(xiàng)目反應(yīng)理論的模式不擬合，我們也不能斷定被試間存在抄襲的行為，因?yàn)槠渌漠惓Ｐ袨橐材軐?dǎo)致不擬合。而ACS主要是針對(duì)抄襲答案這種作弊的方式提出的一種統(tǒng)計(jì)識(shí)別方法，因此更有針對(duì)性。
　　
　　3 關(guān)于各抄襲統(tǒng)計(jì)量性能的實(shí)驗(yàn)研究
　　
　　在ACS的發(fā)展過程中，新的統(tǒng)計(jì)量不斷提出，新統(tǒng)計(jì)量的提出者一般要對(duì)其識(shí)別率和錯(cuò)誤率進(jìn)行檢驗(yàn)，并與其他統(tǒng)計(jì)量進(jìn)行對(duì)比。國外的相關(guān)研究可分兩類，一類是模擬研究，一類是真實(shí)數(shù)據(jù)研究。模擬研究一般是用Monte Carlo等程序生成被試數(shù)據(jù)，再從中選擇一定比例的被試（如5%），將其對(duì)部分題目的回答修改為與其他被試（即被抄襲者s）相同，這些被試就是抄襲者（c）。真實(shí)數(shù)據(jù)則是選擇某個(gè)真實(shí)測驗(yàn)中的數(shù)據(jù)，將一部分被試的部分題目改為與其他被試相同，分別作為抄襲者（c）和被抄襲者（s）。這兩類研究都是人為地生成抄襲者，目前還沒有見到對(duì)真實(shí)抄襲者的研究。
　　以下我們重點(diǎn)介紹關(guān)于近期提出的ACS統(tǒng)計(jì)量的有影響的幾個(gè)模擬研究和真實(shí)數(shù)據(jù)研究。
　　3.1模擬研究
　　
　　4 總結(jié)與展望
　　
　　4.1 各抄襲統(tǒng)計(jì)量性能的綜合比較
　　自抄襲研究的統(tǒng)計(jì)方法產(chǎn)生以來，被提出的抄襲統(tǒng)計(jì)量有20多種，每一個(gè)統(tǒng)計(jì)量的提出都以改進(jìn)識(shí)別率為目的，并把I型錯(cuò)誤率控制在理論值之下。研究者對(duì)這些統(tǒng)計(jì)量的性能進(jìn)行了反復(fù)對(duì)比。
　　ω是研究最多的統(tǒng)計(jì)量，它能很好地控制I型錯(cuò)誤率。在大樣本和小樣本條件下識(shí)別率都高于其它統(tǒng)計(jì)量。Sotaridona和Meijer指出如果稱名反應(yīng)模型的項(xiàng)目參數(shù)能被可靠的估計(jì)，ω可能是識(shí)別抄襲答案的最好選擇，因?yàn)樗鼘?duì)所有能力水平的抄襲者和小樣本條件的下的抄襲者都靈敏[2]。但估計(jì)IRT模型的項(xiàng)目參數(shù)時(shí)需要大量的樣本，這與小樣本條件下ω統(tǒng)計(jì)量可以很好的識(shí)別抄襲者相矛盾。因此，Wollack和Cohen研究了小樣本（100）對(duì)ω統(tǒng)計(jì)量的影響，研究表明即使不能精確的估計(jì)稱名反應(yīng)模型的項(xiàng)目參數(shù)，也不會(huì)顯著降低ω統(tǒng)計(jì)量的性能[20]。但在項(xiàng)目反應(yīng)理論的假設(shè)條件被違背時(shí)ω統(tǒng)計(jì)量是否具有穩(wěn)健性目前還缺乏研究。
　　指數(shù)與其它的K指數(shù)相比由于改進(jìn)了對(duì)參數(shù)P的估計(jì)，識(shí)別率得到改進(jìn)，但仍不如ω有效，但研究表明隨著被試的增加的識(shí)別率不斷增加，所以當(dāng)樣本量足夠大（大于2000）時(shí)可以考慮使用指數(shù)。
　　S2指數(shù)除了包含匹配的錯(cuò)誤分?jǐn)?shù)之外還包含匹配的正確分?jǐn)?shù)的信息，在識(shí)別率上明顯好于S1，而且由于使用泊松分布來近似估計(jì)M的分布，在一定程度上又改進(jìn)了K系列指數(shù)的識(shí)別率。但S1和S2不能用在小樣本情形。另外，與其它指數(shù)相比S1和S2的計(jì)算相對(duì)簡單，所以在應(yīng)用中也是較好的選擇。
　　轉(zhuǎn)化二項(xiàng)式基礎(chǔ)上的統(tǒng)計(jì)檢驗(yàn)和Kappa抄襲統(tǒng)計(jì)量，雖然反應(yīng)過程建立模型的方式不同，但都只用到從c和s反應(yīng)模式得到的信息，且不受被試總體的影響，識(shí)別率很高。因此它們也屬于有發(fā)展前途的統(tǒng)計(jì)量，值得推薦。另外神經(jīng)網(wǎng)絡(luò)技術(shù)也是一種非常有潛力的方法。
　　4.2 現(xiàn)有抄襲統(tǒng)計(jì)量的不足之處
　　有關(guān)抄襲統(tǒng)計(jì)量的研究取得了很大進(jìn)步，在一些重要考試中還得到了大規(guī)模應(yīng)用。但該領(lǐng)域的研究目前還存在很多局限。主要體現(xiàn)為：
　　4.2.1 任何一個(gè)抄襲統(tǒng)計(jì)量不是在所有的條件下都有效
　　沒有一個(gè)統(tǒng)計(jì)量在所有的實(shí)驗(yàn)條件下都能準(zhǔn)確的識(shí)別抄襲者。在題量少，樣本量小，α錯(cuò)誤低，抄襲量小時(shí)，即使性能好的統(tǒng)計(jì)量如ω等的識(shí)別率也很低。還有一些統(tǒng)計(jì)量如g2等只在極端的實(shí)驗(yàn)條件下才有效。
　　4.2.2 研究結(jié)論不系統(tǒng)，不能概括所有研究條件
　　轉(zhuǎn)換二項(xiàng)式為基礎(chǔ)的統(tǒng)計(jì)檢驗(yàn)、Kappa抄襲統(tǒng)計(jì)量和神經(jīng)網(wǎng)絡(luò)技術(shù)是新近提出的性能較好的統(tǒng)計(jì)量，在一定程度上克服了原有統(tǒng)計(jì)量的缺點(diǎn)，但對(duì)這些統(tǒng)計(jì)量還缺乏全面系統(tǒng)的研究，已有研究設(shè)計(jì)的條件單一，且缺少與其它統(tǒng)計(jì)量的對(duì)比研究。
　　4.2.3 依賴于對(duì)被試的現(xiàn)場觀察
　　大部分抄襲統(tǒng)計(jì)量需要預(yù)先通過觀察確定被懷疑抄襲者和被懷疑被抄襲者，當(dāng)不知道這些信息時(shí)就無法進(jìn)行識(shí)別。PFS和神經(jīng)網(wǎng)絡(luò)技術(shù)克服了上述缺點(diǎn)。PFS把被試的得分模式與一定的測驗(yàn)?zāi)Ｐ瓦M(jìn)行對(duì)比，當(dāng)與測驗(yàn)?zāi)Ｐ筒粩M合時(shí)就識(shí)別為作弊者，神經(jīng)網(wǎng)絡(luò)技術(shù)把被試的反應(yīng)與訓(xùn)練階段輸入的作弊模式進(jìn)行對(duì)比，當(dāng)輸入的模式中存在與被試的作弊行為相符合的模式就可認(rèn)為發(fā)生了作弊。但PFS和神經(jīng)網(wǎng)絡(luò)技術(shù)也存在問題，PFS識(shí)別出的異常行為不一定是作弊，也可能包含其它的異常行為，神經(jīng)網(wǎng)絡(luò)技術(shù)也受到輸入模式的限制，當(dāng)被試的作弊行為和輸入模式不符合時(shí)識(shí)別率就會(huì)下降。且大長測驗(yàn)中輸入所有的得分向量幾乎不可能，使該方法受到很大限制。
　　另外，雖然抄襲統(tǒng)計(jì)量是非常有價(jià)值的抄襲識(shí)別工具，但它和其它的統(tǒng)計(jì)方法一樣都是以概率論為基礎(chǔ)，都會(huì)導(dǎo)致統(tǒng)計(jì)推論錯(cuò)誤。被試間的異常匹配可能是由于偶然因素造成的，也可能是由于抄襲導(dǎo)致的。因此要最終確定是否作弊，還要依靠行為觀察資料。
　　4.2.4 缺少真實(shí)數(shù)據(jù)的研究
　　現(xiàn)有研究中多以模擬研究為主，模擬研究所設(shè)定的條件都較為理想，與實(shí)際情況有相當(dāng)大的差別。即使有的研究者考慮了半真實(shí)數(shù)據(jù)研究，但研究中的作弊者也是人為生成的，其結(jié)論也難以推廣到真實(shí)情景。由于真實(shí)情景中情況更為復(fù)雜，因此現(xiàn)有的統(tǒng)計(jì)量是否有效還有待驗(yàn)證。
　　4.2.5 模型假設(shè)存在不完備之處
　　以上討論的抄襲統(tǒng)計(jì)量都或多或少地存在模型假設(shè)不完善的問題。如模型的虛無假設(shè)為c沒有抄襲s的答案，備擇假設(shè)為c抄襲s的答案。但以匹配錯(cuò)誤回答為基礎(chǔ)的統(tǒng)計(jì)量沒有考慮到因猜測因素而導(dǎo)致被試答案匹配的概率。以匹配正確和錯(cuò)誤回答為基礎(chǔ)的統(tǒng)計(jì)量則沒有考慮因被試知道題目答案而導(dǎo)致答案匹配的概率。另外，多數(shù)抄襲統(tǒng)計(jì)量在計(jì)算時(shí)并沒有利用全部匹配信息。
　　4.3 將來的研究趨勢
　　4.3.1開發(fā)出能對(duì)抄襲這種異常得分模式進(jìn)行識(shí)別的專用PFS
　　PFS在識(shí)別抄襲時(shí)，由于存在除抄襲之外其它的一些異常得分模式，導(dǎo)致其識(shí)別率比較低。而最近提出的PFS如單維性假設(shè)為基礎(chǔ)的統(tǒng)計(jì)量（Lzm和UB），或者是以曲線圖形法（Kemel平滑曲線）和以回歸分析法為基礎(chǔ)的個(gè)人擬合函數(shù)（PRF）都被用來識(shí)別具體的偏差行為。若較難項(xiàng)目組的擬合統(tǒng)計(jì)值（即Lzm值）低于容易項(xiàng)目組，或項(xiàng)目得分的Kemel平滑曲線呈倒U型，就可以認(rèn)為這種異常行為模式是抄襲。但是這些統(tǒng)計(jì)量只能識(shí)別極特殊的抄襲行為，對(duì)抄襲行為普遍有效的PFS統(tǒng)計(jì)量還有待探索。
　　4.3.2 多級(jí)記分測驗(yàn)的抄襲行為有待研究
　　現(xiàn)有的抄襲統(tǒng)計(jì)量都是在題目為0，1記分的基礎(chǔ)上提出的，因此都是只適用于識(shí)別2級(jí)記分測驗(yàn)中的抄襲行為。對(duì)多級(jí)記分測驗(yàn)則缺乏研究。隨著考試題型的多樣化，對(duì)多級(jí)記分測驗(yàn)中抄襲統(tǒng)計(jì)量的研究就顯得越來越重要。
　　4.3.3 充分利用答題信息，改進(jìn)假設(shè)模型
　　一個(gè)好的抄襲統(tǒng)計(jì)量應(yīng)該充分利用被試的抄襲信息，包含相同正確答案和相同錯(cuò)誤答案，及相同遺漏答案信息。這就需要對(duì)統(tǒng)計(jì)量的假設(shè)模型進(jìn)行完善。另外就是要尋找更合適的近似分布，使數(shù)據(jù)和模型擬合，并對(duì)參數(shù)進(jìn)行準(zhǔn)確的估計(jì)。
　　4.3.4加強(qiáng)現(xiàn)場研究
　　各統(tǒng)計(jì)量的有效性最終要通過現(xiàn)場研究來驗(yàn)證，而現(xiàn)有的研究似乎都停留在實(shí)驗(yàn)室研究階段。因此有必要與考試管理機(jī)構(gòu)合作，運(yùn)用真實(shí)測驗(yàn)數(shù)據(jù)得到更有說服力的證據(jù)，同時(shí)推動(dòng)其在實(shí)踐中的應(yīng)用。
　　4.3.5神經(jīng)網(wǎng)絡(luò)技術(shù)研究
　　神經(jīng)網(wǎng)絡(luò)技術(shù)的最大問題是在訓(xùn)練階段要輸入所有可能的作弊模式，否則有些作弊行為就不能識(shí)別，由于要輸入的模式量巨大，在長測驗(yàn)中幾乎無法實(shí)施。對(duì)這一局限的改進(jìn)方法是使輸入模式的更有概括性，同時(shí)提高模式識(shí)別的智能化水平。神經(jīng)網(wǎng)絡(luò)技術(shù)帶有人工智能的性質(zhì)，可以說代表了本領(lǐng)域一種新的發(fā)展趨向。
　　
　　參考文獻(xiàn)
　　1 Cizek G J. Cheating on tests: how to do it, detect it, and prevent it. Mahwah, NJ: Lawrence Erlbaum Associates, Inc, 1999
　　2 Sotaridona L S, Meijer R R. Statistical properties of K-index for detecting answer copying. Journal of Educational Measurement, 2002, 39: 115～132
　　3 Thompson K N. A procedure for identifying the possibility of student answer copying on multiple-choice examinations. Marketing Education Review, 1994, 4: 6～13
　　4 Sotaridona L S. Cheating detecting using the S2 copying index. The Philippine Statistician, 2003, 52: 59～67
　　5 Wollack J A. Comparison of answer copying indices with real data. Measurement in Education, 2003, 40: 189～205
　　6 Wollack J A. Detecting answer copying on high-stakes tests. The Bar Examiner, 2004, 73, 35～45
　　7 Cizek G J. An overview of issues concerning cheating on large-scale tests. A annual meeting of the national council on measurement in education, 2001
　　8 Wollack J A. A Nominal Response Model approach for detecting answer copying. Applied Psychological measurement, 1997, 21: 307～320
　　9 Frary R B. Detection of answer copying on multiple-choice tests and interpretation of g2 statistics. Educational Statistics, 1977, 2: 235～256
　　10 Bay L G. Detection of cheating on multiple-choice examinations. Annual meeting of the American Educational Research Association, 1995
　　11 Sotaridona L S, van der Linden W J. A statistical test for detecting answer copying on multiple-choice tests. Journal of Educational Measurement, 2004, 41: 361～377
　　12 Bellezza F S, Bellezza S F, Detection of cheating on multiple-choice tests by using error-similarity analysis. Teaching of Psychology, 1989, 16: 151～155
　　13 Sotaridona L S, Meijer R R. Two new statistics to detect answer copying. Journal of Educational Measurement, 2003, 40: 53～69
　　14 Jacob B A, Levitt S D. An investigation of the Prevalence and predictors of teacher cheating, 2001
　　15 Frary R B. Statistical detection of multiple-choice answer copying: review and commentary. Applied Measurement In Education, 1993, 6(2): 153～165
　　16 Meijer R R, Sijtsma K. Methodology review: evaluating person fit. Applied Psychology Measurement, 2001, 25: 107～135
　　17 Sotaridona L S, van der Linden W J, Meijer R R. Detecting answer copying using the Kappa Statistic. Applied Psychological Measurement, 2003, 30: 412～43
　　18 Sotaridona L S. Screening of cheating on high-stakes tests using neural network. 2003
　　19 Meijer R R. Diagnosing item score patterns on a test using item response theory-based person-fit statistics. Psychological Methods, 2003, (8): 72～87
　　20 Sotaridona L S, van der Linden W J. Detecting answer copying when the regular response process follows a known response model. Journal of Educational and Behavioral Statistics, 2006, 31: 283～304
　　21 Nelson L R. Using selected indices to monitor cheating on multiple-choice exams. Journal of Educational Research and Measurement, 2006, 4
　　
　　“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

[考試抄襲識(shí)別的心理測量學(xué)研究回顧]怎么通過圖片識(shí)別產(chǎn)品是否抄襲

熱點(diǎn)文章閱讀