【h指數(shù)的潛在缺陷】阿里指數(shù)app
發(fā)布時間:2020-03-07 來源: 幽默笑話 點擊:
[摘要]指出Hirsch等人定義的h指數(shù)計算方法隱藏著一個可以被精確注水的重大缺陷,作弊者可通過對關(guān)鍵點施加引用的辦法,即對引文數(shù)據(jù)流攔河建壩來達(dá)到快速提升其h指數(shù)的目的。針對這一缺陷分析其成因,指出其對引文數(shù)據(jù)價值和科學(xué)評價等的潛在危害;通過正常引文數(shù)據(jù)圖和注水引文數(shù)據(jù)圖的對比給出識別辦法;最后提出一些預(yù)防建議。
[關(guān)鍵詞]h指數(shù) h指數(shù)增長關(guān)鍵點 h指數(shù)精確注水
[分類號]G250
科研人員的學(xué)術(shù)成就評價一直是一個棘手的問題,盛行的重論文數(shù)量輕論文質(zhì)量的學(xué)術(shù)評價體系一直備受詬病。期刊影響因子雖然可以在一定程度上用論文發(fā)表載體的影響力來為論文質(zhì)量背書,但仍不能準(zhǔn)確表征論文的質(zhì)量。在理想情況下,論文被引情況可以看作學(xué)界同行對文獻(xiàn)內(nèi)容價值的客觀評價。加利福尼亞大學(xué)圣地亞哥分校統(tǒng)計物理學(xué)家赫希(Jorge.E.Hirsch)教授2005年發(fā)明的h指數(shù)就是一種利用論文被引情況來進(jìn)行學(xué)術(shù)成就評價的新理論。其核心思想是:一個人的h指數(shù)是指他至多有h篇論文分別被引用了至少h次。赫希期望通過測定一個人的h指數(shù),來判斷他的論文影響力,并進(jìn)而反映一個人的學(xué)術(shù)成就。該理論一經(jīng)提出即在國際上引起很大反響,被普遍認(rèn)為可以在一定程度上彌補傳統(tǒng)文獻(xiàn)計量指標(biāo)在人物成就評價上的缺陷。本文指出h指數(shù)存在可以被人巧妙而隱蔽地精確操縱的重大缺陷,對造成這一缺陷的成因進(jìn)行了深入分析,并給出了h指數(shù)精確注水的辦法和彌補這一缺陷的具體建議。
1 h指數(shù)計算方法
h指數(shù)是由Hirsch提出的旨在評價個人成就的一種指標(biāo),用引文數(shù)來測度。Hirsch定義的h指數(shù)為:當(dāng)且僅當(dāng)一個科學(xué)家有h篇引文數(shù)至少為h的論文,同時剩余論文的引文數(shù)都小于h時,該科學(xué)家的成就分值為h。最初的h指數(shù)是基于SCI的,其測定非常容易:在SCI網(wǎng)站,查出某個人發(fā)表的所有SCI論文,讓其按被引次數(shù)從高到低排列,往下核對,直到某篇論文的序號大于該論文被引次數(shù),那個序號減去1就是h指數(shù)。
Hirsch認(rèn)為h指數(shù)衡量的是一個人的全部學(xué)術(shù)成果能否經(jīng)受長時間的考驗,它的一個優(yōu)勢是很難通過自引來拔高,然而筆者對此的看法卻并不樂觀。筆者認(rèn)為h指數(shù)的增長是完全可以被精確而隱蔽地操縱的。
筆者采用自己以前撰文介紹過的快速套取題錄的方法,以南京大學(xué)版20種圖情領(lǐng)域核心期刊為檢索來源刊物,從CNKI套取題錄信息。然后從中抽取第一作者信息,統(tǒng)計出圖情領(lǐng)域近30年來第一作者人數(shù)為30274,其中發(fā)文量在5篇及5篇以上的為3911人。在對這些作者進(jìn)行h指數(shù)統(tǒng)計研究的過程中,筆者發(fā)現(xiàn)了一個頗為隱蔽的與h指數(shù)相伴而生的缺陷――h指數(shù)精確注水問題。
2 h指數(shù)精確注水問題
筆者在對圖情領(lǐng)域核心作者進(jìn)行h指數(shù)實證研究的過程中,發(fā)現(xiàn)按照h指數(shù)的定義一些很有實力的作者的h值應(yīng)該取較低的值,但是其h值以下的引文數(shù)據(jù)與h值頗為接近,有時甚至1次新加的引用即可改變作者的h值。這樣的情況無疑是令人遺憾的,但這也暴露出h指數(shù)的設(shè)計存在一個很隱蔽的缺陷,即h指數(shù)的增長存在關(guān)鍵點。
按照h指數(shù)思想利用引文數(shù)據(jù)庫提供的降序列表進(jìn)行的h指數(shù)統(tǒng)計僅能看到單純的h指數(shù)數(shù)字,無法看到同一作者所發(fā)表的全部文獻(xiàn)的被引用情況,自然無法預(yù)見其h指數(shù)增長潛力。通過統(tǒng)計全部文獻(xiàn)的被引用情況,可以發(fā)現(xiàn)h指數(shù)增長的關(guān)鍵點。比如,某作者被引9次以上的文獻(xiàn)是9篇,第9篇的被引次數(shù)是9,第10和11篇的被引次數(shù)也是9,按照h指數(shù)的定義,其h指數(shù)只能是9。但是,如果該作者的第9篇和第10篇的被引次數(shù)各增長1,其h指數(shù)即可變?yōu)?0,其總被引次數(shù)僅需增長2次;如果第9、10、11篇的被引次數(shù)分別增長2,其h指數(shù)即可變?yōu)?1,而從宏觀上看,該作者的總被引次數(shù)僅需增長6次。所以,h指數(shù)增長的關(guān)鍵點是指被引數(shù)量微不足道的增長即可顯著改變h指數(shù)的文獻(xiàn)。這些文獻(xiàn)一股位于被引數(shù)量降序排列的h值附近,通過增加對它們的引用即可達(dá)到h指數(shù)快速增長的目的。由于h指數(shù)增長關(guān)鍵點的存在,作弊者通過自己或他人對處于關(guān)鍵點的文獻(xiàn)施加次數(shù)很少的引用即可隱蔽地提升自己的h值。由于很難區(qū)分別引者的引文動機,所以這種作弊行為將與正常的引文行為毫無區(qū)別。筆者將這種隱蔽地對h指數(shù)增長關(guān)鍵點施加影響以達(dá)到快速提升h指數(shù)目的的作弊行為稱為h指數(shù)精確注水。
表1為三名作者所發(fā)文獻(xiàn)被引數(shù)降序列表,根據(jù)h指數(shù)的定義,作者A1、A2和A3的h值分別6、4和2,其中作者A1和A2的h值以下的被引數(shù)均與其h值極為接近。表1同時給出了對三位作者引文數(shù)據(jù)實施精確注水,將其h值提升5級所需的最小引文數(shù)。如果作者A1的第7篇文章被引數(shù)增加l,其h值即可提升為7;如果第6、7、8篇文章的被引數(shù)分別增加1、2、4次,共增加7次,其h值即可提升為8。同樣,對于作者A2,其h值由4提升為5和6需要的最小量分別為1和5;對于作者A3,其h值由2提升為3和4需要的最小量分別為1和4。換言之,單純從數(shù)量關(guān)系上看,h指數(shù)的增長存在關(guān)鍵點――被引量排序在h值附近論文被引量的增長,如果新增被引被優(yōu)先施加于這些論文,則作者h(yuǎn)指數(shù)增長所需的被引量將得到極大優(yōu)化。
3 h指數(shù)精確注水的潛在動機和危害
筆者對南京大學(xué)版20種圖情核心期刊近30年來的高頻第一作者進(jìn)行了匯總統(tǒng)計。統(tǒng)計結(jié)果顯示,30274名第一作者累計發(fā)文近9萬篇(5632篇末署名文章的作者被合并為一個發(fā)文5632次的無名作者),其中發(fā)文量在5以上的第一作者共有3911人。h指數(shù)在5及以上的共有187人,僅占全部圖情領(lǐng)域第一作者總數(shù)的0.62%,占發(fā)文量5以上作者總數(shù)的4.78%。從職稱上看,這些高h(yuǎn)指數(shù)作者絕大多數(shù)具有高級職稱。因此,筆者認(rèn)為可以把h指數(shù)為5及以上的圖情學(xué)者視為本領(lǐng)域有影響力的專家。
根據(jù)Hirsch的統(tǒng)計,美國研究型大學(xué)的物理學(xué)家要獲得永久教職(教授),h指數(shù)一般為10到12;如能晉升為正教授,則h指數(shù)約為18;成為美國物理學(xué)會會員的h指數(shù)一般在15到20;成為美國科學(xué)院院士一般在45或更高。
隨著人們對h指數(shù)評價功能的推崇,難保不會有將h指數(shù)用于職稱評審等充滿利益誘惑的場合的那一天。隨著h指數(shù)的高低與評價的級別直接聯(lián)系,完全可以預(yù)見各種隱蔽地對h指數(shù)進(jìn)行精確注水行為的大范圍發(fā)生。
大體說來,h指數(shù)精確注水問題的危害主要有以下幾點:
?引用的功利性將得到強化。正常情況下的引用能夠反映學(xué)術(shù)源流關(guān)系,可以引導(dǎo)學(xué)者理清學(xué)術(shù)的來龍去脈。但自從人們企圖從引文數(shù)據(jù)中挖掘出成就評價信息時,針對引文數(shù)據(jù)的作弊就開始了。由于過去一般用總被引來衡量學(xué)者的影響力,因此各篇文章的被引數(shù)據(jù)的地位是平等的,此時的虛假引用只需施加到特定作者身上即可,而不需要精確施加 到特定的文章。換言之,在h指數(shù)精確注水問題被提出以前,引用落在作者所發(fā)表的哪一篇文獻(xiàn)具有很大的隨機性,一日,將h指數(shù)的大小與評價掛鉤,作弊者的引用行為將有明確的針對性,h指數(shù)精確注水辦法無疑將因其快速有效而被作弊者采納。
?擾亂引文衰減周期,制造更有欺騙性的學(xué)術(shù)垃圾。一般來說,文獻(xiàn)的價值總是隨著時間的流逝而降低,其引文數(shù)據(jù)具有或長或短的衰減周期,多數(shù)文獻(xiàn)在經(jīng)過足夠長時間后甚至不再被人引用。但如果有人想強行提高其h指數(shù),就可能對這些本來不會再被引用的文獻(xiàn)施加不少于特定數(shù)量的引用,這樣的虛假引用如果大量泛濫,不僅會對各種引文分析計量工具制造更大的困難,而且將以其極強欺騙性誤導(dǎo)學(xué)者們的研究。
?作弊行為將更加隱蔽。作者自引無疑是代價最小的提升特定文獻(xiàn)被引數(shù)量的行為,那些自引頻率高的人無疑可以快速提升其h指數(shù)。即使評價者可以用排除自引來抵消這種投機行為,卻難以識別和阻止各種各樣被追或主動示好的虛假引用以及互相捧場、串通作弊的交易性質(zhì)的“友情引用”。加之國內(nèi)學(xué)者的h指數(shù)普遍偏低,作弊需要的關(guān)鍵引文數(shù)量也很小,這樣的作弊將更難被發(fā)現(xiàn)。
?大大降低引文數(shù)據(jù)的學(xué)術(shù)價值。根據(jù)文獻(xiàn)老化規(guī)律,有的文獻(xiàn)在一定時間后其價值將極大減少,因此相應(yīng)的被引量將停止增長,如果為了拔高作者的h指數(shù)而故意增加對這些文獻(xiàn)的引用將扭曲文獻(xiàn)之間正常的聯(lián)系,甚至導(dǎo)致引文數(shù)據(jù)完全失去其反映學(xué)術(shù)源流的應(yīng)有價值,各種引文庫將變成毫無價值的垃圾堆。
盡管現(xiàn)在尚未發(fā)現(xiàn)有人開始有意識地利用這一h指數(shù)與生俱來的缺陷進(jìn)行作弊,但這個現(xiàn)象是客觀存在的。如果對這一缺陷不未雨綢繆,完全可以預(yù)見這種隱蔽作弊的現(xiàn)象將隨著h指數(shù)評價被運用于更廣泛的領(lǐng)域而泛濫。
4 h指數(shù)精確注水的識別
在使用傳統(tǒng)的總被引指標(biāo)評價作者學(xué)術(shù)影響力的時候,各文章被引數(shù)據(jù)的地位是平等的,但在使用h指數(shù)進(jìn)行評價的情況下,這種局面將有微妙的變化。高被引端的新增被引對h指數(shù)的增長將不再有貢獻(xiàn),低被引端的新增被引由于數(shù)量太小而短期難以超越h值,而h值附近文獻(xiàn)的被引數(shù)據(jù)將對h值的增長起到顯著影響。
根據(jù)筆者的統(tǒng)計,正常的作者發(fā)文量一被引量關(guān)系圖呈高被引端陡峭,低被引端平滑的現(xiàn)象。由于文章被引數(shù)量總是從1和2開始累積的,發(fā)文量特別高的作者往往有大量被引量為1和2的文章,其發(fā)文量一被引量關(guān)系圖中往往有在水平方向較長的高度為2和1臺階,隨著作者發(fā)文量的增多,高度為l的臺階在水平方向上變長。圖1為發(fā)文量不同的兩名作者的發(fā)文一被引量關(guān)系圖,其中水平臺階較長作者的發(fā)文是較大,
圖2展示了對作者A1的h指數(shù)實施精確注水的效果。曲線“h指數(shù)注水1”是指將h指數(shù)提升1,曲線“h指數(shù)注水2”是指將h指數(shù)提升2。從圖2可以看出,正常的被引曲線比較平滑而流暢,而被充分注水的被引曲線因局部變得平坦而呈臺階狀,局部的陡峭狀況被加劇。這種狀況與人們在自然界里攔河建壩頗為相似,兩者的目的都是充分利用資源,把資源引導(dǎo)到急需的地方。一般來說,作者所發(fā)表文獻(xiàn)的被引數(shù)量的增長總是不均衡的,有的文獻(xiàn)被引數(shù)量多而有的少,各文獻(xiàn)被引數(shù)據(jù)從高到低的變化與自然界里河流由高到低的流動頗為類似。欲實施h指數(shù)精確注水的作弊者正是想通過在特定位置攔截引文數(shù)據(jù)這條流動的河流,使其注入特定地段為抬升自己的h指數(shù)服務(wù)。這種現(xiàn)象與人們在自然界攔截河流,建設(shè)大壩,蓄積河水抬升河面何其相似!從圖2可以看出,經(jīng)過充分注水的h指數(shù)曲線段變得平坦,但其與下游引文數(shù)據(jù)流的落差變得更大了。
值得指出的是,隨著h指數(shù)的增加,注水所需要的引文數(shù)也呈指數(shù)增長,因此,在一定程度上來說,h指數(shù)精確注水的效果也是有限的。隨著作弊規(guī)模的增大,圖2中的水平線將越來越長,作弊行為暴露的幾率也在增大。
5 對策與建議
針對本文提出的h指數(shù)精確注水問題,筆者認(rèn)為文獻(xiàn)作者、期刊編輯、引文數(shù)據(jù)庫、評價機構(gòu)、社會大眾都要行動起來,此問題才能不令人遺憾地成為現(xiàn)實。具體來說,筆者有如下對策和建議:
?在使用h指數(shù)進(jìn)行人才評價時不要迷信具體數(shù)字,h指數(shù)精確注水問題固然揭示了主動作弊情況下h指數(shù)能快速提升的事實,但誰又能證明這樣的引用情形在自然狀態(tài)下不會發(fā)生呢?誰又能證明一個僅需要5個新增引用h指數(shù)就會由6變成8的作者的成就就小于需要8個引用h指數(shù)才能由7變成8的作者呢?
?規(guī)范引用,強化作者自律,提高學(xué)術(shù)生產(chǎn)的責(zé)任感。學(xué)術(shù)界要重視參考文獻(xiàn)的撰寫,規(guī)范引用,為引文數(shù)據(jù)庫提供真實的能夠切實反映文獻(xiàn)生產(chǎn)源流關(guān)系的引文信息。此外,一篇文獻(xiàn)的參考文獻(xiàn)是否也應(yīng)該有個數(shù)量上限?如果每篇文章都象綜述文章那樣大量引用,h指數(shù)所能反映出的實際情況將在很大程度上被扭曲。
?加強引文審查,杜絕虛假引用。廣大的期刊編輯應(yīng)加大對引文的審查力度,及時指出作者的錯誤引用和虛假引用。
?推進(jìn)已有引文數(shù)據(jù)庫的不斷完善,提高其在參考文獻(xiàn)審查中的地位,F(xiàn)有的引文數(shù)據(jù)庫還存在著各種各樣的問題,其引文數(shù)據(jù)的準(zhǔn)確性也有待于提高。引文數(shù)據(jù)庫應(yīng)該建立獎勵機制,調(diào)動廣大使用者糾正的積極性,從而加快自身完善的步伐。引文數(shù)據(jù)庫也要發(fā)揮資源中心的作用,供各期刊編輯審查參考文獻(xiàn)準(zhǔn)確性之用。只有實現(xiàn)了這樣的良性互動,引文數(shù)據(jù)的準(zhǔn)確性才能從根本上得到保證。
?提高引文數(shù)據(jù)進(jìn)入h指數(shù)計算的門檻。不是所有情況下的引用都應(yīng)該被記入作者相關(guān)文獻(xiàn)被引數(shù)據(jù)的。由于在低檔次刊物上對引文數(shù)據(jù)作弊相對要容易很多,是否應(yīng)該對來源文獻(xiàn)設(shè)置一定的門檻以提高作弊的難度呢?
?不將h指數(shù)用于對低h指數(shù)作者的評價。對于任何一個研究領(lǐng)域來說,低h指數(shù)作者與相比高h(yuǎn)指數(shù)作者數(shù)量總是要大得多,因此對低h指數(shù)作者實施h指數(shù)精確注水比對高h(yuǎn)指數(shù)作者實施更少為人所關(guān)注,加之其難度也要小很多,因此更加隱蔽和有效。此外,h指數(shù)對于具有相同h值的大量低h指數(shù)作者的區(qū)分度也很低,因此不將h指數(shù)用于低h指數(shù)作者的評價將不失為一種避免本文提出的h指數(shù)缺陷的良策。
?依靠學(xué)界打假力量對作弊者進(jìn)行曝光和嚴(yán)肅處理。筆者認(rèn)為,作者的引文數(shù)據(jù)圖中是否有攔河建壩現(xiàn)象可以較好地指示是否發(fā)生了h指數(shù)精確注水行為,這可以成為學(xué)界打假力量識別作弊的參考。對于涉嫌作弊者要及時予以揭露,以維護(hù)學(xué)術(shù)研究的真實和美好。
相關(guān)熱詞搜索:缺陷 指數(shù) h指數(shù)的潛在缺陷 h指數(shù) h股指數(shù)
熱點文章閱讀