CNKI知網(wǎng)論文檢測(cè)系統(tǒng)中,期刊編輯使用較多的為社科期刊檢測(cè)系統(tǒng)和科技期刊檢測(cè)系統(tǒng),其檢測(cè)范圍涵蓋中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)、中國(guó)報(bào)紙全文數(shù)據(jù)庫(kù)、中國(guó)優(yōu)秀碩士論文網(wǎng)絡(luò)出版總庫(kù)、中國(guó)博士論文網(wǎng)絡(luò)出版總庫(kù)等,雖然涵蓋面較大,但仍不可避免地存在數(shù)據(jù)的有限性,加之?dāng)?shù)據(jù)錄入量大造成的時(shí)間拖延,其數(shù)據(jù)也存在滯后性。此外,由于CNKI知網(wǎng)論文檢測(cè)系統(tǒng)仍處于不斷完善的階段,該系統(tǒng)對(duì)外文、文檔格式與公式圖表的處理存在誤差,使用指紋比對(duì)方法對(duì)文章文字復(fù)制比的計(jì)算也容易出現(xiàn)偏誤。
一、 CNKI檢測(cè)系統(tǒng)數(shù)據(jù)庫(kù)的有限性與滯后性
CNKI檢測(cè)系統(tǒng)能對(duì)其收錄入庫(kù)的期刊、報(bào)紙、會(huì)議等予以檢索,但檢測(cè)系統(tǒng)數(shù)據(jù)庫(kù)以外的文獻(xiàn)或來自博客、空間和其他網(wǎng)絡(luò)終端的文獻(xiàn)卻未能予以完整收錄。作為學(xué)術(shù)期刊編輯在使用該系統(tǒng)時(shí)也會(huì)遇到如下情況:檢測(cè)文章在系統(tǒng)上并無抄襲或文字復(fù)制比很低,但經(jīng)百度、google等搜索就會(huì)出現(xiàn)雷同文章,有時(shí)甚至是另一作者的原文。數(shù)據(jù)的有限性大大影響了CNKI檢測(cè)系統(tǒng)的準(zhǔn)確度。為了能夠讓自己的論文及時(shí)發(fā)表以完成科研考核目標(biāo)或結(jié)題,很多作者都會(huì)出現(xiàn)_稿多投的情況,盡管很多編輯部在稿約中三令五申,但一稿多投的現(xiàn)象仍呈愈演愈烈之勢(shì)。如果被抄襲的文獻(xiàn)沒有及時(shí)公開地發(fā)表卻在“準(zhǔn)出版公開”狀態(tài),刊登的論文沒有及時(shí)被知網(wǎng)數(shù)據(jù)庫(kù)收錄,抄襲往往就不能被系統(tǒng)檢測(cè)發(fā)現(xiàn)。由于CNKI的數(shù)據(jù)收錄期刊眾多,數(shù)據(jù)收錄量極大,不可避免地會(huì)存在滯后性,很多文獻(xiàn)都是在紙質(zhì)出版物出版后的一個(gè)多月甚至兩個(gè)月才能在數(shù)據(jù)庫(kù)查詢到。數(shù)據(jù)的滯后性嚴(yán)重影響了檢測(cè)的準(zhǔn)確度,甚至導(dǎo)致論文重復(fù)發(fā)表的結(jié)果。
二、CNKI檢測(cè)系統(tǒng)數(shù)據(jù)庫(kù)的語(yǔ)言、文章格式與公式圖表的限制
目前,CNKI檢測(cè)系統(tǒng)數(shù)據(jù)庫(kù)的所有數(shù)據(jù)來源主要為中文,雖然CNKI針對(duì)這一局限性推出了英文檢測(cè)系統(tǒng)與中英文對(duì)照檢測(cè)系統(tǒng),但因其資源庫(kù)僅僅包含springer圖書、springer期刊earthscan期刊等題錄數(shù)據(jù)庫(kù),在對(duì)翻譯類文章的檢測(cè)上顯得力不從心。CNKI檢測(cè)系統(tǒng)雖然支持caj、doc、pdf等多種格式的檢測(cè),但同一篇文章因格式不同而導(dǎo)致檢測(cè)結(jié)果不同的情況并不鮮見:以編輯部來稿《從法科學(xué)生就業(yè)難探析法學(xué)教育的詬弊》為例,該文第一次以word形式的完整檢測(cè)結(jié)果為21. 1%,但將該文格式改為txt后再次進(jìn)行檢測(cè)卻得到了7. 4%的檢測(cè)結(jié)果,這是由于機(jī)檢對(duì)字符判斷不一造成的。此類問題還包括上傳pdf文件顯示文章過短、改動(dòng)論文排版導(dǎo)致結(jié)果相異等。此外,CNKI知網(wǎng)論文檢測(cè)系統(tǒng)對(duì)文字敏感,對(duì)改換數(shù)據(jù)的公式、圖表等的檢測(cè)還處于完善期。在檢測(cè)包含公式、圖表的論文時(shí)常常無法正常顯示,而只是其中數(shù)據(jù)的無序羅列。因此,即使是抄襲他人實(shí)證的圖表有時(shí)都無法檢測(cè)出,如若作者更換圖表調(diào)研的名稱或某些數(shù)據(jù)就更難以檢出。如此種種限制更導(dǎo)致了CNKI檢測(cè)系統(tǒng)數(shù)據(jù)的準(zhǔn)確性難以保證。
三、CNKI檢測(cè)系統(tǒng)比對(duì)、判斷失誤
CNKI檢測(cè)系統(tǒng)的比對(duì)、判斷失誤主要包括三方面的內(nèi)容:對(duì)意義抄襲類文字難以判斷、對(duì)文字復(fù)制的刻板誤斷和因收錄不全導(dǎo)致的復(fù)制誤判:
1.對(duì)意義抄襲類文字難以判斷
CNKI檢測(cè)系統(tǒng)采用的是外形比對(duì)的方法來進(jìn)行檢測(cè)“即針對(duì)文字、字母與數(shù)字的各種排列組合進(jìn)行外型比對(duì),如果被比對(duì)的兩段文字的句式、用詞、排列順序完全相同,則可以被輕易地檢測(cè)出來。” 但如果是作者將搜集到的材料改換句式,進(jìn)行解釋性擴(kuò)充,但保持內(nèi)核不變的意義抄襲就比較隱蔽,很難被檢測(cè)出來。
2.對(duì)文字復(fù)制的刻板誤判
CNKI檢測(cè)系統(tǒng)外形比對(duì)的判斷方法同樣也會(huì)導(dǎo)致對(duì)文字復(fù)制的刻板誤判。假如A作者引用了B作者的文章《xx》,但是B作者的文章因沒有正確標(biāo)注出引用文獻(xiàn)或沒有標(biāo)注引用文獻(xiàn)而被檢測(cè)系統(tǒng)認(rèn)定為抄襲,那么,即便A作者在引用B作者的文章時(shí)正確標(biāo)注了所引的文章,檢測(cè)系統(tǒng)依然會(huì)認(rèn)定A作者為抄襲,這種情況對(duì)A作者來說就有失公平了。這樣的情況還包括對(duì)某些名人著作、重要文件、經(jīng)典案例的表述上。一般來說,這些文字不能被更改,從而導(dǎo)致機(jī)檢的文字復(fù)制可能性高。
3.因收錄不全導(dǎo)致的復(fù)制誤判
CNKI檢測(cè)系統(tǒng)對(duì)原創(chuàng)文獻(xiàn)的默認(rèn)邏輯為:“首次在《中國(guó)學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫(kù)》中出現(xiàn)的文章作者即認(rèn)定為原創(chuàng)者,在其以后提交檢測(cè)的論文中出現(xiàn)的相同的文字而沒有標(biāo)注出系統(tǒng)默認(rèn)出處的,即被認(rèn)定為抄襲。由于文章收錄的不盡完善,這樣的邏輯判斷常常出現(xiàn)誤差,假設(shè)A作者引用了一段文字(例如為《xx》書中的語(yǔ)句),而這段文字并未被列入比對(duì)的CNKI數(shù)據(jù)庫(kù),如果A作者為最早引用這段文字的人,并被收錄入庫(kù),那么不管他是否標(biāo)注這段文字為《xx》書的引用,系統(tǒng)都會(huì)默認(rèn)A作者為原創(chuàng)者。若這段文字再次被B作者引用,即使他標(biāo)明該段文字為《xx》書的引用,也會(huì)被系統(tǒng)認(rèn)定為抄襲。這種情況下的文字復(fù)制比顯然是系統(tǒng)的誤判。