摘要:論文相似性檢測系統(tǒng)是在技術(shù)上反抄襲、反剽竊的有效手段之一。本文從系統(tǒng)功能比較和指標體系對國內(nèi)主流的 論文相似性檢測系統(tǒng)——知網(wǎng)系統(tǒng)、萬方系統(tǒng)、維普系統(tǒng)、大雅系統(tǒng)進行了分析與比較,然后選取20篇學位論文在四個系統(tǒng)上檢測結(jié)果進行對比,再從中選出一篇學位論文進行詳細比較分析哪個最好,并在此基礎(chǔ)上提出各個系統(tǒng)需要改進之處。
關(guān)鍵詞:論文相似性檢測;中國知網(wǎng);萬方數(shù)據(jù)庫;檢測技術(shù)
學位論文相似性檢測系統(tǒng)主要為檢測研究生學位論文 中出現(xiàn)的不端行為提供輔助工具,是在技術(shù)上反抄襲、反剽竊的有效手段之一 。全國各大高校都開始對研究生學位論文進行相似性檢測,南京郵電大學從2009年開始對申請學位的博士和碩士研究生學位論文進行檢測,以及時發(fā)現(xiàn)和處理學位論文抄襲等不良行為。通過兩年的實施,每年都有10%的學生未達到要求需要重新修改論文,對研究生學位論文質(zhì)量起到了很好的把控作用。目前,國內(nèi)學位論文相似性檢測系統(tǒng)主要有四個系統(tǒng):中國知網(wǎng)CNKI的學術(shù)不端行為檢測系統(tǒng)、萬方數(shù)據(jù)的論文相似性檢測系統(tǒng)、維普通達論文檢測系統(tǒng)和超星數(shù)據(jù)庫大雅相似性分析系統(tǒng)。中國知網(wǎng)CNKI的學術(shù)不端行為檢測系統(tǒng)是目前最普遍使用的系統(tǒng),系統(tǒng)目前的檢測范圍涵蓋中國學術(shù)期刊網(wǎng)絡出版總庫、中國 博士論文網(wǎng)絡出版總庫、中國優(yōu)秀碩士論文網(wǎng)絡出版總庫、中國報紙全文數(shù)據(jù)庫、中國專利全文數(shù)據(jù)庫(知網(wǎng)版)、中國 科技成果數(shù)據(jù)庫(知網(wǎng)版)、中國年鑒網(wǎng)絡出版總庫、中國工 具書數(shù)據(jù)庫、中國標準數(shù)據(jù)庫(知網(wǎng)版)。正陸續(xù)引進英文數(shù)據(jù)庫、網(wǎng)絡數(shù)據(jù)庫等資源。萬方數(shù)據(jù)的論文相似性檢測系統(tǒng)也是高校目前普遍使用的系統(tǒng),僅次于CNKI,系統(tǒng)的檢測范圍涵蓋中國學術(shù)期刊數(shù)據(jù)庫(CSPD)、中國學位論文全文數(shù)據(jù)庫(CDDB) //中國學術(shù)會議論文數(shù)據(jù)庫(CCPD)和中國學術(shù)網(wǎng)頁數(shù)據(jù)庫(CSWD)。其學位論文數(shù)據(jù)庫的涵蓋量全是最大的優(yōu)勢。維普通達論文檢測系統(tǒng)是繼中國知網(wǎng)和萬方后,又一個擁有海量期刊文獻系統(tǒng)支持的論文防抄襲檢測系統(tǒng),其優(yōu)點是用戶自己掌控檢測流程,自己檢測,自己看結(jié)果,不想留痕跡自己可以刪除論文,安全性比較好。檢測結(jié)果報告較其他網(wǎng)站更為人性化,方便修改。維普通達收錄的文本數(shù)據(jù)庫包含:擁有文獻全文3,200余萬篇,是國內(nèi)最大最完善的中文科技期刊全文數(shù)據(jù)庫;互聯(lián)網(wǎng)數(shù)據(jù)庫(監(jiān)控 Google收錄的數(shù)十億個頁面);論文庫(收錄各院校及科研院 所的200多萬碩士、博士論文,每周更新,滿足跨學科比對需求)。超星數(shù)據(jù)庫大雅相似性分析系統(tǒng)是超星公司推出的相似性檢測系統(tǒng),其數(shù)據(jù)庫優(yōu)勢是中文圖書和報紙全文數(shù)據(jù)庫。
一、系統(tǒng)功能比較
對于常見的文件格式.doc/, pdf/, txt,四個系統(tǒng)都支持上傳,知網(wǎng)和維普支持.zip和.rar壓縮包格式文件上傳。在操作方式上,四個系統(tǒng)都支持單篇檢測和批量檢測功能,對于批量檢測功能,知網(wǎng):上傳論文一步;萬方:創(chuàng)建任務、添加論文和開始檢測三步;維普:提交論文、確認檢測文檔和開始檢測三步;大雅:任務名、選擇文件和上傳三步。知網(wǎng)系統(tǒng)的操作方式最簡單直接,而維普系統(tǒng)的操作是最慢的。
二、指標體系比較
知網(wǎng):復制比(總復制比、去除引用文獻檢測結(jié)果復制比、去除本人文獻檢測結(jié)果復制比)、總檢測指標(重合字 數(shù)、總字數(shù)、總段落數(shù)、疑似段落數(shù)、前部重合字數(shù)、后部重合字數(shù))、子檢測指標(重合字數(shù)、小段落數(shù)、大段落數(shù)、最大段長、平均段長、前部重合度、后部重合度)、相似片段分布;維普:相似比(總相似比、自寫率、復寫率、引用率),相似片斷 (包括:期刊庫片斷、碩博庫片斷、互聯(lián)網(wǎng)片斷、高校特色片斷、自建庫片斷),字數(shù)(包括:總字數(shù)、重復字數(shù)、總章節(jié)數(shù)、 疑似章節(jié)數(shù));萬方:相似比(總相似比、參考文獻相似比、排 除參考文獻相似比),相似片段分布;大雅:相似度(總相似 度、過濾參考文獻后相似度)、重復字數(shù)和過濾參考文獻后的 重復字數(shù),相似片段分布。在實際操作中,高校論文管理機 構(gòu)最關(guān)注的指標是“去除本人文獻檢測結(jié)果復制比”和“相似 片段分布”其中“去除本人文獻檢測結(jié)果復制比”只有知網(wǎng)系統(tǒng)有,而維普系統(tǒng)缺乏相似片段分布圖。因此,從指標體系看,知網(wǎng)的指標體系最詳細,指標維度最多,也最符合實際需求。
三、多篇論文檢測結(jié)果比較
我們從2015年畢業(yè)的研究生學位論文中挑選出20篇學位論文,分別在四個系統(tǒng)中進行了檢測,20篇學位論文的檢測平均復制比,知網(wǎng)系統(tǒng)18.94%,維普系統(tǒng)18.8%,萬方系 統(tǒng)4.64%,大雅系統(tǒng)
2.91%。從比較結(jié)果可以看出,知網(wǎng)和維普的檢測復制比較高、性能較優(yōu),而萬方和大雅的檢測復制比都比較低、性能較差。其中檢測性能較好的知網(wǎng)系統(tǒng)和維普系統(tǒng),兩者結(jié)果相似的論文數(shù)是6個占2.31%,知網(wǎng)比維普復制比多的論文數(shù)量和維普比知網(wǎng)復制比多的論文數(shù)量相同。可見,這兩個系統(tǒng)的檢測結(jié)果各有側(cè)重,性能相當。
四、單篇論文檢測結(jié)果比較
我們選取了一篇項目管理專業(yè)的研究生學位論文《雇傭 關(guān)系模式與組織認同、工作績效關(guān)系研究》(以下簡稱”學位 論文A”在四個系統(tǒng)上分別檢測,同時下載檢測報告進行分 析比較。從論文檢測速度上看,大雅速度最快只用5s時間,維普速度最慢使用200s時間,如果大批量論文檢測以維普系統(tǒng)的檢測速度肯定無法完成。從論文檢測結(jié)果上看,同一篇論文四個系統(tǒng)的復制比,知網(wǎng)和維普的結(jié)果接近檢測復制比高,性能優(yōu);萬方和大雅的檢測復制比低,性能差。我們對檢測報告進行了詳細分析,發(fā)現(xiàn)學位論文A跟一篇公開收錄的學位論文B有較大的相似性,但就這兩篇學位論文的對比結(jié)果,對四個系統(tǒng)的檢測報告進行分析,得出“跟最相似文獻的重復率對比”的指標,從跟最相似文獻的重復率對比上看,結(jié)果從高到低分別是:知網(wǎng)、萬方、大雅、維普,知網(wǎng)和萬方的結(jié)果較接近,性能較優(yōu)。從章節(jié)分析能力看,同樣排版的學位論文,只有維普系統(tǒng)正確區(qū)分出論文章節(jié),知網(wǎng)和萬方按照自己標準分段,而大雅系統(tǒng)沒有進行任何分段,章節(jié)分析能力上維普系統(tǒng)最優(yōu)。從報告長度和內(nèi)容上看,知網(wǎng)和維普系統(tǒng)的檢測報告都多達六十多頁,比較詳細;但萬方和大雅只有十頁左右,太簡單。
五、結(jié)語
本文對國內(nèi)主流的四個學位論文相似性檢測系統(tǒng)一一知網(wǎng)系統(tǒng)、萬方系統(tǒng)、維普系統(tǒng)、大雅系統(tǒng)進行了分析與比較,從各方面比較結(jié)果看,知網(wǎng)系統(tǒng)的優(yōu)勢是期刊和論文數(shù)據(jù)庫非常全面、檢測結(jié)果比較準確,缺點是章節(jié)分析能力不佳;萬方系統(tǒng)的優(yōu)勢是研究生論文數(shù)據(jù)庫全,缺點是期刊數(shù)據(jù)庫太少、檢測結(jié)果不準;維普系統(tǒng)的優(yōu)勢是章節(jié)分析能力好,缺點是檢測技術(shù)速度太慢,相似性統(tǒng)計數(shù)據(jù)不準;大雅系統(tǒng)的優(yōu)勢是電子圖書數(shù)據(jù)庫全,缺點是論文和期刊數(shù)據(jù)庫太少、檢測結(jié)果不準。綜合比較而言,每個系統(tǒng)都有自己的好,每個系統(tǒng)都有待改進的地方,但中國知網(wǎng)的性能最優(yōu)、綜合性能最佳。