論文查重檢測(cè)系統(tǒng)作為論文初篩工具已經(jīng)成為歐美高校的常用軟件, 國外高校對(duì)于反剽竊的研究高度重視, 在反剽竊領(lǐng)域的研究也比較成熟, 六年來國際反剽竊大會(huì) 已經(jīng)舉行了三屆, 相對(duì)來說前面介紹的國內(nèi)相關(guān)研究還比較滯后。
1 CNKI科技期刊學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)(AMLC)
CNKI科研誠信管理系統(tǒng)研究中心是同方知網(wǎng)出版集團(tuán)旗下從事科研誠信管理產(chǎn)品研發(fā)的專門機(jī)構(gòu), 中心主要從事學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)、科研誠信檔案管理系統(tǒng)等軟件研發(fā)。同時(shí)也承擔(dān)相關(guān)機(jī)構(gòu)委托的科研誠信監(jiān)測(cè)、管理等事務(wù)。還為各單位的學(xué)術(shù)評(píng)價(jià)提供科研誠信方面的參考數(shù)據(jù), 輔助進(jìn)行學(xué)術(shù)評(píng)價(jià)。它旗下的中國學(xué)術(shù)期刊(光盤版)電子雜志社(CNKI)的科技期刊學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)(AMLC) 從2006年開始正式立項(xiàng)研發(fā)到目前已經(jīng)達(dá)到大規(guī)模實(shí)用化的成熟程度。2008年底, AMLC管理辦公室開始為CNKI提供每期數(shù)據(jù)的期刊編輯部免費(fèi)提供剛開發(fā)完成的《科技期刊學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)(AMLC)》。
如期刊編輯部希望使用該系統(tǒng), 可以郵寄、傳真方式向中國學(xué)術(shù)期刊(光盤版)電子雜志社AMLC管理辦公室提交《AMLC使用申請(qǐng)》, 簽訂授權(quán)使用協(xié)議, 就可以通過CNKI 的客服人員直接開通本編輯部的系統(tǒng)使用賬號(hào), 這個(gè)賬號(hào)只能用于檢測(cè)本刊的來稿和已發(fā)表文獻(xiàn)。
AMLC系統(tǒng)建設(shè)是一個(gè)系統(tǒng)工程, 涉及檢測(cè)方法設(shè)計(jì)、比對(duì)數(shù)據(jù)庫建設(shè)、規(guī)范數(shù)據(jù)庫建設(shè)、大規(guī)模數(shù)據(jù)測(cè)試、系統(tǒng)性能測(cè)試等多個(gè)環(huán)節(jié)。系統(tǒng)目前的檢測(cè)范圍涵蓋中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫、中國博士論文網(wǎng)絡(luò)出版總庫、中國優(yōu)秀碩士論文網(wǎng)絡(luò)出版總庫、中國報(bào)紙全文數(shù)據(jù)庫、中國專利全文數(shù)據(jù)庫(知網(wǎng)版)、中國科技成果數(shù)據(jù)庫(知網(wǎng)版)、中國年鑒網(wǎng)絡(luò)出版總庫、中國工具書數(shù)據(jù)庫、中國標(biāo)準(zhǔn)數(shù)據(jù)庫(知網(wǎng)版)。正陸續(xù)引進(jìn)英文數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)庫等資源。AMLC可以進(jìn)行快速文獻(xiàn)比對(duì)。以CNKI各庫為比對(duì)基礎(chǔ)庫, 在2 ~ 5秒內(nèi)完成一篇5000漢字的文獻(xiàn)比對(duì), 出示比對(duì)結(jié)果。并支持批處理。用戶可上傳包含多篇文獻(xiàn)的壓縮文件進(jìn)行檢測(cè)。其比對(duì)結(jié)果經(jīng)過標(biāo)紅, 且有定位功能。能夠快速發(fā)現(xiàn)文字重復(fù)的部分, 方便快捷。另外在結(jié)果中將詳細(xì)顯示比對(duì)源文獻(xiàn)的篇名、作者、發(fā)表刊物、發(fā)表時(shí)間等信息, 便于用戶參考。
經(jīng)筆者所在編輯部試用, AMLC可以檢測(cè)的文獻(xiàn)格式包括:caj、doc、pdf、txt文本以及包括上述格式文獻(xiàn)的壓縮文件。用戶也可對(duì)已提交文獻(xiàn)進(jìn)行重新檢測(cè)、修改、刪除操作。點(diǎn)擊提交文獻(xiàn)的篇名即可細(xì)覽該文獻(xiàn)的監(jiān)測(cè)結(jié)果。
另外, 用戶還可以刪除系統(tǒng)給出的某些抄襲來源文獻(xiàn), 得到新檢測(cè)結(jié)果。如果用戶點(diǎn)擊抄襲來源篇名, 就可以查看文件相似內(nèi)容對(duì)比情況了。
2 萬方論文相似性檢測(cè)系統(tǒng)
萬方論文相似性檢測(cè)系統(tǒng)是基于萬方數(shù)據(jù)公司所收錄的期刊論文、學(xué)位論文、萬方數(shù)值數(shù)字化期刊全文數(shù)值庫、萬方數(shù)值學(xué)位論文、常識(shí)服務(wù)平臺(tái)的全文數(shù)值庫等海量數(shù)據(jù), 運(yùn)用先進(jìn)的檢測(cè)算法研制而成, 它具有檢測(cè)速度快、檢測(cè)準(zhǔn)確等特點(diǎn)。國內(nèi)第二大數(shù)據(jù)集成商萬方數(shù)據(jù), 在CNKI推出AMLC 一年零一個(gè)季度之后終于拿出了一個(gè)與CNKI相提并論的產(chǎn)品, 在2010的3月, 萬方公司的網(wǎng)站上出現(xiàn)了萬方論文相似性檢測(cè)系統(tǒng), 通過論文相似性檢驗(yàn)測(cè)定體系的官網(wǎng) , 萬方數(shù)據(jù)將檢測(cè)費(fèi)用定義在10元每萬字, 可以直接通過自己在萬方數(shù)據(jù)的賬戶登錄, 并進(jìn)行論文的檢測(cè), 通過檢測(cè)可以看到萬方數(shù)據(jù)提供了簡明和詳細(xì)兩種檢測(cè)報(bào)告。
3 維普——— 通達(dá)論文引用檢測(cè)系統(tǒng)
國內(nèi)第三大數(shù)據(jù)集成商維普資訊, 在CNKI推出AMLC 一年零3個(gè)季度和萬方數(shù)據(jù)推出論文相似性檢系統(tǒng)半年之后終于也拿出了一個(gè)與CNKI和萬方數(shù)據(jù)相提并論的產(chǎn)品——— 論文引用檢測(cè)系統(tǒng).從2010 年9 月起個(gè)人用戶在維普——— 通達(dá)論文引用檢測(cè)系統(tǒng)的官網(wǎng)注冊(cè)就可免費(fèi)檢測(cè)自己的文章。
維普——— 通達(dá)論文引用檢測(cè)系統(tǒng)經(jīng)過部分高校及社會(huì)個(gè)人用戶的測(cè)試, 已經(jīng)面向企事業(yè)用戶、個(gè)人用戶全面公開免費(fèi)試用, 用戶僅需填寫真實(shí)的郵箱快速注冊(cè)即可免費(fèi)享受論文引用檢測(cè)服務(wù)。
該論文檢測(cè)系統(tǒng)是基于多年數(shù)據(jù)挖掘技術(shù)領(lǐng)域的成功經(jīng)驗(yàn), 應(yīng)用于文本比對(duì)檢測(cè)領(lǐng)域上的成熟產(chǎn)品。該系統(tǒng)將自主研發(fā)的大規(guī)模文本處理技術(shù), 應(yīng)用于論文內(nèi)容創(chuàng)新性評(píng)價(jià)系統(tǒng), 能夠高效的與海量文本資源進(jìn)行比對(duì), 檢測(cè)出重復(fù)及引用片段等, 并且能夠計(jì)算出論文的復(fù)寫率、引用率及自寫率(對(duì)論文內(nèi)容創(chuàng)新性評(píng)價(jià))等指標(biāo) 。
該系統(tǒng)集合了專業(yè)的數(shù)據(jù)庫資源, 針對(duì)不同類型用戶的需求, 可提供專業(yè)的個(gè)人自檢測(cè)服務(wù)、高校學(xué)生論文檢測(cè)服務(wù)、期刊稿件檢測(cè)服務(wù)以及其他類型的檢測(cè)服務(wù)等。
該系統(tǒng)可以滿足教育界、出版社、媒體、科研機(jī)構(gòu)等行業(yè)客戶及各類論文撰寫者等不同用戶的需求。通過該系統(tǒng), 我們可以查出該文作者的自寫率是多少,
4 ROST反剽竊系統(tǒng)(學(xué)術(shù)論文不端行為檢測(cè)系統(tǒng))
ROST反剽竊系統(tǒng)(學(xué)術(shù)論文不端行為檢測(cè)系統(tǒng))是由武漢大學(xué)信息管理學(xué)院出版科學(xué)系沈陽教授帶領(lǐng)課題小組開發(fā)成功的文檔相似性檢測(cè)工具。可有效檢測(cè)論文的抄襲相似情況, 經(jīng)過6年的研發(fā)(早期版本叫做網(wǎng)盜克星), 推出了6.0版本。
ROST反剽竊系統(tǒng)可以自動(dòng)將文檔切割為多個(gè)50 ~ 200 字(可自定義)的小文本, 通過混合引擎與188 億個(gè)網(wǎng)頁和490萬篇文獻(xiàn)進(jìn)行柔性匹配, 標(biāo)示出每個(gè)文本塊與文獻(xiàn)庫中的文獻(xiàn)的最大相似度。由此軟件統(tǒng)計(jì)出相似度≥ 95%(基本原封不動(dòng)拷貝)與相似度≥ 80% (拷貝后略作修改)的字?jǐn)?shù)所占總字?jǐn)?shù)比例。軟件把這個(gè)比例作為相似程度參考衡量指標(biāo)。“ ROST反剽竊系統(tǒng)”與其他系統(tǒng)最大的不同之處在于覆蓋了188億個(gè)網(wǎng)頁以及490萬篇論文。
自ROST反剽竊系統(tǒng)2008年4月推出以來, 先后在武漢大學(xué)信息管理學(xué)院研究生辦公室、CSSCI核心期刊《出版科學(xué)》、《圖書情報(bào)知識(shí)》試用, 在2008年11月舉辦的第二屆數(shù)字時(shí)代出版產(chǎn)業(yè)發(fā)展與人才培養(yǎng)國際學(xué)術(shù)研討會(huì)對(duì)會(huì)議論文進(jìn)行全面檢測(cè), 并在2008年12月的第三屆中國期刊創(chuàng)新年會(huì)向全國期刊界做了全面推介, 取得了良好的效果?,F(xiàn)在,
ROST反剽竊系統(tǒng)已經(jīng)進(jìn)一步在《中國社會(huì)工作》、北京大學(xué)、廈門大學(xué)、上海理工大學(xué)、成都理工大學(xué)、浙江傳媒學(xué)院等全國近百所高校和期刊社中試用。
5 國內(nèi)論文查重檢測(cè)平臺(tái)的比較
隨著計(jì)算機(jī)技術(shù)在國內(nèi)的廣泛興起, 對(duì)于論文查重檢測(cè)系統(tǒng)的軟件開發(fā)浪潮也一浪高過一浪。網(wǎng)絡(luò)和軟件的開發(fā)成功成為了國內(nèi)反學(xué)術(shù)不端行為重要的里程碑, 也成為反學(xué)術(shù)論文不端行為的重要力量。通過對(duì)國內(nèi)幾個(gè)著名的學(xué)術(shù)論文不端行為檢測(cè)系統(tǒng)的介紹, 我們發(fā)現(xiàn), 國內(nèi)的學(xué)術(shù)論文不端行為檢測(cè)系統(tǒng)都是由具有背景的各高校和研究所開發(fā)。它們?cè)诠δ芎托问缴洗笸‘? 也有各自不同的軟件算法, 支持的文件類型也非常相近, 只是由于平臺(tái)名稱科技期刊學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)論文相似性檢測(cè)系統(tǒng)維普—通達(dá)論文引用檢測(cè)系統(tǒng)ROST反剽竊系統(tǒng)
后臺(tái)核心數(shù)據(jù)庫的不同, 造成了最終檢測(cè)結(jié)果有所差別。因此一個(gè)學(xué)術(shù)論文不端行為檢測(cè)系統(tǒng)的強(qiáng)大與否根本在于其后臺(tái)比對(duì)數(shù)據(jù)庫是否收錄了以前所有公開發(fā)表的文獻(xiàn)。由于現(xiàn)在CNKI和萬方爭相采取和各個(gè)編輯部簽訂獨(dú)家合作的協(xié)議 , 如果某一編輯部簽訂這一協(xié)議之后, 就勢(shì)必造成另一數(shù)據(jù)庫該刊物的原始數(shù)據(jù)文獻(xiàn)缺失, 也就造成了現(xiàn)今國內(nèi)沒有一家數(shù)據(jù)庫是完整收錄所有刊物文獻(xiàn)數(shù)據(jù)的。由于數(shù)據(jù)庫文獻(xiàn)不全, 所以國內(nèi)任何一家開發(fā)單位的產(chǎn)品都不能說百分百保證被檢測(cè)的數(shù)據(jù)一定可以與以往所有公開發(fā)表的中文文獻(xiàn)數(shù)據(jù)進(jìn)行比對(duì)。所以各編輯部如果追求最全數(shù)據(jù)比對(duì)效果的話, 最好同時(shí)使用各個(gè)開發(fā)單位的產(chǎn)品。另外我們也同時(shí)呼吁國家政府管理部門出面叫停所謂的簽獨(dú)家協(xié)議的做法, 這樣做不僅僅造成的數(shù)據(jù)庫內(nèi)容不完整, 更是造成了社會(huì)資源的極大浪費(fèi)。