檢查文本相似度的跨平臺命令行工具 FileCompare 1.0
我們經常需要檢查兩個文本文件的相似度有多高,這對於防止作弊,對比寫作風格等都有一定的用處。基於空間向量法,我寫了一個檢查文本相似度的命令行工具 FileCompare。
由於此產品是程序抄襲作弊檢測程序的副產品,所以針對英語、不需要分詞的語言效果較好,對中文支持不佳(主要是沒有加入較好的中文分詞模塊)。
程序返回的數值為兩個所比較的文本文件的相似度數值。
支持的操作系統:Linux,MAC OS X,Windows 98/2000/XP/2003/Vista/7/2008(其中在 Windows Vista 以下版本需要安裝 .NET Framework 2.0;在某些 Linux 發行版和 Mac OS X 中需要安裝 mono 包(不包括 Ubuntu等系統)。)
下面舉例說明它的用法。
一、在 Ubuntu 系統下
在終端中輸入命令:
me@me-pc:~$ sudo chmod +x filecompare
me@me-pc:~$ filecompare ./file1.c ./file2.c
me@me-pc:~$ filecompare ./file1.c ./file2.c -e utf-8 -q
第一句話是為了給該程序附加執行權限;第二句話對比兩個文件的相似度。(這兩個文件必須存在)
第三句話顯式告訴程序要使用 UTF-8 編碼(默認就是這個編碼)。
二、在 Windows 7 系統下
在命令提示符中輸入命令:
C:\>filecompare.exe file1.c file2.c
C:\>filecompare.exe file1.c file2.c -e gb2312 -q
要獲得幫助,請直接鍵入 filecompare(.exe) 或附加參數 –-help。
© 轉載需附帶本文連結,依 CC BY-NC-SA 4.0 釋出。