检查文本相似度的跨平台命令行工具 FileCompare 1.0

我们经常需要检查两个文本文档的相似度有多高,这对于防止作弊,对比写作风格等都有一定的用处。基于空间矢量法,我写了一个检查文本相似度的命令行工具 FileCompare。

由于此产品是进程抄袭作弊检测进程的副产品,所以针对英语、不需要分词的语言效果较好,对中文支持不佳(主要是没有加入较好的中文分词模块)。

进程返回的数值为两个所比较的文本文档的相似度数值。

支持的操作系统:Linux,MAC OS X,Windows 98/2000/XP/2003/Vista/7/2008(其中在 Windows Vista 以下版本需要安装 .NET Framework 2.0;在某些 Linux 发行版和 Mac OS X 中需要安装 mono 包(不包括 Ubuntu等系统)。)

下面举例说明它的用法。

一、在 Ubuntu 系统下

在终端中输入命令:

me@me-pc:~$ sudo chmod +x filecompare
me@me-pc:~$ filecompare ./file1.c ./file2.c
me@me-pc:~$ filecompare ./file1.c ./file2.c -e utf-8 -q

第一句话是为了给该进程附加执行权限;第二句话对比两个文档的相似度。(这两个文档必须存在)

第三句话显式告诉进程要使用 UTF-8 编码(默认就是这个编码)。

二、在 Windows 7 系统下

在命令提示符中输入命令:

C:\>filecompare.exe file1.c file2.c
C:\>filecompare.exe file1.c file2.c -e gb2312 -q

要获得帮助,请直接键入 filecompare(.exe) 或附加参数 –-help。

点此下载

本文版权遵循 CC BY-NC-SA 4.0发布,转载需附带本文链接。

当前页阅读量为: