为了更好的保证比赛的公平性,本次比赛采用基于向量空间法的文本相似比较系统比较程序,可以有效检查出各类作弊程序。

目前, 在信息处理方向上, 文本的表示主要采用向量空间模型(VSM)。向量空间模型的基本思想是以向量来表示文本:(W1 , W2 , W3 . . . . . . Wn ), 其中Wi 为第i 个特征项的权重(词频)。词频计算方法主要运用TF-IDF 公式, 目前存在多种TF-IDF公式, 我们在系统中采用了一种比较普遍的TF-IDF 公式:

image

其中, W (t , d) 为词t 在文本d_中的权重, 而tf (t , d) 为词t 在文本d_中的词频, N 为训练文本的总数, ni 为训练文本集中出现t 的文本数, 分母为归一化因子。

过去的 40 多年中,许多关于信息检索的研究工作都是围绕着 Salton 提出的向量空间法展开的,它也是被广泛使用的 Smart 系统基础。在向量空间法中,每个文档被看成一个词袋,然后被表示成词条权重的向量:di = (wi1, wi2, …, win),其中 d 表示一个文档,n 表示词条空间的维数。每一个词条的权重代表了该词条在文档中的重要性。通常我们使用 tf-idf方法或它的一些变形来表示词条的权重。两个文档的相似度用它们对应向量的夹角的余弦值来表示。(见公式 1)

image

我写了一个命令行程序,用来比较任意两个文件的相似程度。写了一个附属工具程序,用于比较指定目录下所有的文件是否存在作弊嫌疑。

希望这能够在一定程度上缓解作弊情况。

如果你的程序被判为作弊,但你认为没有作弊,请和我联系。此系统只对代码不对人。