😅查重难点

查重方法
准确度
难点
效率
工具

算法查重 哈希值(SHA256等)

极高准确度,哈希碰撞的可能性极低

BetterRepack 网站二压,市面Mod压缩率差异导致的相同文件可能具有不同哈希值

使用专业查重工具,具有极高效率

GUID ZIPMOD唯一标识符(算法查重后)

较高(但自动化工具准确度未知)(结合其他方法极高)

GUID错误或复用,可能导致误判,不同Mod可能具有相同ID

使用自动化工具KKM可能具有较高效率,若使用U3DViewer进一步肉眼判断效率降低

版本号 ZIPMOD版本标识(GUID相同为前提)

较低(结合其他方法较高)

更新遗漏导致的版本号未更改,相同GUID相同版本号可能并不相同,但是真的不同吗?还有可能是压缩率不同的相同文件。另外,GUID是真的相同还是复用未知。

手动?

结合U3DViewer进一步肉眼判断增加准确度

文件名

较低(结合其他方法较高)

文件名相同,且未被算法查重过滤,极有可能是压缩率不同/版本不同。可通过GUID和版本号或者直接通过HS2M渲染进一步确认是否完全相同。

效率低

字节对比

根据方法有所不同

根据方法有所不同

根据方法有所不同

方法
效率
适用场景
准确度
优缺点

完全逐字节比较

最低

完全一致性验证,小文件(<10 MB)。

100%

最准确,但效率低,无法识别压缩率不同的文件。

分块比较

较高

大文件(>100 MB),对重复文件完整性有要求。

95%-100%

高效且准确,适合大文件,可能漏检块外差异。

特征对比

最高

大量文件的快速筛选,大文件初步查重。

80%-95%

快速但可能误判头尾一致的部分相似文件。

编辑距离(相似度)

最低

文件部分内容相似性(如压缩率不同)。

70%-90%

能检测部分相似性,但效率低,不适合大批量文件。

字节对比方法,尤其是结合特征对比和相似性算法,可以有效筛选出那些虽然无法通过哈希判断,但内容极为相似或潜在重复的文件。然而,此选项是二进制比较,因此它不考虑文件格式,但是它可能无法对某些文件类型(尤其是压缩文件)产生有用的结果。

压缩过程改变了文件的二进制结构,字节对比可能无法准确识别其内容相似性。尤其对于MOD文件,尽管它们的内容相似,压缩和打包的方式会导致字节对比失败。😅

Last updated