查重难点
Last updated
Last updated
算法查重 哈希值(SHA256等)
极高准确度,哈希碰撞的可能性极低
BetterRepack 网站二压,市面Mod压缩率差异导致的相同文件可能具有不同哈希值
使用专业查重工具,具有极高效率
GUID ZIPMOD唯一标识符(算法查重后)
较高(但自动化工具准确度未知)(结合其他方法极高)
GUID错误或复用,可能导致误判,不同Mod可能具有相同ID
使用自动化工具KKM可能具有较高效率,若使用U3DViewer进一步肉眼判断效率降低
KKM/
版本号 ZIPMOD版本标识(GUID相同为前提)
较低(结合其他方法较高)
更新遗漏导致的版本号未更改,相同GUID相同版本号可能并不相同,但是真的不同吗?还有可能是压缩率不同的相同文件。另外,GUID是真的相同还是复用未知。
手动?
结合U3DViewer进一步肉眼判断增加准确度
KKM/
文件名
较低(结合其他方法较高)
文件名相同,且未被算法查重过滤,极有可能是压缩率不同/版本不同。可通过GUID和版本号或者直接通过HS2M渲染进一步确认是否完全相同。
效率低
字节对比
根据方法有所不同
根据方法有所不同
根据方法有所不同
完全逐字节比较
最低
完全一致性验证,小文件(<10 MB)。
100%
最准确,但效率低,无法识别压缩率不同的文件。
分块比较
较高
大文件(>100 MB),对重复文件完整性有要求。
95%-100%
高效且准确,适合大文件,可能漏检块外差异。
特征对比
最高
大量文件的快速筛选,大文件初步查重。
80%-95%
快速但可能误判头尾一致的部分相似文件。
编辑距离(相似度)
最低
文件部分内容相似性(如压缩率不同)。
70%-90%
能检测部分相似性,但效率低,不适合大批量文件。
字节对比方法,尤其是结合特征对比和相似性算法,可以有效筛选出那些虽然无法通过哈希判断,但内容极为相似或潜在重复的文件。然而,此选项是二进制比较,因此它不考虑文件格式,但是它可能无法对某些文件类型(尤其是压缩文件)产生有用的结果。
压缩过程改变了文件的二进制结构,字节对比可能无法准确识别其内容相似性。尤其对于MOD文件,尽管它们的内容相似,压缩和打包的方式会导致字节对比失败。😅