基于分组指纹的细粒度相似性检测系统
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金资助项目(61350011, 61402165),湖南省自然科学面上基金资助项目(14JJ2115, 2015JJ3058),湖南省教育厅科技研究基金资助项目(14C0325),湖南工业大学自然科学研究基金资助项目(2014HZX17)


The Fine-Grained Similarity Detection System Based on Grouping Fingerprint
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构建细粒度的分组指纹索引结构,利用海明距离来计算文档之间的相似性,以XML文档形式存储并显示相似信息。通过系统的实现,验证了该方法的有效性,且检索效率有所提高。

    Abstract:

    In document similarity detection, coarse grain will reduce the accuracy and too small particle size will increase the computation time. Proposes a quick document similarity detection method based on b-bit Minwise Hash. Firstly extracts the document text to generate a grouping fingerprint features; Then establishes the index structure of fine-grained grouping fingerprint; Finally computes the resemblance of document part by Hamming distance, and stores and displays the evidence of similarity by XML document format. Through system practice, verifies the effectiveness of the method and increases the efficiency of retrieval.

    参考文献
    相似文献
    引证文献
引用本文

盛鑫海,袁鑫攀,满君丰,涂 慧.基于分组指纹的细粒度相似性检测系统[J].湖南工业大学学报,2014,28(6):81-85.

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2014-09-25
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2015-09-02
  • 出版日期:
文章二维码