一种嵌入分布信息的Web文档相似性度量

来源 :南京师范大学学报:工程技术版 | 被引量 : 0次 | 上传用户:stramoniums
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web文档间的相似性度量是Web文本分类的关键,有效的相似性度量策略可改进Web文本分类的精度.经典的向量空间模型(VSM)仅考虑网页中单词的出现频率,未有效利用单词的分布信息,因而影响了网页的分类精度.论文计算了网页中单词分布位置的均值和方差,并将之引入到网页的相似性计算中,提出了一种直接嵌入分布信息的新的网页相似性度量方法.该方法因合理利用单词的出现频率及其分布信息,可有效改进和拓展经典的网页相似性度量策略.实验结果表明,该网页相似性度量方法是有效可行的.
其他文献
在剖析软测量基本思想的基础上 ,通过实例对基于软测量的不同检测技术及应用进行了详细的分析和对比 .结果表明 :基于软测量思想可以形成 3种不同于间接测量的典型形式检测技术 ,它们之间的最大不同是测量模型的输入输出与工业对象输入输出之间关系的差异
叙述了变频调速技术在搅拌摩擦焊中的应用,分析了焊接过程中谐振现象对材料表面成形的影响。通过变频调速技术,采用模糊滞环转矩控制器,实现了搅拌摩擦头的大范围变速和摩擦界面
根据北京城近郊1986~1995年逐日气象资料,分季对各气象要素与接警次数作曲线拟合和相关分析.在对单个气象要素分析的基础上,根据权重系数,建立了各季城市火险气象等级的短期、
用不同的设计思路对Kellogg传统蒸汽转化合成氨工艺氢氮比控制方案进行设计,并对此进行了比较和推荐。
运输车货厢底板纵梁在焊接中易产生较大的弯曲变形,从而影响整个货厢的装配和外观。通过控制热输入并制定相关标准减小了焊接变形。
文章以我国2009—2016年A股数据为研究样本,从会计稳健性视角,实证检验了内部薪酬差距对盈余管理程度的影响。结果表明薪酬差距的扩大会诱发盈余管理;条件稳健性和非条件稳健
本文针对目前高职院校汽车运用与维修专业课程体系存在的问题,提出了基于汽车维修专项技能认证的课程体系,可以有效地克服目前高职院校汽车运用与维修专业课程体系存在的几点