大规模短文本的快速话题发现方法与评价研究

来源 :计算机应用研究 | 被引量 : 8次 | 上传用户:zl52182
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的话题发现研究主要针对于长文本及新闻数据集,大规模短文本具有稀疏、无结构、多噪等特点,传统方法很难有效发现话题。提出了一个融合词共现与加权GN(CW-WGN)算法的快速话题发现方法,描述了CW-WGN方法的详细过程,给出方法的具体算法。采集了sina微博、新闻网站的标题真实的短文本数据,构建了基础测试数据集,采用LDA与K-means方法作为对比进行了大量对比实验。实验结果表明CW-WGN比LDA和K-means方法能够多发现20%以上的正确话题,而且发现的话题纯度也高于LDA与K-means。
其他文献
针对混合云环境多用户数据共享进行了研究,为了完善混合云环境多用户数据共享机制、提高用户存储安全、解决权限撤销延迟问题,此次应用全同态加密算法,并结合(P,Q,O)门限技术,
经JPEG编解码处理后的解码图像与原图像差异较为明显,基于此,提出了一种基于维纳滤波器嵌入的JPEG图像动态增强算法。计算压缩图像的嵌入容量,在嵌入容量限制下,根据目标图像动态地计算最优的维纳滤波器对称性、精度等参数并将参数嵌入JPEG压缩图像中,并对解码图像使用提取的维纳滤波器进行滤波增强,获得与原图像接近的解压缩图像。实验结果表明,该算法可单独增强JPEG压缩图像的质量,同时可基于其他图像后处
真实SAR图像在去斑过程中易存在过平滑现象,针对此问题提出了一种对图像预矫正后再进行去斑处理的方法。对含斑图像作小波分解,以多尺度局部变差系数作为异质性测度,提出一种
在图像去噪声处理中,高阶马尔可夫随机场通过最小化能量函数达到最优的去噪声结果。为了提高能量函数的优化性能,在马尔可夫随机场子模型的基础上对原始问题和对偶问题进行了分析,提出了一种基于原始-对偶方法的子模块之和方法。描述了马尔可夫随机场的线性规划及其对偶问题,并介绍了子模块之和流方法。通过对子模块之和流方法的原始问题和对偶问题进行分析,提出了同时满足派系松弛和一元松弛条件的近似解计算方法。实验表明,
雾或霾等天气会降低场景的能见度,给机器视觉的后续处理造成影响。针对图像雾霾退化的恢复及现有基于马尔可夫随机场图像去雾算法的缺陷,提出了一种新的基于马尔可夫随机场和暗
给出了对解决图像匹配问题的一种新尝试,即基于改进并行粒子群算法的彩色图像匹配。提出和建立对彩色图像匹配问题的匹配策略和数学模型,应用改进并行粒子群算法(基于.NET任务并