基于支持向量机的Web文本挖掘技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：zj1280

【摘要】

：

我们在中文Web文本挖掘的背景下,研究了用SVM进行特征抽取、用虚样本引入先验知识以及增量学习等关键问题,取得了一定的成果.主要工作包括:第一,对比了6种常用特征抽取方法在

【作者】

：

王翔英

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2004年期

【关键词】

：

支持向量机 Web挖掘文本挖掘网页分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

我们在中文Web文本挖掘的背景下,研究了用SVM进行特征抽取、用虚样本引入先验知识以及增量学习等关键问题,取得了一定的成果.主要工作包括:第一,对比了6种常用特征抽取方法在中文Web文本挖掘中的性能,并研究了如何用SVM方法来进行特征抽取,取得了比常规方法更好的实验结果.第二,对于类别分布不均匀的文本集的分类问题,我们提出采用人工生成虚样本的方法引入先验知识,这一方面可以减少对已标记文本的需求,另一方面,如果在学习过程中引入了有助于学习的先验知识,将直接有助于提高整个系统的泛化能力,减少过量匹配的发生,最终提高学习的精度.实验结果表明,我们的方法是比较有效的.第三,通过概括支持向量集的特点及其在增量学习过程中的变化,我们分析比较了几种现有的SVM增量学习方法,并对它们在中文网页分类器中的性能进行了对比.第四,研究了一种基于模糊隶属关系预抽取训练样本的方法,得出的结论是这种方法不仅相对简单,而且在保证分类器性能的情况下,可以允许我们适当地选择训练样本,减少支持向量,从而提高SVM的训练和测试速度.第五,Web文本挖掘系统的开发对Web文本挖掘的研究有着很大的推进作用,而基于中文的Web文本挖掘系统还处在研究之中.第六,作为课题之外的工作,我们还研究了SVM在CDMA通信系统中多用户检测问题上的应用.实验结果表明,基于SVM的多用户检测算法误码率性能要优于线性最小均方误差(MMSE)算法.

其他文献

基于IEEE 802.16e的MIMO OFDM系统同步技术的研究

近年来，宽带无线通信技术和应用得到了迅猛的发展。人们对无线数据和多媒体业务的需求，促进了用于高速宽带无线通信的新技术的发展和应用。多输入多输出(MIMO)技术和正交频分复

学位

宽带无线通信技术多输入多输出正交频分复用多径衰落频偏估计帧同步

基于全相位FFT的MRI图像重建新方法

磁共振成像(MRI)是近年来最令人瞩目的医学影像技术之一。MRI由于其对人体无辐射损伤,多参数成像,任意截面成像,软组织分辨率高等优点,在临床上得到了越来越广泛的应用。然而

学位

MRI全相位FFTK空间Gibbs效应

无线通信中视频编码算法的研究

本文研究了无线视频编码算法，主要研究精细分级编码(FGS)算法。通过对MPEG-4标准下各种算法的分析和研究，并结合最近的H.264标准下的研究现状及其由J.Ascenso，F.Pereira等人在H.

学位

无线通信视频编码分级编码差错漂移编码算法

解码转发中继的行为对无线通信物理层安全的影响

无线信息理论安全是近年来无线通信领域的研究热点,其中物理层安全得到了广泛关注。安全容量存在概率是衡量无线通信物理层安全的关键参数。本文基于协作通信模型和窃听信道

学位

无线信息理论安全物理层安全安全容量GNU Radio中继行为

基于多包接收的无线自组网MAC协议设计

AdHoc网络是一种无中心对等网络，具有自组织、快速展开和移动等特点。在无线AdHoc网络中，所有用户共享无线信道进行数据传输，由于用户接入信道的随机性，以及数据的传输需要一定的

学位

Ad Hoc网络媒体接入控制多包接收MAC协议

基于DSP的会议电话语音改善技术的研究与实现

随着通信数字信号处理和大规模集成电路技术的飞速发展，人们对语音通信(如视频会议系统和免提电话等系统)质量的要求越来越高。回波消除和语音增强技术成为世界各大通信公司竞

学位

回波抵消自适应滤波双端检测LMS算法NLMS算法RLS算法波束成形麦克风阵列

宽带无线通信MIMO系统中信号分层检测技术的研究

多输入多输出(MIMO)技术是未来宽带无线移动通信系统实现高数据速率、提高传输质量的主要技术手段之一。本文对MIMO系统中的空时分层检测技术以及MIMO技术与OFDM的结合进行了

学位

噪声检测理论MIMO系统信道模型BLAST检测码间串扰误码扩散MIMO-OFDM系统MIMO-OFDM分层检测

Internet视频流的端到端传输与编码技术的研究

视频流是多媒体系统与应用的难点之一，它对于网络带宽、传输延迟、抖动都有着严格的限制。随着计算机技术、压缩技术和高速网络的发展，通过Internet提供实时视频服务获得了广泛

学位

视频流实时传输拥塞控制差错保护反馈拥塞控制Internet

立体显示系统中图像校正技术的研究

得益于计算机技术和平板显示技术的进步,立体显示技术在过去的十年中得到长足的发展,并且广泛应用于电视、电影、游戏等领域。立体显示所使用的节目源是由多个视点的图像或视

学位

立体显示两视点校正多视点欧几里得图像畸变

基于OFDM的超宽带接收技术研究

本文重点研究了MB-OFDM-UWB的系统结构和多址接入方式。根据多带OFDM-UWB通信系统的特点，提出了一种基于两级扩频调制的系统结构和OFDMA多址接入方式，其中第一级采用直接序列扩

学位

超宽带接收正交频分复用多址接入时频编码

基于支持向量机的Web文本挖掘技术研究

其他学术论文