【摘 要】
:
我们在中文Web文本挖掘的背景下,研究了用SVM进行特征抽取、用虚样本引入先验知识以及增量学习等关键问题,取得了一定的成果.主要工作包括:第一,对比了6种常用特征抽取方法在
论文部分内容阅读
我们在中文Web文本挖掘的背景下,研究了用SVM进行特征抽取、用虚样本引入先验知识以及增量学习等关键问题,取得了一定的成果.主要工作包括:第一,对比了6种常用特征抽取方法在中文Web文本挖掘中的性能,并研究了如何用SVM方法来进行特征抽取,取得了比常规方法更好的实验结果.第二,对于类别分布不均匀的文本集的分类问题,我们提出采用人工生成虚样本的方法引入先验知识,这一方面可以减少对已标记文本的需求,另一方面,如果在学习过程中引入了有助于学习的先验知识,将直接有助于提高整个系统的泛化能力,减少过量匹配的发生,最终提高学习的精度.实验结果表明,我们的方法是比较有效的.第三,通过概括支持向量集的特点及其在增量学习过程中的变化,我们分析比较了几种现有的SVM增量学习方法,并对它们在中文网页分类器中的性能进行了对比.第四,研究了一种基于模糊隶属关系预抽取训练样本的方法,得出的结论是这种方法不仅相对简单,而且在保证分类器性能的情况下,可以允许我们适当地选择训练样本,减少支持向量,从而提高SVM的训练和测试速度.第五,Web文本挖掘系统的开发对Web文本挖掘的研究有着很大的推进作用,而基于中文的Web文本挖掘系统还处在研究之中.第六,作为课题之外的工作,我们还研究了SVM在CDMA通信系统中多用户检测问题上的应用.实验结果表明,基于SVM的多用户检测算法误码率性能要优于线性最小均方误差(MMSE)算法.
其他文献
近年来,宽带无线通信技术和应用得到了迅猛的发展。人们对无线数据和多媒体业务的需求,促进了用于高速宽带无线通信的新技术的发展和应用。多输入多输出(MIMO)技术和正交频分复
磁共振成像(MRI)是近年来最令人瞩目的医学影像技术之一。MRI由于其对人体无辐射损伤,多参数成像,任意截面成像,软组织分辨率高等优点,在临床上得到了越来越广泛的应用。然而
本文研究了无线视频编码算法,主要研究精细分级编码(FGS)算法。通过对MPEG-4标准下各种算法的分析和研究,并结合最近的H.264标准下的研究现状及其由J.Ascenso,F.Pereira等人在H.
无线信息理论安全是近年来无线通信领域的研究热点,其中物理层安全得到了广泛关注。安全容量存在概率是衡量无线通信物理层安全的关键参数。本文基于协作通信模型和窃听信道
AdHoc网络是一种无中心对等网络,具有自组织、快速展开和移动等特点。在无线AdHoc网络中,所有用户共享无线信道进行数据传输,由于用户接入信道的随机性,以及数据的传输需要一定的
随着通信数字信号处理和大规模集成电路技术的飞速发展,人们对语音通信(如视频会议系统和免提电话等系统)质量的要求越来越高。回波消除和语音增强技术成为世界各大通信公司竞
多输入多输出(MIMO)技术是未来宽带无线移动通信系统实现高数据速率、提高传输质量的主要技术手段之一。本文对MIMO系统中的空时分层检测技术以及MIMO技术与OFDM的结合进行了
视频流是多媒体系统与应用的难点之一,它对于网络带宽、传输延迟、抖动都有着严格的限制。随着计算机技术、压缩技术和高速网络的发展,通过Internet提供实时视频服务获得了广泛
得益于计算机技术和平板显示技术的进步,立体显示技术在过去的十年中得到长足的发展,并且广泛应用于电视、电影、游戏等领域。立体显示所使用的节目源是由多个视点的图像或视
本文重点研究了MB-OFDM-UWB的系统结构和多址接入方式。根据多带OFDM-UWB通信系统的特点,提出了一种基于两级扩频调制的系统结构和OFDMA多址接入方式,其中第一级采用直接序列扩