论文部分内容阅读
针对以词元作为观察集的隐马尔科夫模型的不足,利用词元的结构特征对词元进行归类,提出基于符号特征的隐马尔科夫模型。该模型中的每个状态均用若干符号特征进行表达,并用正则表达式和利用文本推断得出的特征列表对符号特征加以描述。在此基础上利用Veterbi算法对科研人员个人主页中的科研信息进行提取试验,在较高信息冗余度的情况下,获得了较好的效果。