社会标签的规范控制及其应用研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:jealy0717
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会标签类似于传统信息资源组织中的关键词或元数据,它产生于网络环境,创建于大众用户,其中蕴含了丰富的语义信息,将其运用到文本的自动分类中具有一定的现实意义,然而,由于社会标签在被添加时的过度自由与随意,使得社会标签的质量良莠不齐,如标签缺乏语义层次,标签的同义、近义关系频现,标签词间关系不明确等,这些问题都有可能对基于社会标签的中文图书的自动分类应用带来消极影响。因此本文旨在对中文图书标签的特征分析的基础上,提出一种“内核受控,外壳非控”的分类模式,即通过建立“社会标签一主题词”的概念空间模型,实现利用主题词对社会标签的规范控制,并通过实验验证了该方法的合理性和可行性。本文具体的工作内容主要有以下4点:(1)对社会标签及其相关知识的研究现状进行总结,并详细论述有关社会标签规范控制的国内外研究进展,以及社会标签的具体应用研究动态等。(2)对中文图书的社会标签的特征进行分析,通过对图书标签的词长分布、使用量分布、词频分布、以及收词量、平均词长、类平均标引深度等指标的表现,证明中文图书标签具有一般自然语言所具有的特点,为将自然语言的分析处理方法应用到社会标签中的可行性提供了理论依据,同时也提出可以采取建立“社会标签—主题词”概念空间模型的方法实现对社会标签的质量控制。(3)根据中文图书标签的特点,引入概念空间的思想,利用基于统计的关联算法建立中文图书的“社会标签—主题词”的概念空间模型,从而实现了利用主题词对中文图书的社会标签进行规范控制的目的。(4)根据情报语言学原理提出了基于概念空间的“内核受控,外壳非控”的中文图书社会标签分类模式,即通过标签系统的后台控制,达到对社会标签的规范控制,从而实现基于社会标签的中文图书的自动分类。本文的创新点主要有以下2个方面:(1)通过对中文图书社会标签特点的调查分析,证实了社会标签具有自然语言的特点,为将自然语言的分析处理方法应用到社会标签中的可行性提供了理论依据,从而引入概念空间控制方法,建立中文图书的“社会标签—主题词” 概念空间模型,实现对社会标签的规范控制。(2)本文提出面向中文图书社会标签的“内核受控,外壳非控”的分类模式,实现了标签系统内部控制标签质量,外部保留用户操作习惯的文本分类思想。
其他文献
英语词汇学作为英语专业的一门选修课,具有较强的理论性及实践性特点,这就需要在教学中将"教"与"学"有机结合起来。"一语实践"及"二语拓展"的教学模式即是在该课程教学改革背
本文运用行为学理论,通过对商业广场的特征及人们行为活动的分析,提出符合行为活动的商业广场设计应突出合理的组织交通、适宜的尺度规模、良好的视觉功能、优美的绿化环境、
现代社会,随着行政权力的不断扩张,政府职能广泛而深刻地影响着人们生活的方方面面。传统的民主监督方式日益显现出它的局限性。与此同时,随着知识经济和信息时代的来临,信息成了
马克思从追求人的自由出发,通过对封建专制制度的批判把民主同自由联系起来,提出要过渡到自由的民主的人类世界;通过对资本主义政治民主的扬弃,提出真正民主制的理想;通过社
从法理上论证中小企业应收帐款质押融资的可行性,提出认定核心客户、适格应收帐款和授信总量等融资要素的原则、标准和方法,分析可能存在的法律风险、信用风险和操作风险,并
学科服务是以用户为中心,以学科馆员为服务主体,以知识服务为手段,借助一定的技术工具,以用户为导向,提供专业化的服务。学科馆员为学科专家提供学科资源主要基于专业数据库,
在汽车新产品的感知质量开发过程中,高效地评审验证问题非常重要,现有的评审手段无法满足客户要求。将虚拟渲染软件VRED引入感知质量评审,感知质量团队在此基础上开发了完整
将小鼠凝血因子Ⅸ (mFⅨ )cDNA蛋白编码区序列克隆至原核表达载体 pQE30 ,在大肠杆菌M 15中获得高效表达 (约占细菌蛋白总量的 5 1 2 % ) ,并经过SDS PAGE纯化获得均一的重组
对具体研发组织环境下一个职能部门业务的现状调查、主要存在问题原因分析,并针对问题根源运用项目管理的思想、理论进行管理改善。通过此管理实践工作总结一些有益的建议和