论文部分内容阅读
基本词汇是词汇的核心,也是各项语言研究的基础。自从基本词汇这一概念被提出,国内学者掀起了一股研究基本词汇的热潮。经过半个世纪的研究,已经取得了相当大的成绩,提出汉语基本词汇的多种鉴定方法,为我们综合考虑基本词汇的三大特征提供可借鉴的方法。遗传算法是生命科学与工程科学的相互交叉、相互渗透和相互作用而成的新的计算方法。它不仅具有自组织、自适应、和自学习性的智能特性,而且还具有内在的本质并行特性。算法通过适应度来评估个体的优劣。经过三十多年的研究、应用,遗传算法已成为非线性优化和系统辨识的一个有效工具。被广泛的应用于函数优化、组合优化、生产调度、自动控制、机器学习、图象处理、人工生命、机器学习等领域。在自然语言处理方面,遗传算法也受到重视,应用于信息提取、文本分类、文本聚类、数据挖掘、自动生成知识库,手写体字符识别等并取得了很好的效果。实践证明,遗传算法作为现代最优化的手段,它应用于大规模、复杂空间领域离散值情况下的全局最优化问题是合适的。在求解速度和质量上远超过常规方法,是一高速近似算法。汉语基本词汇提取是自学习的过程。首先,利用遗传算法分析语言学家列举的基本词汇的三大特征,从中学习并总结出这些词语遵循的规律。然后,根据获得的规律在“工程现代汉语通用词”词表的基础上进行计算。文中详细的叙述了遗传算法的操作过程。