基于隐含狄利克雷分布的多语种文本的自动检测研究

来源 :中国海洋大学学报:自然科学版 | 被引量 : 0次 | 上传用户:keximi9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出无监督的基于隐含狄利克雷分布(LDA)的潜在语义模型来处理多语种混合文本的语种鉴别问题。区别于一般的依据困惑度对模型进行筛选的方法,本文介绍一种基于最小描述长度(MDL)的新方法,用collapsed Gibbs Sampling(CGS)学习算法来训练得到相应的LDA模型。本文采用mitlm工具包生成N-gram计数文件并构建了用于多语种识别的字符级语言模型。之后本文使用了3种不同的语种鉴别系统与LDA模型做对比实验。实验选取ECI/MCI标准数据库中9种欧洲系语言进行鉴别实验,在没有任何标注的
其他文献
高效集成、施工装配化的装配式建筑与BIM技术信息协同高度匹配,体现了建筑一体化建造的思路。EPC模式下,基于BIM技术的装配式一体化、信息化优势得到进一步凸显。通过分析EPC
从诸葛亮的《隆中对》开始,甘肃地区在蜀汉的北伐战略中一直占有重要地位.蜀汉失去荆州后,只能从西北一路出兵北伐,甘肃地区的重要性日益增加.蜀汉若能获得甘肃地区,不但能得
哈贝马斯的交往行为理论对高校实验教学具有十分重要的指导意义。本文在分析ERP实验的特点的基础上,提出应根据哈贝马斯的交往理论着手ERP实验平台的建设、实验内容的设计和
WHO 2015年全球结核报告显示,结核病在全球范围仍然是最严重的公共卫生威胁,2014年结核病在全世界范围内夺去了150万人的生命。我国结核病疫情严重,在2014年估算中国结核病死
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
SCL即以学生为中心的教学理念,它的特征是以学生的发展为中心、以学生的学习为中心、以学生的学习效果为中心。SCL在高等教育教学改革中是顺应社会时代发展的结果。本文主要
当代教育家叶圣陶曾明确指出:“什么是教育?一句话,就是要养成良好的学习习惯。”俄国著名教育家乌申斯基说:“良好的习惯乃是人在其神经系统中存放的资本,这个资本不断地在
现阶段,高速公路机电设备一般是人工+电脑共同完成的,这种管理方式尽管在一定程度上已经能够降低管理成本,提高管理效率,但是仍然存在机器老化、资源投入多等问题。基于此,本
低压(380/220 V)配电线路的保护主要包括过负荷和短路保护,断路器是低压配电线路保护的常用设备,其脱扣器的设置既要考虑线路末端故障的灵敏性又要考虑保护上下级配合的选择