基于词典法和机器学习法相结合的蛋白质名识别

来源 :计算机与应用化学 | 被引量 : 0次 | 上传用户:xujc8639
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物实体名识别对生物医学文献的信息抽取有重要的意义。本文针对如何识别蛋白质名进行了有益的尝试,主要采用了基于词典的方法,其中运用了近似搭配算法和首词查询的方法进行蛋白质名识别,同时结合机器学习方法训练了一个分类器来过滤候选词以提高识别的准确率。 Identification of biological entities is of great significance to the information extraction of biomedical literature. In this paper, a useful attempt is made to identify protein names. The lexicon-based method is mainly used to identify protein names by using the collocation algorithm and the first word query, and a classifier is trained in combination with the machine learning method to filter the candidate Words to improve the recognition accuracy.
其他文献
河北平原地区是全国最缺水的地区之一,并且年降水量不断减少,水资源的亏缺已成为河北平原农业高效持续发展的重要限制性因素。水资源不足限制了该地区的农业生产,施肥不合理是制约水分潜力发挥的主要原因之一。在一定条件下,施肥可以大幅度提高作物的水分利用效率,因此农业中水分和养分的关系问题当前农业的研究热点。水肥耦合是争取作物高产优质高效的必由之路。因地制宜调节水分和肥料,使水肥产生协同作用,达到“以水促肥”
在我国经济发展转型的关键时期,“十三五”阶段我国将加强新农村建设,不断改善农村条件,吸引农村人口在家就近就业。旧村改造项目是新农村建设项目的重点项目之一,旧村改造项目能