论文部分内容阅读
音乐分类作为音乐信息检索(Music Information Retrieval,MIR)领域的一个重要分支,常用于音乐检索和音乐推荐。现有的音乐分类方法从音乐的流派、感情、乐器、艺术家和标注五个角度进行分类。但是这些分类方法都过于局限,它们将音乐的类别限制在了一个固定的范围内,导致用户无法根据音乐的细节信息进行音乐检索。针对音乐分类类别固定、搜索内容过于局限的问题,本文提出了一种基于用户评论的自动化音乐分类方法。此方法不再局限于已有的音乐类别,可以得到更为多样化的分类结果,为用户提供更个性化的检索体验。该方法的出发点为用户对音乐的评论描述更为深入,这些详细的描述对音乐的分类有重要的参考价值。本文的主要工作如下:1)首先利用线性链条件随机场(linear Conditional Random Field,linear CRF)模型识别专业名词。然后使用N元词串提取和紧密度分析方法,利用种子生成的思想得到适合音乐语料分词的字典。此混合方法能获取较为准确和丰富的字典,降低基于统计的分词模型对标注语料的需求。2)使用linearCRF和上述的音乐字典进行分词。接着使用基于词汇紧密度分析的分合测试评估分词结果。接着使用MMSEG(Max Matching Segmentation)模型进行分词修正,使得修正后的分词结果拥有较高的准确率。3)对比多个关键词提取算法,选择TFIDF(Term Frequency-Inverse Document Frequency)算法并优化,削弱了词频在提取过程中的影响,提高了候选标签的准确性。然后再从全局角度对候选标签进行过滤,得到音乐的关联标签。4)建立音乐的多标签概率分类模型,对音乐进行分类。5)尝试对音乐标签按相似程度进行聚类,减小对音乐分类模型的影响。实验结果表明,该音乐分类方法准确率较高,可以无监督地获取音乐多个维度的标签,为个性化的音乐检索提供了保障。