论文部分内容阅读
服装的流行反映了特定时期内大众对服装的审美倾向和服装产业的文化面貌。对于流行趋势的分析和预测可以在引导消费者追逐时尚、个性的同时提升服装品牌的含金量,所以针对流行的研究和分析历来是时尚产业的焦点。与此同时,伴随着服装电子商务网购平台的不断发展,海量的商品数据涌入。服装商品品类繁多,不论是从款式、季节、年龄、价格、风格、元素等维度来描述服装商品,这一过程都会产生数以亿计的数据。这些数据中蕴含着大量与流行相关的信息,其中就包括对流行进行语义化表示的流行语素。因此,针对服装流行语素的抽取方法与流程研究是极具意义的。
服装流行语素的抽取问题可以分为三个子问题,分别是服装语素抽取问题、服装语素间关系整合问题和服装流行语素识别问题。其中,服装语素抽取指的是从半结构化、非结构化的原始语料中识别并抽取出特定的服装语素。尽管自然语言处理中的命名实体识别为这一过程提供了解决思路,但现有的通用命名实体识别方法在面向服装特定领域时效果不佳;服装语素间关系整合指的是为了实现语素间的比较而进行的语素间关系量化建模和整合,其中包括文本相似度计算和语素间关系整合等问题;而服装流行语素识别指的是对抽取到的服装语素进行流行性量化建模和分析,其中包括流行性特征选取和指标计算等问题。
针对服装语素抽取问题,本文基于条件随机场模型构建了服装语素抽取模型。其中,为了解决通用的命名实体识别方法在特定领域的适用性问题,本文构建了面向服装领域的标注体系,并构建了适用于服装语料的特征模板,最终实现了面向服装特定领域的命名实体识别并建立了实体词库。实验结果表明本文的方法相较于传统的通用方法提升了命名实体识别的效果。
针对服装语素间关系整合问题,本文基于词向量构建了服装语义模型。其中,为了解决语素间关系的量化问题,本文首先引入了词向量的概念,并利用Word2Vec框架对服装语料进行训练,最终得到服装领域词向量分布。为了解决语素间关系的整合问题,在基于词向量进行实体词相似度计算之后,本文建立了服装语义网络模型,并将服装语义网络模型应用于文本相似度计算和命名实体识别的进一步改进中,实验结果表明本文构建的服装语义网络模型对命名实体识别效果有略微提升。
针对服装流行语素识别问题,本文构建了服装流行语素识别模型并进行了统计分析和指标计算。其中,为了解决流行性特征的选取问题,本文基于层次聚类和k-means聚类的服装品类跨度分析结果定义了流行深度特征,基于服装商品销量定义了流行广度特征,随后进行了流行指数建模并计算。最终的计算结果以词云的形式呈现。不仅如此,本文还结合时间维度进行了简单的流行性趋势分析,并为未来的研究指明了可能的方向。
服装流行语素的抽取问题可以分为三个子问题,分别是服装语素抽取问题、服装语素间关系整合问题和服装流行语素识别问题。其中,服装语素抽取指的是从半结构化、非结构化的原始语料中识别并抽取出特定的服装语素。尽管自然语言处理中的命名实体识别为这一过程提供了解决思路,但现有的通用命名实体识别方法在面向服装特定领域时效果不佳;服装语素间关系整合指的是为了实现语素间的比较而进行的语素间关系量化建模和整合,其中包括文本相似度计算和语素间关系整合等问题;而服装流行语素识别指的是对抽取到的服装语素进行流行性量化建模和分析,其中包括流行性特征选取和指标计算等问题。
针对服装语素抽取问题,本文基于条件随机场模型构建了服装语素抽取模型。其中,为了解决通用的命名实体识别方法在特定领域的适用性问题,本文构建了面向服装领域的标注体系,并构建了适用于服装语料的特征模板,最终实现了面向服装特定领域的命名实体识别并建立了实体词库。实验结果表明本文的方法相较于传统的通用方法提升了命名实体识别的效果。
针对服装语素间关系整合问题,本文基于词向量构建了服装语义模型。其中,为了解决语素间关系的量化问题,本文首先引入了词向量的概念,并利用Word2Vec框架对服装语料进行训练,最终得到服装领域词向量分布。为了解决语素间关系的整合问题,在基于词向量进行实体词相似度计算之后,本文建立了服装语义网络模型,并将服装语义网络模型应用于文本相似度计算和命名实体识别的进一步改进中,实验结果表明本文构建的服装语义网络模型对命名实体识别效果有略微提升。
针对服装流行语素识别问题,本文构建了服装流行语素识别模型并进行了统计分析和指标计算。其中,为了解决流行性特征的选取问题,本文基于层次聚类和k-means聚类的服装品类跨度分析结果定义了流行深度特征,基于服装商品销量定义了流行广度特征,随后进行了流行指数建模并计算。最终的计算结果以词云的形式呈现。不仅如此,本文还结合时间维度进行了简单的流行性趋势分析,并为未来的研究指明了可能的方向。