虚拟问答社区的代表性问答提取研究

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:xunzhaogancao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在web2.0技术快速发展的时代,诸如Yahoo!Answers、百度知道、知乎等问答社区网站每天发布数以万计的问题以及有些问题拥有成百上千条回答,海量的问题和答案信息造成了社区信息严重超载、冗余问题,阻碍了社区知识共享,因此本文提出了代表性问题和代表性答案提取的方法,分别对问题和答案进行代表性子集提取,通过这些提取的代表性问题或答案子集能方便用户快速获得完整全面的问题或答案信息。本文首先采用了 LDA文本处理算法对原始问题数据集建模,接着以代表性问题提取数量作为聚类个数进行k-means聚类,然后从每个类中提取一个代表问题形成候选子集,以覆盖度和冗余度的和差最大作为目标函数构建优化模型寻找最优代表性问题子集。针对代表性答案提取方法,首先基于LDA和k-means聚类获得答案的候选代表性子集,接着以覆盖度、冗余度以及答案“点赞数”的和差作为目标函数构建优化模型寻找最优代表性子集。为了验证本文提出的代表性问题和代表性答案提取方法的有效性,以“知乎”社区作为数据来源,以“雾霾”等突发事件话题下的问题和答案作为实验数据,将本文提出的方法与四种基准方法进行了对比实验。实验结果表明,本文提出的代表性问题和代表性答案提取方法所提取的代表性子集在覆盖度和冗余度两个指标方面都优于其他四种基准方法。
其他文献
全球化经济趋势的增强,打破仅局限于一国之内的市场交易活动,各国之间贸易往来频繁,标准必要专利引发的诉讼频发。各国法院在审理标准必要专利纠纷时通常需要对双方行为是否违反FRAND承诺进行认定。我国在有关违反FRAND承诺的认定方面亦不断完善,但各国法院对违反FRAND承诺的认定尚未形成统一标准,增加了FRAND承诺的不确定性。本文选取近几年涉及FRAND承诺认定具有代表性的案例,对公平、合理、无歧视
在湖北省西南部的武陵山区是土家族的聚居地,千百年来这群自称为“毕兹卡”的土家人生活繁衍在这片土地上。土家族的文化也在漫长的历史时空中慢慢产生并逐渐发展繁茂,但又在
随着生活节奏和环境的不断变化,具有高发病率和高死亡率的乳腺癌已经成为最常见的癌症类型,正在严重威胁女性的生理健康和生命安全。由于乳腺癌发病机理的不确定性使乳腺癌在
本文利用结构化研究方法,对于舞蹈软件的发展趋势进行系统的分析研究。通过梳理舞蹈软件的过去与当前状态,本文对于舞蹈软件50余年的发展趋势进行了总结。并从中归纳提取出对
舒曼作为浪漫派音乐的代表人物,被称为“音乐诗人”。受到浪漫主义文学的影响,他的音乐也极具浪漫主义色彩,追求理想、充满幻想、注重情感的表达,将诗意融入到音乐创作之中。
随着工业和科技的不断发展,全球变暖的脚步逐渐加快。这对生态环境十分脆弱的北极地区造成了剧烈的影响,其导致冰雪融化进而引起海平面的上升,北冰洋深处的海冰融化削减了北极航道船舶通行的季节性限制,这给北极航道的大面积通行提供了可能。但与此同时,人类对北极地区资源的开发和北极航道大规模航行则会导致北极航道水域环境污染的风险大大增加。由于北极地区其特殊的地理位置导致其海水的自洁能力远低于其他海域,所以在船舶
随着社会经济的发展和工业化的进步,金属零件产品已经广泛运用于国民经济的各个行业。为满足科技和生产的需求,金属零件正向着形状特殊、结构复杂的异型零件方向发展。异型金
随着移动通信技术的飞速发展,多种新型无线接入技术(Radio Access Technology,RAT)和新型业务种类不断涌现。因此在同一热点区域内有较大的可能同时存在多种无线网络覆盖的情况,例如第五代移动通信(The Fifth Generation Communications,5G)、4G和3G同时覆盖。因此,下一代通信系统应该是能够有机地将现有和未来的各种无线接入网络融合在一起的异构无线
知识经济的发展导致复杂科研课题越来越多,复杂的科研课题很难通过单一学科来解决,常常需要具有不同专业背景的跨学科团队来完成。高校学科之间的综合与交叉也造就了跨学科团
学位