论文部分内容阅读
在将来,你可以对搜索引擎提问,它会变成一个无所不知的老师,给你准确的答案;而现在的搜索引擎只是一本百科全书式的词典——想知道答案,自己去词海里折腾吧!
未来的某天,你在大众搜索引擎(指Baidu、Google一类的搜索引擎)的对话框中,输入这样的句子:“福克斯三厢的真实耗油量是多少?”然后搜索引擎给出的答案是:到2013年6月17日17:56分为止,根据网上2010位福克斯三厢车主提供的数据显示,福克斯三厢平均的油耗是12升……
而现在,你得到是一大堆和你提出一样问题的网页,或者官方给出的数据,你需要一页页去翻答案,然后自己得出一个可能接近真相的答案。
当电脑像人脑一样思考
能让搜索引擎从词典变身成为老师需要的技术便是“自然语言处理技术”,语义搜索(运用自然语言处理技术来进行搜索的简称,以下皆称为“语义搜索”),是指搜索引擎的工作不再拘泥于用户所输入请求关键词的字符串本身,而是透过输入关键词理解用户对信息需求的本质,准确地捕捉到用户所输入语句后面的真正意图和期望,并以此来进行搜索,从而更准确地向用户返回最符合其需求的查询结果。问天(北京)信息技术有限公司总经理王震这样向记者解释,“语义搜索是分析自然语言输入的查询和网页内容,提取其中的深层次的信息。比如,我输入‘12万元买什么车性价比最好,使用最经济?’那么,语义搜索首先需要分析出我想问的其实是‘价格在12万元左右的所有车型中,哪些性价比的口碑比较好,并且后期使用和保养成本又比较低’;其次,语义搜索再去搜索互联网上的相关信息,从大量车主、媒体等对此发表的言论中选出几款车型,最后把这几款车型的名字及对应的价格和使用保养成本排序后反馈给我。”
随着自然语言处理技术的发展,现在计算机可以分析出句子的主谓宾等句法成分,还可以分析出提及的事情、谁发出的动作等;而语义搜索,便是在自然语言处理技术上,进一步将一套知识库、知识体系,从多个维度将一件事情联系起来。
这便是传说中的“人工智能”了——建立一套模型,这套模型模拟人脑的思维方式进行运算,所谓“人的思维”方式便是指:根据信息进行联想、假设、甄别、推理……最后得出结论;而目前搜索引擎运用的是“机器思维”——用关键词将海量的网页建立索引,分析网页之间的链接关系,然后按照查询与页面的相关度和链接之间的关系对页面排序。目前Baidu和Google主要都是运用的基于关键词分析的第二代搜索引擎技术。
“人肉搜索”将更无敌
纵观目前广为人知的“人肉案例”,都会发现基本的信息提纯是一项劳动量巨大的体力活。比如在前面展示的“虐猫门”中,老姜们用虐猫者的一个ID搜索了大量网页之后分析出另几个ID也是他的,并通过ID确定了虐猫者所居住的楼盘,而如果有一套针对这个目的的语义搜索模型建立起来,那么,这些工作在几秒钟内就可以解决。
王震所任职的问天(北京)信息技术有限公司便是提供这种服务的企业——为特定机构的特定目的开发搜索软件,提供专业的、付费的搜索服务。比如某家汽车生产商想知道某款车型据用户反映都有哪些问题,该厂家如果采用传统的搜索方式,需要把互联网上提到他们车型的所有报道、帖子、发言都全部看完;而如果定制了语义搜索服务,他们直接便可得到想要的答案:第一,本周有2009个用户反映车内空间不够,占讨论空间车主总数的86%;第二,有3067个用户嫌耗油量大……当然,他们得到的用户反馈信息仅限于互联网上已有的信息。
但在这样的搜索背后无疑是一套定制的运算模型,所以,目前只有专业的公司能提供此类搜索服务。Baidu在去年推出的“框计算应用”概念便是语义搜索的初级运用。现在,在Baidu上查询“北京今天的天气如何”时,搜索结果不仅仅是基于这几个词的字面返回结果,而是直接反馈出北京天气预报的情况。但,由于技术还不成熟,目前的运用极为有限,更多还是停留在研究探索阶段。王震认为,虽然理论上,这项技术可以被运用到大众搜索引擎上,但由于要针对各个领域的各种问题都建立运算模型,在短期内是很难实现的,只能在某些特定领域应用。
不管你热不热衷于互联网技术,最近,有个词可能频频出现在你眼前——云计算,这项像云一样飘渺、飞在天上的技术是什么呢?简单说来就是,所有的计算不需要在本地(指你的个人电脑)完成。而是集中到一个巨大的服务器集群上。你的电脑不再需要装那么多软件,不需要储存那么多文档电影音乐,一切,都通过网络交给某个服务商代劳。目前大热的iPad就是此服务的先锋。
网络巨头Google此刻正大力推广这些“云”,将来有天,你的一切资料,当然包括个人信息,都将以0和1的方式储存在互联网上。到那时,语义搜索应该也已经发展完善了,我们能怎么办?
未来的某天,你在大众搜索引擎(指Baidu、Google一类的搜索引擎)的对话框中,输入这样的句子:“福克斯三厢的真实耗油量是多少?”然后搜索引擎给出的答案是:到2013年6月17日17:56分为止,根据网上2010位福克斯三厢车主提供的数据显示,福克斯三厢平均的油耗是12升……
而现在,你得到是一大堆和你提出一样问题的网页,或者官方给出的数据,你需要一页页去翻答案,然后自己得出一个可能接近真相的答案。
当电脑像人脑一样思考
能让搜索引擎从词典变身成为老师需要的技术便是“自然语言处理技术”,语义搜索(运用自然语言处理技术来进行搜索的简称,以下皆称为“语义搜索”),是指搜索引擎的工作不再拘泥于用户所输入请求关键词的字符串本身,而是透过输入关键词理解用户对信息需求的本质,准确地捕捉到用户所输入语句后面的真正意图和期望,并以此来进行搜索,从而更准确地向用户返回最符合其需求的查询结果。问天(北京)信息技术有限公司总经理王震这样向记者解释,“语义搜索是分析自然语言输入的查询和网页内容,提取其中的深层次的信息。比如,我输入‘12万元买什么车性价比最好,使用最经济?’那么,语义搜索首先需要分析出我想问的其实是‘价格在12万元左右的所有车型中,哪些性价比的口碑比较好,并且后期使用和保养成本又比较低’;其次,语义搜索再去搜索互联网上的相关信息,从大量车主、媒体等对此发表的言论中选出几款车型,最后把这几款车型的名字及对应的价格和使用保养成本排序后反馈给我。”
随着自然语言处理技术的发展,现在计算机可以分析出句子的主谓宾等句法成分,还可以分析出提及的事情、谁发出的动作等;而语义搜索,便是在自然语言处理技术上,进一步将一套知识库、知识体系,从多个维度将一件事情联系起来。
这便是传说中的“人工智能”了——建立一套模型,这套模型模拟人脑的思维方式进行运算,所谓“人的思维”方式便是指:根据信息进行联想、假设、甄别、推理……最后得出结论;而目前搜索引擎运用的是“机器思维”——用关键词将海量的网页建立索引,分析网页之间的链接关系,然后按照查询与页面的相关度和链接之间的关系对页面排序。目前Baidu和Google主要都是运用的基于关键词分析的第二代搜索引擎技术。
“人肉搜索”将更无敌
纵观目前广为人知的“人肉案例”,都会发现基本的信息提纯是一项劳动量巨大的体力活。比如在前面展示的“虐猫门”中,老姜们用虐猫者的一个ID搜索了大量网页之后分析出另几个ID也是他的,并通过ID确定了虐猫者所居住的楼盘,而如果有一套针对这个目的的语义搜索模型建立起来,那么,这些工作在几秒钟内就可以解决。
王震所任职的问天(北京)信息技术有限公司便是提供这种服务的企业——为特定机构的特定目的开发搜索软件,提供专业的、付费的搜索服务。比如某家汽车生产商想知道某款车型据用户反映都有哪些问题,该厂家如果采用传统的搜索方式,需要把互联网上提到他们车型的所有报道、帖子、发言都全部看完;而如果定制了语义搜索服务,他们直接便可得到想要的答案:第一,本周有2009个用户反映车内空间不够,占讨论空间车主总数的86%;第二,有3067个用户嫌耗油量大……当然,他们得到的用户反馈信息仅限于互联网上已有的信息。
但在这样的搜索背后无疑是一套定制的运算模型,所以,目前只有专业的公司能提供此类搜索服务。Baidu在去年推出的“框计算应用”概念便是语义搜索的初级运用。现在,在Baidu上查询“北京今天的天气如何”时,搜索结果不仅仅是基于这几个词的字面返回结果,而是直接反馈出北京天气预报的情况。但,由于技术还不成熟,目前的运用极为有限,更多还是停留在研究探索阶段。王震认为,虽然理论上,这项技术可以被运用到大众搜索引擎上,但由于要针对各个领域的各种问题都建立运算模型,在短期内是很难实现的,只能在某些特定领域应用。
不管你热不热衷于互联网技术,最近,有个词可能频频出现在你眼前——云计算,这项像云一样飘渺、飞在天上的技术是什么呢?简单说来就是,所有的计算不需要在本地(指你的个人电脑)完成。而是集中到一个巨大的服务器集群上。你的电脑不再需要装那么多软件,不需要储存那么多文档电影音乐,一切,都通过网络交给某个服务商代劳。目前大热的iPad就是此服务的先锋。
网络巨头Google此刻正大力推广这些“云”,将来有天,你的一切资料,当然包括个人信息,都将以0和1的方式储存在互联网上。到那时,语义搜索应该也已经发展完善了,我们能怎么办?