广州网站建设公司|营销型网站制作|广州二月二网站建设

广州网站建设

关注我们:

百度关键词优化排名 先排名后收费
当前位置: 首页 > SEM搜索引擎营销 > 让搜索跨越说话的鸿沟 谈广州网站制作跨说话信息检索手艺

 

让搜索跨越说话的鸿沟 谈广州网站制作跨说话信息检索手艺

 
   发布时间:2015-03-02 01:17:49
 
 

跨说话信息检索,是信息检索规模中的一个研究课题。近10几年来,因为互联网的飞速成长,这方面的研究受到了学术界的普遍正视。将这项手艺应用于搜索,可以辅佐我们查找到更多的有用信息,例如外语相关页面、多说话页面以及说话无关的资本(如图片)等等。这些信息可以年夜年夜丰硕搜索的结不美观,知足用户多样的需求。在跨说话信息检索的研究中,有广州网站制作一些研究成不美观已经趋于成熟,达到可以应用的状况。事实上,Yahoo和Google在5,6年前就已经起头供给多说话的搜索处事。毫无疑问,在这方面他们已经走在了世界的前列。今朝,百度的各项国际化营业正在如火如荼的开展,对跨说话手艺来说,恰是用武之地。相信不久的未来,它将会在搜索国际化历程中饰演举足轻重的脚色。来,就让我们一探事实吧。

假如你搜索“中菲黄岩岛坚持”,如不美观你是一个通俗用户,你想知道的可能是这个事务的历史渊源和成长动态;如不美观你是一个身手用户,你想知道的可能是中国愤青们的爱国谈吐。没问题,现有的中文搜索完全可以知足百度关键词优化你的需求。

那么,这道鸿沟就不能跨越了么?当然不是。事实上良多年前人们就已经起头考虑这个问题了。在学术界,对这个问题有个专有名词,叫跨说话信息检索(Cross-Language Information Retrieval)。早在上个世纪60年月,现代信息检索的奠基人,美国康奈尔年夜学的Salton教授揭晓了一篇《Automatic processing of foreign language documents》,首先打开了跨说话信息检索的年夜门。可是因为阿谁时代还没有互联网,研究也只能勾留在简单尝试阶段,甚至跨说话信息检索的概念还没有正式提出。到了上世纪90年月,美国国家尺度手艺研究所(National Institute of Standards and Technology)和美国情报局前沿研发勾当中心(Advanced Research and Development Activity center of the U.S. Department of Defense)连系举办了信息检索规模最主要的会议——“TREC”会议(The Text REtrieval Conference)。到了1996年,在瑞士所举办的SIGIR-96会议中,初度呈现了以跨语检索为研究主题的钻研会。而到了2000年,欧百度关键词优化盟成立了“跨说话评估论坛”(Cross Language Evaluation Forum),每年按期举办跨语检索钻研会,而且敦促跨语检索手艺评选。年夜此,跨说话信息检索酿成了信息检索规模的一个炙手可热的研究课题,无数英雄铁汉介入其中。

年夜上述口角斗劲中我们可以看出,文档翻译虽然可能供给更切确的翻译,但它需要更多的线下措置时刻,需要更多的存储空间,适用性较差。鉴于此,无论是学术界仍是工业界,一般采用的都是Query翻译的体例。

闲话少说,我们该进入正题了:对于跨说话信息检索问题该若何解决呢?接下来让我们揭开它的面纱。

广州网站制作

在说跨说话信息检索之前,我们先回首回头回忆一下经典信息检索是若何做的,如图1所示:首先,对于用户的query,我们要对它进行特征提取,使之酿成一个特征向量,用于匹配文档。其次,对于已经抓取的文档,我们也对它进行特征提取,并给以这些特征一些权重,来暗示它们的主要水平。再次,我们对query的特征和文档的特征进行相似度计较,来判定哪些文档跟query相关,哪些不相关。信息检索最常用的相似度计较体例是求cosine,其它还可以年夜语义主题的角度去描述相似性,这个就不具体介绍了。有了相似度,我们可以按摄影似度对文档进行排序,并将最相关的一些作为检索结不美观。对于检索结不美观,用户可能会供给一些反馈,好比用户的点击。这些反馈可以告诉我们,在搜索结不美观琅缦沔哪些是用户需要的。这些信息可以用来权衡检索的效不美观,来对检索模子进一步晋升。

广州网站设计 src="http://www.SEOUEOSEM.com/userfiles/Auto/20129271339730847555.JPG" border="0" width="555" height="292" />

在信息检索的流程中,我们可以看出跨说话检索的可贵:当query的说话和文档的说话分歧广州网站建设公司时,query和文档的特征空间是分歧的。中文的特征集结(某个中文词语呈现与否)与英文的特征集结(某个英文词语呈现与否)的交集少少,这导致原有的相似度计较体例在跨说话时失踪效了。

对于跨说话,我们自然而然想到的一种体例就是:翻译。我们可以经由过程翻译的体例把一个说话的词语映射到另一说话上,年夜而让query和文档处于统一个特征空间中,然后再操作的暌癸下的检索模子进行检索和排序,这样就可以实现跨说话检索了。

Query翻译——把query翻译到文档的说话下,然后用这些翻译后的query在文档中进行检索。对于query中的词语,我们可以选择若干可能的翻译,用于扩年夜召回。这可以看作是一种query扩展。

文档翻译——把文档翻译到query的说话下,然后用原有query对翻译的文档进行检索。文档的翻译一般是在线下进行的。一篇阅暌癸言的文档经由过程自动的翻译(如机械翻译)变换成一篇方针说话下的文档。

这两种体例都是可以达到跨说话检索目的的,我们在实践中广州网站优化应该采用哪种体例呢?下面我们剖析一下这两种体例的口角:

可是,如不美观你是一个XX用户,你对中国网站的内容不知足,很想知道外国的媒体是怎么报道的,外国公众是怎么谈论这个事务的。那么欠好意思,中文搜索引擎就力所不及了。这是因为,中文搜索引擎都是中文作为基原本构建的,它往往只收录了中文数据,只考虑了中文的特征,只考虑了该中国网平易近的需求。可是,当我们想要做跨说话搜索时,搜索就变得坚苦了。且不说我们没有抓取那么多外文数据。即使我们稀有据了,因为分歧说话之间的巨年夜差异,以及各个国家各类各样的收集习惯,我们也很难精准地搜索到相关的外文信息。也就是说,说话的分歧给搜索带来了一道鸿沟。

那么这个问题怎么解决呢?

 

 

SeoUeoSem企业网站建设8大功能

更多»
  •  

    基于搜索引擎优化营销型网站
    自然排名优先竞争对手

  •  

    整合所有网络营销资源
    一站式服务,打造企业级平台

  •  

    个性化企业网站设计
    让您企业网站与众不同

  •  

    会打字,就会自助建站
    全智能,即开即用

  •  

    顶级域名
    独一无二的品牌形象

  •  

    精准网络营销
    一击即中,实现高效率成交

  •  

    智能搜索引擎优化
    实现全部互联互通,优化排名

  •  

    智能CDN全球布置
    自由选择服务器,快速访问

服务与项目

广州网站制作

企业网站建站

基于网站优化SEO基础实践而开发的系统,自然排名超越竞争对手

整合网络营销

百度优化排名

百度关键词优化排名首页、先排名后收费、担保交易

在线客服软件

在线客服系统

即时网页对话,变流量为销量,抓住每一个潜在的客户

400电话

企业400号码

提升企业形象,400电话号码营销,成交更多

联系我们

客服热线:020-8844 7951
服务邮箱: info@seoueosem.com

联系在线客服

在线留言

 

如果您对我们有更多的功能需求或者建议,请到在线留言提出您的宝贵意见。