垂直搜索引擎发展现状
互联网最基础的功能即提供信息。2008年1月,中国互联网络信息中心在北京发布《第21次国际互联网络发展状况统计报告》,调查结果显示,目前2.1亿网民中使用搜索引擎的比例是72.4%,即已有1.52亿人从搜索引擎获益,半年净增加3086万人。位列网络应用中网络音乐、即时通信、网络影视和网络新闻之后的第五位,高于电子邮件。与其他国家相比,由于中国互联网仍旧是娱乐功能占主体,总体网民的搜索引擎使用率偏低。
垂直搜索引擎是搜索引擎行业保持高增长的重要力量。据调查,目前中国互联网中的垂直搜索引擎日益发展壮大,不断有面向新行业的垂直搜索引擎网站出现,例如,有面向房子的搜房网,有面向求职的职业搜索,有面向学术的学术搜索等。
目前垂直搜索引擎所用的技术模式和通用搜索引擎的技术基本相同。首先通过网络蜘蛛对互联网的网页进行抓取,进而获得元数据,然后对元数据进行分析处理,根据关键词的权重和其链接的关系,计算出该网页的重要度,存入数据库。当用户提交关键词的时候,针对该关键词进行查询,进而将结果返回给用户,这就是垂直搜索引擎的一般工作流程。
目前垂直搜索引擎的主要盈利模式是基于竞价排名的广告模式,具体广告主在向垂直搜索引擎购买该项服务后,通过注册一定数量的关键词,按照付费最高者排名靠前的原则,购买了同一关键词的网站按不同的顺序进行排名,出现在网民相应的搜索结果中。
垂直搜索引擎的优势分析
互联网迅速发展。依赖搜索引擎是避免信息爆炸的快捷方式,而对于一个行业,信息量也是越来越大,准确抓住需要的信息,过滤无用信息是每个行业的从业者必须面对的课题,垂直搜索引擎为他们提供了好工具,帮助他们把握住行业发展的方向,并为想了解该行业的人提供一个便利方式。
商业公司对其日益重视。搜索引擎是人们登陆互联网的门户,垂直搜索引擎则是它所面向行业的门户,在这里进行广告投资,获得巨大收益的概率大,所以每个商业公司都会重视对其相关行业的垂直搜索引擎投资。
拥有巨大价值的用户搜索数据。垂直搜索引擎是面向行业、专注行业的搜索引擎,而使用垂直搜索引擎的人也都是和该行业有着密切关系的人,垂直搜索引擎记录着这些人的搜索数据,这些数据经过整理之后将会对该行业的发展有巨大的指导作用和巨大的价值。
垂直搜索引擎面临的问题
(一)搜索排名与搜索结果的用户满意度不一致
垂直搜索引擎广告收入是其收入的巨大来源,而竞价排名方案是其广告的主要模式,但是竞价排名模式是根据广告客户购买关键词的出价多少来决定该关键词的查询结果的排列顺序,这就带来了一系列问题。出价高的网页就排列在前,出价少或没有出价的网页就必然会被排列在后。根据统计研究表明,一般用户使用搜索引擎的习惯是只看到第三页,后面的搜索结果对用户来说是没有意义的,这就可能导致用户搜索后无法得到他想要的结果,或者要经过更多次的翻页才能找到需要的网页,而排列在前面的那些出价很高的网页对他的价值不一定高于那些出价少排列在后的网页。这就极大地破坏了用户体验,干扰了用户的信息获取。如果无法在广告和信息准确度做出均衡,一味地根据广告费用来决定页面的排列方式,这将会带来用户的不信任,进而用户会大量流失,失去用户的互联网企业,是没有生存空间的,但是没有广告收入,对垂直搜索行业也是无法承受的。所以,如何对广告和用户体验综合调整,尽可能让广告客户获得广告效益,又使得用户获得满意的搜索结果是亟待解决的问题。
(二)与相关行业联系度低
垂直搜索引擎发展至今,对通用搜索引擎的模式进行了大量克隆。但是,因为通用搜索引擎面向的是所有行业,各种行业在通用搜索引擎看来,没有高下之分,而对于垂直搜索引擎,这方面就完全不同于通用搜索引擎。如果垂直搜索引擎不能和所面向的行业进行紧密结合,就无法获得与通用搜索引擎的差异化优势。目前垂直搜索引擎的数据采集还是通过网络蜘蛛在互联网上进行爬行,抓取页面,进而分析关键词,获取行业数据,还是停留在传统的搜索引擎抓取数据的方式,这就导致最后的用户查询和在通用搜索引擎上的查询效果并无二致,这种情况肯定无法吸引用户,也无法发挥自己专业查询的优势。而且由于对该行业的了解无法深入,和该行业的从业人员也不能进行有效的沟通,自然无法了解该行业的真正需求。虽然表面看来有模有样,但只是一个披着行业外皮的通用搜索引擎,无法设计出行业需求的功能模块,自然无法吸引行业客户投入广告或者分享数据。
促进垂直搜索引擎发展的对策
(一)优化采集策略和数据来源
对于垂直搜索引擎的采集策略来说,必须不同于通用搜索引擎的采集策略。从互联网中准确快速提取出本行业的数据,关键词是一个很关键的因素,所以必须和该行业的专业人士进行沟通,由他们提供基于本行业的关键词。另外,用户也可以向搜索引擎提交关键词,在管理员审核通过的情况下,也添加进入关键词序列,定期对关键词整理,去除使用频率低的关键词,并添加新近出来的新词。在有一个维护良好的新词表的基础上,优化策略就有了一个好的开始。由于现在网页html语言越来越规范化,这也给采集带来了方便。根据研究发现,一个网页的主题决定了一个网页的内容,也就是在之间的部分,只要通过网络蜘蛛先抓部分的内容,之后再将抓取的部分和关键词列表进行对比,如果主题里含有关键词超过规定的阈值,就继续抓取,否则,就放弃抓取。这种改进的抓取策略可以有效地改善抓取的效率和准确度。
在数据来源方面,如果只从互联网上获取数据,那就无法体现垂直搜索引擎专业化的优势,必须从别的渠道获取行业数据,这样才能充分发挥垂直搜索引擎的特点。可以采用激励制度,鼓励用户提供数据,如果提供的数据很有价值,而且本身搜索引擎没有收录,可以给予用户奖励。购买一些收费资料,可以采取广告分成或收费检索的方式进行收录。总之,行业资料要尽可能地全面。
(二)进行有效的数据挖掘
数据挖掘,就是对用户在查询结果出现后的浏览行为和关键词输入记录,并进行有效整理统计分析,进而根据所获得的相关数据进行二次应用。可以据此对查询结果进行重新排序,把和用户兴趣相似度高的排列在前面,以此来缓解竞价排名带来的负面影响。可以将此数据提供给行业用户进行商业决策。具体措施如下:
第一,挖掘用户浏览习惯。获取用户的浏览习惯是对用户对搜索结果满意度反馈的获取,有如下行为可以判断用户对某一链接兴趣度高:点击链接网页后链接的层次,打开链接网页后网站的持续打开时间,用户打开网站后有无复制文本,保存链接进入收藏夹等行为。如果产生上述行为,可以认为此链接用户兴趣度高,此链接相比其他搜索结果更有价值,同时,由于网页浏览并发性高,时间短,理论上通过客户端记录用户行为效果最好,但是用户对后台监控自己行为的软件内心是一种反感态度,软件本身也无法使用户相信不会泄露用户的隐私,所以不宜采用,在当前条件下,由于电脑日益普及,个人电脑的保有量大大增加,所以采用ip和cookies可以近似地保证用户数据的单一性和独立性,具体操作的流程如下:
启动垂直搜索引擎,搜索引擎获得cookies和ip,在数据库查找该用户的信息,如果没有信息,则新建一个用户,如果存在该用户,则在数据库中调用该用户已经存在的浏览兴趣数据。
提交关键词,搜索引擎接收关键词,获得搜索结果,并根据用户的浏览兴趣表,将浏览兴趣表和原始搜索结果进行相关性计算,之后将结果返回给用户浏览器。
通过每次用户浏览该结果的过程进行记录,并将此记录迭代更新到用户兴趣表,反复进行,随着用户搜索的持续进行,则用户的搜索结果的排序越来越接近他自己想要的结果,并且用户兴趣表对用户的爱好的反映也和用户本身的爱好相似度越来越高,从而抽象出用户的兴趣模型,使用户的满意度提高。
第二,挖掘行业关注点。作为关注点在所面向行业的垂直搜索引擎,可以在用户查询时对其所输入的关键词进行记录,之后在一个时间间隔内(3个月或半年)对这些关键词进行统计分析一次,就能够获取这个时间区间内用户对这个行业的各方面关注情况,这些资料对于从事该行业的企业来说很有价值,并将带来生产、营销收益。这些数据都是来源于用户的搜索记录,不存在修改、伪造,反映出的数据是真实可靠的,因此可以用作决策参考。企业根据资料所反映的情况,调整自己的生产,营销策略,去适应用户和市场的需求,以在市场上获得先机。同时通过给企业用户提供搜索报告,可以和他们交换一些互联网没有的行业资料,实现双赢的效果。
第三,广告推荐。作为竞价排名广告的有益补充,数据挖掘技术在推荐广告方面也可以发挥出它的作用,使得企业所投放的广告获得更好的收益。当获得一系列用户的兴趣模型,即可对这些用户进行相应的聚类分析,得出有相同爱好的一类用户。这时,就可以根据用户的爱好和兴趣度,进行相应的广告投放和产品推荐,所投放的广告由于是基于用户的爱好,二者之间有很高的相似度,用户一般也乐于接受,不会造成反感,认可度更高,效果也要比没有选择性的广告好很多。
(三)集成行业优势并发展成为该行业的门户
通过和该行业的从业人员进行有效沟通,以及对该行业进行充分调研了解,对垂直搜索引擎进行不断改造、更新,使其在该行业发挥出越来越重要的作用,进而成为该行业的门户,这时就可以依托门户优势,成为电子商务的中介平台。比如一个面向玩具的垂直搜索引擎,就可以采用如下模式进行中介,用户搜索某一玩具,搜索引擎利用自己整合优势,通过运算比较,返回给用户最合适的购买方案,如果用户对该玩具只有模糊的印象,搜索引擎也可以根据用户提供的信息在庞大的资料库内进行有效的查询,返回用户最满意的结果,进而用户就可以根据返回的结果选择购买。由此可以看出,搜索引擎通过庞大、准确的行业库可以提供买卖方的有效信息互动,减少买卖方的成本。
(四)发展移动搜索
随着手机的逐渐普及,以及3G技术的迅速铺开,移动搜索也已经提到议事日程来,未来的互联网将逐步转移到移动平台上,抓住移动平台,也就抓住了商机。在移动平台,垂直搜索引擎将发挥更加重要的作用,由于移动平台自身的局限性,通用搜索引擎检索信息在速度、准确度上都不适用于移动平台,垂直搜索引擎自身的小、快、灵的特点与移动平台相适合,二者相得益彰。手机通信是通过基站进行传递中转,如果和通信服务商进行合作,就可以在用户提交查询时获取用户的基站信息,通过基站信息就可以对用户的位置进行大致定位,获取用户位置,从而进行一系列的针对性服务。(编选:中国搜索研究中心陈奇)
heet://haidanet.cn
地 址:北京市海淀区建材城中路12号院17号楼1层119室
武汉分公司地址:湖北省武汉市洪山区南国雄楚广场A4栋2011室
郑州分公司地址:河南郑州金水区东风路科技市场对面米兰阳光6号楼917室
邮 箱:haidanet@163.com
24小时联系电话: 15201609116 13651084380