01垂直搜索引擎应用陈建平.docx
《01垂直搜索引擎应用陈建平.docx》由会员分享,可在线阅读,更多相关《01垂直搜索引擎应用陈建平.docx(31页珍藏版)》请在优知文库上搜索。
1、试论垂直搜寻引擎在工商行政网监工作中的应用北京市工商行政管理局特殊交易监管处处长国家电子商务示范城市专家询问委员会成员陈建平二O一二年八月试论垂直搜寻引擎在工商行政网监工作中的应用不是万能与万万不能绪言:依据国家工商总局市场司的支配,我受北京市局领导的指派,在北京局近年来学习、探讨和实践的基础上,从应用前提、应用方式、应用发展和应用挑战四个角度,就垂直搜寻引擎在工商行政网监工作中的应用进行探讨和沟通。第一部分:我们原委需求什么?千里同行始于不同足下国家工商总局确定在全国建设工商行政网监垂直搜寻引擎以来,很多地方局的领导越来越关切这样一个问题:面对网络市场相关信息的超海量级、非均衡性、高改变率等
2、特殊属性,如何选择适合不同时期、不同地区网监工作须要的垂直搜寻引擎?这也是北京局多年来持续攻坚的课题之一。鉴于工商行政管理系统涉足垂直搜寻引擎领域的时间还不长,在本文的起先部分,实行专业性和通俗性相结合的原则,先虚拟性地描绘一个技术发展的参考坐标系以形成分析基础。此外,出于众所周知的缘由,本文未将国(境)外搜寻引擎列入分析范围。一、需求内容的选择只有节点、没有终点依据通常理解,垂直搜寻是指用户利用搜寻引擎获得互联网特定目标信息的详细行为或行为方式,垂直搜寻引擎则是支持特定用户大量、持续地获得互联网特定目标信息的专用搜寻引擎。由于不同用户对特定目标信息的类型、广度和深度存在不同的须要,相应地也会
3、对垂直搜寻引擎产生不同的需求。(一)垂直搜寻目标的选择范围从特定目标信息的搜寻广度分析,可将工商行政网监垂直搜寻引擎分为单一目标和组合目标两类。1 .单一目标垂直搜寻引擎:支持特定用户大量、持续地获得互联网某一类特定目标信息的专用搜寻引擎。从特定目标信息的搜寻深度分析,依据北京局的理解,可将适用于工商行政网监工作的单一目标垂直搜寻引擎分为三个亚类。(1)网上经营主体垂直搜寻引擎:支持特定用户大量、持续地发觉和确认经营主体开展网上经营活动的组织形式(独立网站、信息平台、交易平台、网店、其它)的专用搜寻引擎。(2)网上经营客体垂直搜寻引擎:支持特定用户大量、持续地获知与确认经营主体开展网上经营活动
4、的详细内容(商品和服务)的专用搜寻引擎。其中重点关注的是法律、法规禁止或限制生产、销售、供应的商品和服务。(3)网上经营行为垂直搜寻引擎:支持特定用户大量、持续地驾驭和确认经营主体网上经营行为方式的专用搜寻引擎。其中重点关注的是违反禁止性和限制性规定的行为方式。2 .组合目标垂直搜寻引擎:支持特定用户大量、持续地获得互联网某些类特定目标信息组合的专用搜寻引擎。从特定目标信息的搜寻维度分析,依据北京局的理解,可将适用于工商行政网监工作的组合目标垂直搜寻引擎分为“主体+客体”、“主体+行为”、“主体+客体+行为”三种组合。由于未知主体的客体和行为缺乏实际监管意义,本文未将“客体+行为的组合列入分析
5、范围。特殊说明:从特定目标信息的搜寻类型分析,还可将工商行政网监垂直搜寻引擎分为文字、图片、音频和视频等不同类别。鉴于图片、音频和视频的搜寻技术仍处于发展阶段,而且运行成本昂扬,短期内恐难大范围地应用于工商行政管理网监工作,因而本文以下内容均以中文文字搜寻为分析基础。(一)垂直搜寻引擎的研发难点垂直搜寻引擎被公认为互联网领域最困难的前沿技术之一。借鉴“更多、更快、更准的通用评价指标,北京局认知的主体垂直搜寻引擎研发难点:一是对于待搜寻目标表现形式及改变模式的认知程度,即能否高精确率地持续发觉有哪些不同形式的商务网站。二是搜寻结果与登记信息的自动匹配水平,即能否高精确率地自动识别它们是谁办的网站
6、。三是搜寻结果与监管辖区的自动匹配水平,即能否高精确率地自动区分它们是谁管的网站。北京局认知的客体垂直搜寻引擎研发难点:一是对于待搜寻目标靶向性的认知程度,即待搜寻目标是否为商事活动所指向的商品和服务。二是高覆盖率、高精确率搜寻结果(召回率与查准率)的可持续性技术实现水平,即搜寻结果能否是尽可能大且准的商品、服务集合,且其中包括违禁、违限的商品和服务子集。北京局认知的行为垂直搜寻引擎研发难点:一是对于待搜寻目标系统性的认知程度,即能否驾驭不同性质的网上违禁、违限经营行为困难多样的表现方式及其变异模式。二是高覆盖率、高精确率搜寻结果的可持续性技术实现水平,即搜寻结果能否与可知网上违法经营行为的类
7、型与量级相吻合。(三)垂直搜寻目标的选择参考北京局通过学习、探讨和实践相识到,无论对于领域专家团队还是对于技术专家团队而言,主体、客体、行为三类垂直搜寻引擎的研发难度均依次递增,且存在几何级数的难度差。如将将来一个周期的网监工作分为三个阶段,主体垂直搜寻意味着基础,因其待搜寻目标多属于结构化数据,且综合建设成本相对较低,通过“主体搜寻+人工网巡”也能开展监管工作,可将其作为第一阶段的建设重点;客体垂直搜寻意味着发展,因其待搜寻目标存在大量半结构化数据,且综合建设成本相对较高,可将其作为其次阶段的建设重点;行为垂直搜寻意味着跃迁,因其待搜寻目标多属于非结构化数据,且研发和建设成本会直线上升,可待
8、监管业务需求更加迫切、相关前沿技术更加稳定、领域专家团队更加成熟之时,将其作为第三阶段的建设重点。二、基础架构的选择只有选择、没有对错从垂直搜寻引擎技术基础与网监工作发展阶段之间的关联角度分析,依据北京局的理解,可将工商行政网监垂直搜寻引擎的基础架构分为试验级、雏形级、成型级和定型级。(一)试验级垂直搜寻引擎的基础架构目前国内尚无中文搜寻引擎规模的权威定义。从中文网页搜寻数量角度分析,国内大规模搜寻引擎一般达到百亿级,其中闻名的搜寻引擎(如百度、搜狗)已达到千亿级;国内中规模搜寻引擎(如人民搜寻)一般达到十亿级;国内小规模搜寻引擎(如部分企业和政府自建的搜寻引擎)一般在亿级或以下。元搜寻引擎是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 01 垂直 搜索引擎 应用 建平