资源数据采集技术设计方案和对策要点.docx
《资源数据采集技术设计方案和对策要点.docx》由会员分享,可在线阅读,更多相关《资源数据采集技术设计方案和对策要点.docx(17页珍藏版)》请在优知文库上搜索。
1、目录第1部分概述21.1 项目概述21.2 系统建设目标31.3 构造原理31.3.1 构建原则31.4 参考文献和标准5Part2系统总体架构及技术路线52.1 系统应用架构62.2 系统层次72.3 关键技术与路线8第3部分系统设计11第4部分详细的系统设计12第1部分概述1.1 项目概况互联网已经发展成为当今世界上最大的信息库和在全球范围内传播知识的主要渠道。庞大的信息服务网络,站点遍布全球,为用户提供了非常有价值的信息来源。个人发展和企业竞争力都越来越依赖于网络信息资源的使用。现在是信息时代,信息是一种重要的资源,它在人们的生活和工作中发挥着重要的作用。计算机和现代信息技术的飞速发展,
2、使互联网成为人们传递信息的重要桥梁。随着网络的不断发展,伴随着大量信息的产生,如何在海量信息源中寻找和收集所需的信息资源,成为我们未来建设在线预订旅游网络的重要内容。因此,在当今高度信息化的社会,信息的获取和信息的及时性。Web数据采集可以通过一系列方法自动搜索互联网上特定类型的信息,根据用户兴趣,剔除不相关数据和垃圾数据,过滤虚假数据和滞后数据,过滤重复数据。根据用户要求将信息直接呈现给用户。可以大大减少用户的信息过载和信息丢失。1.2 系统建设目标在线预订旅游网站是提供在线机票、酒店、旅游行程等旅游商品的网站,包括餐饮、住宿、旅游、旅游、购物、娱乐等方面的综合信息、综合旅游信息和预订服务。
3、.如果用户想要收集有关此类网站的数据,通常的做法是手动浏览网站以查看最近更新的信息。然后将其复制并粘贴到Excel文档或现有资源系统中。这种方法不仅费时费力,而且在搜索过程中可能会遗漏,在数据传输过程中可能会出现错误。针对这种情况,在线预订旅游网络信息自动采集系统可以实现数据采集的高效化和自动化。1.3 速设原则1.3.1 施工原则由于在线预订旅游网络的数据采集涉及多方面、数据量大、采集源的数据结构多样。因此,在项目建设过程中,应遵循以下原则:可扩展性根据实际需要,系统可以轻松加载、减少和灵活扩展,使系统能够适应变化和新情况。可以实现模块级别的动态扩展,并且是运行时的。所谓运行时模块的动态扩展
4、,比如如果需要添加一些新的功能,可以按照BUndIe组织新开发的类和文件,然后直接扔到运行时环境中,这些功能就可以用过。因此,不会通过技术改造对系统进行重新调整。创新的软件投资应考虑到未来发展,不得使用过时的产品和技术,以免造成投资浪费;在系统软件和开发技术的选用上,要达到国内外先进水平。规范和标准整个设计方案,从网络协议、操作系统到各种设计细节,都应遵循通用的国际或行业标准,并符合相关国家标准。低耦合采集系统与其他系统相对独立,直接基于txt/xml进行数据库存储、SQL同步或数据交换,保证整个系统的低耦合。效率底层技术采用java语言实现,跨平台,跨数据库,运行效率极佳。安全、稳定、准确、
5、及时采用先进的算法,使用多个子系统和工具,形成安全、稳定、准确、及时的解决方案。方案整体设计遵循稳定、开放、可扩展、经济、安全的原则,使整个方案组成合理、技术先进、易于扩展,既能满足当前业务数据处理需求,也满足长远发展的需要。易操作易维护原则整个系统易维护、易操作、易学、易使用。完全通过WEB完成,降低了维护的技术难度,减少了人为隐患的发生。1.4 参考文献和标准主要参考和依赖以下参考资料和标准:中国项目管理知识体系(C-PMBOK),2001.5 GB/T1526-1989信息处理数据流程图、程序流程图、系统流程图、程序网络图和系统资源图的文档符号和约定 GB/T8566-1995信息技术软
6、件生命周期过程 GB/T8567-1988计算机软件产品开发文件编制指南 GB/T9385-1988计算机软件需求规范编制指南 GB/T13702-1992计算机部件分类及代号 GB/T11457-1995软件工程术语第2部分系统整体架构及技术路线网络信息资源采集系统是一个功能强大的网络信息资源开发、利用和整合系统,可用于定制、跟踪和监控互联网实时信息,建立可复用的信息服务体系。它可以从各种网络信息源中收集用户感兴趣的特定信息,包括网页、博客、论坛等,经过自动分类处理后,以各种形式提供给最终用户。2.1 系统应用架构 网络蜘蛛:按照规定的规则抓取网站数据。 数据分析:分析来自网络蜘蛛的数据并过
7、滤掉不需要的信息。 数据解析:根据指定资源格式(字段)的定义进行数据库字段级解析。 分组分析:根据不同的网络资源类型进行分类,以多种存储方式存储。2.2 系统层次结构浏览器表现层-X网络资源采集数据转换数据导出数据发布网络请求应用层l、采集监控数据分析消息通知登录验证数据处理任务计划常用脚本库认证码识别WEB服务器应用服务器规范接口其他支撑层关系数据文本文件数据图片视频数据数据层整个系统分为四层,即: 数据层:数据层负责存储采集到的各种信息和数据,包括网页、文档、关系数据、多媒体数据等。 支撑层:支撑层提供关键的软硬件支撑系统,包括应用服务器、WEB服务器、标准接口等标准支撑系统。 应用层:应
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资源 数据 采集 技术设计 方案 对策 要点