《数据采集》-初级-题库.docx
初级项目一一、填空题1、数据采集需要符合几个方面全面性、多维性、一高效性O2、数据采集,又称数据获取,是利用一种装置或程序从系统外部采集数据并输入到系统内部的一个接口。3、高效性包含技术执行的技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现高效性。4、从采集数据的类型看,数据的类型是复杂多样的,包括非结构化数据、结构化数据、半结构化数据一05、按照数据发生的主体不同,数据采集范围主要包括:端上数据、开放数据、物理数据和主观性数据等。项目二一、填空题1、在计算机网络的定义中,一个计算机网络包含多台具有_自主_功能的计算机;把众多计算机有机连接起来要遵循规定的约定和规则,即_网络协议计算机网络的最基本特征是一资源共享和连通性一O2、常见的计算机网络拓扑结构有:一星型拓扑一、一总线型拓扑、一环形拓扑、树形拓扑、和一混合型拓扑一。3、网络按覆盖的范围可分为广域网、一局域网、城域网。4、TCP/IP协议参考模型共分了一4一层,其中3、4层是网络层、网络接口层5、电子邮件系统提供的是一种存储转发式一服务,WWW服务模式为B/S6、B类IP地址的范围是128.0.0.0到191.255.255.255。7、目前无线局域网采用的拓扑结构主要有一网桥连接型一、访问节点进、HUB接入型O二、选择题1、计算机网络拓扑是通过网中结点与通信线路之间的几何关系表示网络中各实体间的一B一。A、联机关系B、结构关系C、主次关系D、层次关系2、127.0.0.1属于哪一类特殊地址(B)eA、广播地址B、回环地址C、本地链路地址D、网络地址3、HTTP的会话有四个过程,请选出不是的一个。(D)A、建立连接B、发出请求信息C、发出响应信息D、传输数据4、在ISO/OSI参考模型中,网络层的主要功能是BOA、提供可靠的端一端服务,透明地传送报文B、路由选择、拥塞控制与网络互连C、在通信实体之间传送以帧为单位的数据D、数据格式变换、数据加密与解密、数据压缩与恢复5、以下哪一类IP地址标识的主机数量最多?(D)A、D类B、C类C、B类D、A类6、子网掩码中“1”代表(B)。A、主机部分B、网络部分C、主机个数D、无任何意义项目三1 .数据查询语句SeleCt由多个子句构成,(C)子句能够将查询结果按照指定字段的值进行分组。(八)orderby(B)limit(C)groupby(D)distinct2 .在查询中,Where子句用于指定(A)(八)查询结果的分组条件(B)查询结果的统计方式(C)查询结果的排序条件(D)查询结果的搜索条件3 .在学生管理数据库中,查询所有姓“王”的学生信息,可使用(B)命令。(A) select*fromstudentwherenamelike'王'(B) select*fromstudentwherename='王(C) select*fromstudentwherenamelike'%王';(D)select*fromstudentwherenamein'王'4 .在查询时,要在成绩表SCore中查询成绩在8090之间(含两端点成绩)的成绩信息,可使用(B)命令。(A) select*fromscorewhereresultbetween80OR90;(B) select*fromscorewhereresultbetween80and90;(C) select*fromscorewhereresult>=80ORresult<=90;(D)select*fromscorewhere80<=result<=90;5 .执行SQL语句“selectstuNo,namefromstudentlimit2,2f查询结果将返回哪几行数据?(八)(八)返回了两行数据,分别是第1行和第2行数据(B)返回了两行数据,分别是第2行和第3行数据(C)返回了两行数据,分别是第3行和第4行数据(D)返回了两行数据,分别是第4行和第5行数据6 .为了使索引键的值在基本表中唯一,在创建索引的语句中应使用保留字(A)o(八)UNIQUE(B)COUNT(C)UNION(D)DISTINCT7 .执行“createfulltextindexstunameontb_student(name);“语句,表示创建一个(B)索引。(八)唯一性索引(B)全文索引(C)普通索引(D)多列索引8 .下列选项中,关于视图的叙述正确的是(B)(八)视图是一张虚表,所有的视图中不含有数据(B)不允许用户使用视图修改表中的数据(C)视图只能访问所属数据库的表,不能访问其他数据库的表(D)视图既可以通过表得到,也可以通过其他视图得到二、填空题1 .在查询中,如果要将查询结果进行排序,应使用orderby子句,其中asc关键字表升序,desc关键字表降序。2 .在查询中可使用聚合函数,用max来求指定字段的最大值,min来求指定字段的最小值,avg来求指定字段的平均值,SUm来求指定字段的总和。3 .MySQL支持模糊查询,其模糊查询使用的关键字是like命令,其一卜划线通配符表示单个字符,一百分号通配符表示任意字符。4 .在MySQL数据库中,在查询条件中,可以使用逻辑运算符,其常用的逻辑运算符有非、与、或,可以用NoT或!来表示非运算,可以用and或&&来表示与运算,可以用OR或H来表示或运算。5 .在查询时,如果要将两个查询结果连接起来,并且去除相同的记录,可使用distinct关键字。6 .在创建索引时,如果创建索引的字段是多个,则称为这类索引为多列索引。7.如果要删除一个名为SnLno的索引,应使用ALTERTABLEtable.nameDROPINDEXindex.name;。项目四一、填空题1、Web(WorldWideWeb)即_全球广域网,也称为万维网。2、根据网页内容获取方式不同可以将网页分为两种,分别是一静态和动态3、表格是由行_和列_组成的结构化数据集。4、把HTML页面中的元素看作是一个矩形的盒子叫做一盒子模型一05、JavaScript核心对象包含DOM对象、DoCUMENT对象、BOM对象、WINDOW对象等。二、选择题1、网页发展共分为(C)个阶段。A、1B、2C、3D、42、以下不属于CSS3样式表特点的是(D)。A、表现和内容分离B、更好的控制页面的布局C、精确的控制网页中各元素的位置D、不能与脚本语言结合3、CSS选择器不包括(D)oA、类选择器B、子选择器C、父选择器D、后代选择器4、盒子模型所具备的属性有(D)个。A、1B、2C、3D、45、一个完整的JaVaSCriPt实现由(C)个不同部分组成。A、1B、2C、3D、4项目五一、填空题1、在MACOS系统中安装Ixml的命是sudoeasyjnstallIxml。2、XPath选取属于body子节点下的最后一个div节点。3、HTML类中用于接收str,表示需要转换为HTML的字符串的属性是text。4、XPath中使用类似正则的表达式来匹配HTML文件中的内容的表达式为_nodename。5>re模块中将正则表达式的字符串转化为Pattern匹配对象的方法是一compile。二、选择题1、XPath中用于从当前节点选取子孙节点的表达式为_D_。A./B./C.D.2、XPath中的谓语表达式用于选取属于body子节点下的下前两个div节点的是BoA.htmlbodydivpositon()<3B.htmlbodydivlast()-lC./html/body/dividD.htmlbodydivxx>10.003、XPath的功能函数中用于选取id值以co开头的div节点的是_A_。A.text()B.andC.containsD.starts-with4、re模块的常用方法中用于将输入的字符串整个扫描,对输入的正则表达式进行匹配,获取匹配结果的是一COA.subB.splitC.searchD.compile项目六一、 填空题1、Python里用来告知解释器跳过当前循环中的剩余语句,然后继续进行下一轮循环,此关键词是_continue_。2、编程语言通常有固定的后缀,如golang文件是“test.go",Python文件后缀通常定义为以_.py_结尾。3、Python3解释器执行'AB2C3D.lower().tiUe()的结果是(Ab2c3d)4、现有列表仁口,2,3,4,5,6,7,890,那么python3解释器执行13:-1的结果是_4567890_o二、 选择题1、PythOn的设计具有很强的可读性,相比其他语言具有的特色语法有以下选项,正确的是(B):A、交互式B、解释型C、面向对象D、服务端语言2、Python中=运算符比较两个对象的值,下列选项中哪一个是is比较对象的因素(B):A、id()B、sum()C、max()D、min()3、在PythOn中,数字类型共包括以下哪几种类型(AB):A、intBxfloatCcomplexD、bool4、Python崇尚优美、清晰,是一个优秀并广泛使用的语言,得到行内众多领域的认可,下列属于Python主要应用领域的是:(BCD)A、系统运维B、科学计算、人工智能C、云计算D、金融量化5、当知道条件为真,想要程序无限执行直到人为停止的话,可以需要下列哪个选项(B):AforB、breakC、whileD、if项目七一、填空题1、网络爬虫是模拟客户端(浏览器)发送一网络一请求,获取响应,并按照自定义的规则一提取一数据的程序。2、通用网络爬虫又称一全网爬虫一,爬行对象由一批种子URL扩充至整个Web。3、Web页面按存在方式分为表层网页和深层网页o4、在爬虫过程中一般使用一http一库向目标站点发送请求,即发送一个一Request,该请求中包含请求头和请求体。