大数据:互联网大规模数据挖掘.pptx
《大数据:互联网大规模数据挖掘.pptx》由会员分享,可在线阅读,更多相关《大数据:互联网大规模数据挖掘.pptx(21页珍藏版)》请在优知文库上搜索。
1、Mining of Massive Datasets Mining of Massive Datasets 大数据:互联网大规模数据挖掘与分布式处理大数据:互联网大规模数据挖掘与分布式处理聚类聚类7PartClustering聚类是对点集进行考察并按照某种距离测度将它们聚成多个“簇”的过程。聚类的目标是同一簇内的点之间的距离较短,而不同簇中点之间的距离较大。如图,不同种类的犬在某种程度上形成一种簇。三种不同犬类的身高体重分布图,可以知道这些犬可以分到三个簇中,每个簇恰好对应一种犬类。身高吉娃娃狗体重腊肠狗比格犬xyz 0而聚类分析则是根据最大化簇内的相似性、最小化簇间的相似性的原则将数据对象聚
2、类或分组,所形成的每个簇可以看作一个数据对象类,用显式或隐式的方法描述它们。最大化簇内的相似性最小化簇间的相似性聚类算法基于划分的基于划分的K-meansK-medoids基于层次的基于层次的凝聚的凝聚的分裂的分裂的基于密度的基于密度的DBSCANOPTICS基于网格的基于网格的STINGCLIQUE基于模型的基于模型的StatisticsNeural Network010102020303040405050606能够适用于大数据量能够适用于大数据量(可伸缩性)(可伸缩性)能够处理不同类型数据能够处理不同类型数据(距离定义)(距离定义)能够发现任意形状的簇能够发现任意形状的簇(结果特点)(结果
3、特点)能够处理高维数据能够处理高维数据具有处理噪声的能力具有处理噪声的能力聚类结果可解易使用聚类结果可解易使用WebWeb广告广告8PartAdvertising on the Web 目前,许多WEB应用通过广告而维持生计,从在线广告中获益最多的是搜索应用,而搜索广告的有效性主要源于将搜索查询和广告进行匹配的一个称为Adwords模型。 本章将主要关注广告匹配的优化算法。这里使用的算法属于一种特殊的类型,他们属于一种特殊的类型,它们属于贪心算法且从特定技术角度来说是在线算法,重点讨论在线广告的相关问题、在线算法、Adwords实现和问题等。Web广告广告Adwords实实现现投标和搜索查投标
4、和搜索查询的匹配询的匹配更复杂问题的更复杂问题的匹配问题匹配问题文档和投标之文档和投标之间的匹配算法间的匹配算法Adwords问问题题搜索广告的历搜索广告的历史史Adwords问题问题的定义的定义Adwords问题问题的贪心算法的贪心算法Balance算法算法Balance算法算法竞争的一个下竞争的一个下界界多投标者的多投标者的Balance算法算法一般性的一般性的Balance算法算法Adwords问题问题的最后论述的最后论述在线广告在线广告相关问题相关问题广告机会广告机会直接广告直接广告展示广告的相展示广告的相关问题关问题在线算法在线算法在线和离线算在线和离线算法法贪心算法贪心算法竞争率竞
5、争率广告匹配广告匹配问题问题匹配及完美匹匹配及完美匹配配最大匹配贪心最大匹配贪心算法算法贪心匹配算法贪心匹配算法的竞争率的竞争率1离线算法离线算法 将算法所需的所有数据准备好才产生答案的传统算法将算法所需的所有数据准备好才产生答案的传统算法在线算法在线算法只能保存有限的流数据,但是需要在某个流元素到达之后只能保存有限的流数据,但是需要在某个流元素到达之后就以输出的方式对查询进行应答,此时是在对未来的数据就以输出的方式对查询进行应答,此时是在对未来的数据一无所知的情况下对当前元素进行决策的过程一无所知的情况下对当前元素进行决策的过程2算法现象算法现象一般情况下会寻找搜索引擎收益和广告上显示次数同
6、时的一般情况下会寻找搜索引擎收益和广告上显示次数同时的最大化,因为无法保证在线算法与离线算法一样有效最大化,因为无法保证在线算法与离线算法一样有效3贪心算法贪心算法采用贪心策略,综合考虑关键词与广告的匹配程度、广告采用贪心策略,综合考虑关键词与广告的匹配程度、广告商竞价、广告商剩余预算等因素,通过最大化当前输入元商竞价、广告商剩余预算等因素,通过最大化当前输入元素信息的某个函数得到当前的最优值。素信息的某个函数得到当前的最优值。4竞争率竞争率存在某个小于存在某个小于1的常数的常数c,使得对于任意输入,一个具体的在使得对于任意输入,一个具体的在线算法的结果至少是最优离线算法结果的线算法的结果至少
7、是最优离线算法结果的c倍。倍。1 1二部图二部图设设G=(G=(V,EV,E)是一个无向图,如果顶点)是一个无向图,如果顶点V V可分割为两个互不相交的子集可分割为两个互不相交的子集( (A,BA,B),并且),并且图中的每条边(图中的每条边(i i,j j)所关联的两个顶点)所关联的两个顶点i i和和j j分别属于这两个不同的顶点集,则称分别属于这两个不同的顶点集,则称图图G G为一个二分图。为一个二分图。2 2最大匹配最大匹配一个二分图一个二分图G G,在,在G G的一个子图的一个子图M M中,中,M M的边集中的任意两条边都不依附于同一个顶点,的边集中的任意两条边都不依附于同一个顶点,选
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 互联网 大规模 挖掘
