男人爆笑图

大牛用三年谱写出大数据互联网大规模数据挖掘与分布式处理新乐章

  • 日期:2019-12-04 14:19:08
  • 来源:互联网
  • 编辑:小优
  • 阅读人数:380

众所周知,移动互联网、社交媒体、电子商务和各种传感器的运用产生了超大数据集,挖掘这些数据可以提炼出有用的信息。

本篇以大数据环境下的数据挖掘和机器学习为重点,全面介绍了实践中行之有的数据处理算法,是在校学生和相关从业人员的必备读物。主要内容包括10大内容:

◆分布式文件以及MapReduce工具;

◆相似性搜索;

◆数据流处理以及针对易丢失数据等特殊情况的专用处理算法;

◆搜索引擎技术,如谷歌的PageRank;

◆频繁项集挖掘;

◆大规模高维数据集的聚类算法;

◆Web应用中的关键问题一广 告和推荐;

◆社会网络图挖掘;

◆降维处理,如SVD分解和CUR分解;

◆大规模机器学习。

数据挖掘基本概念

本章为全书的导论部分,首先阐述数据挖掘的本质,并讨论其在多个相关学科中的不同理解。

接着介绍邦弗朗尼原理( Bonferronis principle) 该原理实际上对数据挖掘的过度使用提出了警告。

本章还概述了一些非常有用的思想,它们未必都属于数据挖掘的范畴,但是却有利于理解数据挖掘中的某些重要概念。这些思想包括度量词语重要性的TF.IDF权重、哈希函数及索引结构的性质、包含自然对数底e的恒等式等。最后,简要介绍了后续章节所要涉及的主题。

大牛用三年谱写出大数据互联网大规模数据挖掘与分布式处理新乐章(图1)

相似项发现

一个基本的数据挖掘问题是从数据中获得“相似”项。我们将在3.1节中介绍该问题的相关应用,并且给出一个具体的Web网页近似查重的例子。这些近似重复的网页可能是抄袭网页,或者仅仅是主机及其他镜像网页信息有所不同的镜像网页。

首先我们将相似度问题表述为寻找具有相对较大交集的集合问题,接着我们介绍如何将文本相似问题转换为上述集合问题并通过著名的“shingling“ 技术来解决。我们介绍一一个称为最小哈希( minhashing)的技术,它能够对大集合进行压缩,并且可以基于压缩后的结果推导原始集合的相似度。当相似度要求很高时,也可以使用-些其他的技术,这些技术将在3.9节进行介绍。

任意类型的相似项搜索中存在的另外-一个重要问题是,即使对每项之间的相似度计算非常简单,但是由于项对数目过多,无法对所有项对检测相似度。针对该问题,催生了一种称为局部敏感哈希( Locality Sensitive Hashing,简称LSH )的技术,该技术能够把搜索范围集中在那些可能相似的项对上面。

最后,我们不再将相似度的概念限制在集合的交集运算上,而是考虑在任意空间下的距离度量理论。与此同时,这也激发了一个LSH的通用框架的出现,该框架能够应用在相似度的其他定义中。

大牛用三年谱写出大数据互联网大规模数据挖掘与分布式处理新乐章(图2)

数据流挖掘

本书介绍的大部分算法都假定是从数据库中进行挖掘。也就是说,如果真需要数据的时候,所有数据都可用。本章中,我们将给出另外- -种假设:数据以一-个或多个流的方式到来,如果不对数据进行及时的处理或者存储,数据将会永远丢失。此外,我们假定数据到来的速度实在是太快,以致将全部数据存在活动存储器( 即传统数据库)并在我们选定的时间进行交互是不可能的。

数据流处理的每个算法都在某种程度上包含流的汇总( summarization)过程。我们首先考虑如何从流中抽取有用样本,以及如何从流中过滤除大部分“不想要” 的元素。我们展示如何估计流中的独立元素个数,其中估计方法所用的存储开销远少于列举所有所见元素的开销。

另外一种对流进行汇总的方法是只观察一个定长“窗口”该窗口由最近的n个元素组成,其中n是某个给定值,通常较大。我们就当它是数据库的一一个关系-样对窗口进行查询处理。

如果有很多流并且/或者n很大,我们可能无法存下每个流的整个窗口。因此,即使对这些“窗口”我们都需要进行汇总处理。对于-一个位流窗口,其中的1的数目的近似估计是一个基本问题。

我们将使用一种比存储整个窗口消耗空间要少很多的方法。该方法也能推广到对各种求和值进行近似。.

大牛用三年谱写出大数据互联网大规模数据挖掘与分布式处理新乐章(图3)

频繁项集

首先,我们介绍数据的“购物篮”模型,其本质上是“项”和“购物篮”两类元素之间的多对多关系。但是其中有一些关于数据形状的假设。频繁项集问题就是寻找出现在很多相同购物篮中(与该购物篮相关的)的项集。

再接下来,我们还会考虑一些更快的近似算法,这些算法不能保证找到所有的频繁项集。这类算法当中的一些算法也应用了并行化机制,包括基于MapReduce框架的并行化方法。

最后,我们将简要地讨论数据流中的频繁项集的发现问题。

大牛用三年谱写出大数据互联网大规模数据挖掘与分布式处理新乐章(图4)

推荐.

有一类包罗万象的Web应用涉及用户对选项的喜好进行预测,这种称为推荐( recommendation system )本章将首先给出这类的一些最重要应用样例。

推荐使用一系列不同的技术,这些可以分成两大类:

基于内容的(Content-basedSystem)这类主要考察的是推荐项的性质。例如,如果一个Netlix的用户观看了多部西部牛仔片,那么就会将数据库中属于“西部牛仔”类的推荐给该用户。

协同过滤( Collaborative Filtering System )这类通过计算用户或/和项之间的相似度来推荐项。与某用户相似的用户所喜欢的项会推荐给该用户。这类推荐可以使用第3章的相似性搜索和第7章的聚类技术的基本原理。但是,这些技术本身并不足够,有一些新的算法被证明在推荐中十分有效。

大牛用三年谱写出大数据互联网大规模数据挖掘与分布式处理新乐章(图5)

大规模机器学习

现在有很多算法被归入“机器学习”类。同本书介绍的其他算法一样,这些算法的目的都是从数据中获取信息。所有数据分析算法都是基于数据生成概要,基于这些概要信息可以进行决策。

在很多例子中,第6章介绍的频繁项集分析方法都生成了关联规则这类信息,这些信息可以用于规划策略或者为其他目标服务。

然而,称为“机器学习”的算法不仅能够对数据进行概括,还可以将它们视作模型的学习器或者数据的分类器,因而可以学到数据中未来可以见到的某种信息。例如,第7章介绍的聚类算法可以产生- -系列簇,这些簇不仅能告诉我们有关被分析数据训练集的信息,而且能够将未来数据分到聚类算法生成的某-个簇当中。 因此,机器学习爱好者通常用“非学习”这个新词来表达聚类,术语“非” unsupervised 表示输人数据并不会告诉聚类算法最后输出的簇到底应该是什么。而在有 supervised 的机器学习本章的主题中,给出的数据中包含了至少对- -部分数据进行正确分类的信息。已经分好类的数据称为训练集 training set

大牛用三年谱写出大数据互联网大规模数据挖掘与分布式处理新乐章(图6)

大牛用三年谱写出大数据互联网大规模数据挖掘与分布式处理新乐章(图7)

由于篇幅过长,小编这里就不做过多的介绍了,想必大家对数据挖掘和分布式也有自己的一些了解和见解,但是呢,我相信大家对大规模这个数字还有些概念上的差距,希望大家能够仔细品读这篇的真谛!

本文相关词条概念解析:

数据挖掘

《数据挖掘》是一本关注数据挖掘领域最新进展的国际中文期刊,由汉斯出版社出版发行,主要刊登数据结构、数据安全、知识工程等计算机信息系统建设相关内容的学术论文和成果评述。

数据

数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。数据作为信息的载体,当然要分析数据中包含的主要信息,及分析数据的主要特征。数据(Data)是载荷或记录信息的按一定规则排列组合的物理符号。

网友评论

提交评论

网站申明:本站图片仅为设计美化,与文章无关。如认为影响您的权益,请与我们联系。