本书由斯坦福大学"Web 挖掘"课程的内容总结而成,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统、社会网络图挖掘和大规模机器学习等。其中每一章节有对应的习题,以巩固所讲解的内容。读者更可以从网上获取相关拓展材料。
书名 | 大数据 互联网大规模数据挖掘与分布式处理 | 又名 | bigdata |
---|---|---|---|
作者 | 莱斯科夫 (Jure Leskovec) / 拉贾拉曼 (Anand Rajaraman) / 厄尔曼 (Jeffrey David Ullman) | 原版名称 | Mining of Massive Datasets |
译者 | 王 斌 | ISBN | 9787115395252 |
类别 | IT | 页数 | 372 |
定价 | CNY 79.00 | 出版社 | 人民邮电出版社 |
出版时间 | 2015-7-1 | 装帧 | 平装 |
开本 | 16 | 语种 | 简体中文 |
商品尺寸 | 23 x 18.7 x 2 cm | 商品质量 | 680g |
大数据对企业产生的一个重要价值就是分析数据的质量,此外,企业内部是否会形成一个个孤立的数据孤岛,数据是否会成就企业内某些人或团队新的权力,导致数据不能得到实时有效地分享,这些都会是阻碍大数据在企业中有...
芝诺大数据教学科研平台以校企联合培养模式为手段,通过校企合作联合培养机制,让企业、行业深度参与人才培养过程,逐步实现校企共同制定培养目标、共同建设课程体系和教学内容、共同实施培养过程、共同把控培养质量...
如果保存了应该有轴网及框架柱的,你检查一下是否点到层数不对,如在二层画的,打开后软件直接出现的是一层,所以没有;另一个可以按柱的快捷键“Z”看看是否显示框架柱,切换楼层看看其它层是否有框架柱。
实用标准文档 文案大全 HDPE 5310M 中石化扬子石油化工股份有限公司  电线电缆 ①原料描述部分 规格级别: 电缆绝缘料 外观颜色: 本色 用途概述: 用于低、中、高速绝缘生产线 备注说明: 性能 :由乙烯、丁烯集合而成的双峰高密度聚乙烯,并含有适量助剂的本色粒料。因为其 分子量呈双峰分布,所以它具有优异的加工性能、很好的力学性能及良好的电性能。 ②原料技术数据 性能项目 试验条件 [状态 ] 测试方法 测试数据 数据单位 基本性 能 密度 / / 0.941-0.959 g/cm3 熔体流动速率 / / ≤1.0 g/10min 机械性 能 拉伸强度 / / ≥19.0 MPa 断裂伸长率 / / ≥400 % 耐环境应力开裂性 48h / ≤2/10 / 电气性 能 介电常数 1MHz / ≤2.40 / 体积电阻率 / / ≥1×101
随着大数据应用的日渐普及,如何更有针对性地采集大数据,如何深入挖掘大数据的价值,如何将大数据变现,正在成为业界关注的焦点。与此同时,数据安全、数据流通等问题也日渐凸显。今天,人们不再过多讨论大数据的概念和意义,而开始大力推进相关技术的应用,解决上述问题、消除相关痛点已成为整个产业的共同需要。
世界杯热潮来袭,让大数据和人工智能(AI)技术又火了一把。最近一段时间,全球各大组织纷纷利用大数据和AI技术对世界杯比赛结果进行预测,其中出现了不少“神算”,让人们对于大数据和AI技术的应用更加憧憬。
大数据和AI技术的发展正在形成融合发展的态势。一方面,大数据为AI技术的发展提供“燃料”,业界普遍认为数据驱动的AI时代已经来临;另一方面,AI发展带来的算力提升,让人们能够以前所未有的速度和效率挖掘数据价值。可以说,大数据和AI就是一对完美搭档,AI和大数据的协同发展正在改变我们的生活。
深度融合,相互促进
AI和大数据正在被越来越多地同时提及,两者融合应用的场景日渐增多。为什么会这样因为大数据和AI堪称“天生一对”。
大数据,从定义上看,指的是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。而AI指的是研究、开发用于模拟、延伸和扩展人的理论、技术及应用系统的一门新技术科学。
大数据是AI的基石。百度首席科学家熊辉博士认为,数据驱动的AI时代已经到来。数据驱动的主要特征是精细化的数据搜集导致一切事物会更加清晰,但同时大量数据积累的过程也会造成信息的冗余,并使得获取高附加值信息的成本大幅提升。
大数据的海量数据,能够为AI的发展提供丰富的数据积累和训练资源。举一个例子,AI的人脸识别需要海量的图像数据,仅仅是百度的人脸识别系统的训练,就需要2亿幅人脸画像。而阿尔法狗之所以能够击败人类棋手,也得益于大数据的积累和洞察,通过对海量的围棋数据的分析和学习,最终将人类经验变成了自己的精准判断。
AI并不是一个“新”技术,其在上世纪60年代就已经出现。然而,业界普遍认为与前几次AI浪潮不同的是,这一次的AI技术的兴起,是由数据驱动的。因而,AI此轮发展将对人类的生产和生活产生深刻的影响。
在大数据推动AI发展的同时,AI也在助力大数据的发展。大数据,其最大的特点就是“大”,网络和应用的飞速发展,使得人类每天产生的数据量激增,这些数据极度庞大和复杂。对于今天的人们而言,如何在海量的数据中找到真正有用的数据,并对其进行分析,并不是一件容易的事情。换一句话说,如果没有AI技术的支撑,这绝对是无法想象并且不可能完成的。
AI技术的发展,尤其是AI芯片的出现,大大提升了计算机规模处理数据的能力,这使得之前无法处理的数据能够被处理,数据自然也将发挥更大的价值,为各行各业的发展提供支撑。
创新应用,无限可能
大数据和AI的融合正在催生一个又一个创新应用,让更多不可能变成可能。
京东就正在将AI和大数据技术结合在一起,打造智慧供应链。基于AI和大数据技术,京东构建了智慧物流体系,包括建立无人仓储,让机器人融入生产、包装、搬运、挑选等诸多环节。而更为重要的是,大数据和AI的结合,能够帮助京东打造智慧供应链,深入了解和挖掘用户的需求,根据产品、库存、促销、生命周期等多种因素,动态制定价格,最终拉动销售。
同样是借助大数据和AI技术,重庆法院在信用卡纠纷案件中打造“类型化案件智能审判平台”。该平台已具备批量网上立案、智能审理裁判、深度运用数据、规范监督管理四大功能。平台上线后,大大提升了法院的办案效率,案件平均立案时间缩短到10分钟以内,平均审理时间缩短27.26天。
AI和大数据技术正在应用到工业、农业、金融、交通、教育等行业中,而除了提高生产效率,提升服务质量之外,还能给我们的生活带来一些“趣味”。比如国外设计师MinkiKim就设计了一个智能香氛系统,其能够通过大数据采集、分析以及AI技术,自动调制出用户喜爱的专属香味,提升愉悦感。
尽管大数据和AI技术的发展刚刚起步,很多应用尚在落地推广阶段,但是已经给我们带来了改变和惊喜。正因如此,我们对于两者未来的“相知相助”有了更多的想象和期待。
近些年,大数据概念不断被提起,各种媒体也开始持续报道,各种消息中透露出一个现象,一个全新的时代已经到来——大数据时代。
对于从事互联网或者信息行业的从业人员来说,他们对于大数据的了解肯定是比较透彻,比较全面,可是对于广大普通群众而言,大数据在心中还只是一个新的词汇,它到底代表什么,有什么价值,到底有多大,有可能还都是一头雾水,那我们就简单的一起来解读一下大数据。
1.大数据产生的背景
进入2012年,大数据一词已经越来越多地被提及,我们用它来描述和定义信息时代产生的海量数据,并命名与之相关的技术发展与创新。
作为信息高速发展下的产物,大数据已经被《纽约时报》《华尔街日报》这样权威的财经杂志在封面专栏报道,而且还进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的证券公司写进了投资推荐报告,可见它的高人气背后的超强影响力。
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
2.大数据到底是什么
对于“大数据”,研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。简单来说,大数据具有4个特点特点:大量、高速、多样、价值。
从技术上看,大数据与云计算的关系就像一枚的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。随着云时代的来临,大数据也吸引了越来越多的关注。
3.大数据的应用价值
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
大数据的应用其实早已渗透到人们生活中的方方面面:淘宝网运用大数据为客户推荐商品信息,阿里巴巴用大数据成立了小微金融服务集团,而谷歌更是计划用大数据来接管世界。当下,很多行业都开始增加对大数据的需求。大数据时代不仅处理着海量的数据,同时也加工、传播、分享它们。不知不觉中,数据可视化已经遍布我们生活的每一个角落,毕竟普通用户往往更关心结果的展示。百度地图采用LBS定位春运的可视化大数据,就引起了各界对新闻创新和大数据可视化的热议。
数据可视化起源于1960年计算机图形学,那时候人们使用计算机创建图形图表,可视化提取出来的数据,可以将数据的各种属性和变量呈现出来。随着计算机硬件的发展,人们创建更复杂规模更大的数字模型,于是乎发展了数据采集设备和数据保存设备,而此时也需要更高级的计算机图形学技术及方法来创建这些规模庞大的数据集。
随着数据可视化平台的拓展,应用领域的增加,表现形式的不断变化,以及增加了诸如实时动态效果、用户交互使用等,数据可视化像所有新兴概念一样边界不断扩大。
大数据时代到来,我们每个人,生活的各行各业都在直接或者间接享受这大数据技术带来的便捷,随着大数据技术日益发展和成熟,未来,必将带领我们进入一个数字化、智能化的新世界。
最近,“大数据”成为热词,这主要源于近期一则新闻——教育部公布的最新高校新增专业名单中,有32所高校成为第二批成功申请“数据科学与大数据技术”本科新专业的高校。加上第一批成功申请该专业的北京大学、对外经济贸易大学及中南大学,目前共有35所大学获批开设大数据专业。
大数据专业热度空前的背后,是大数据在全球的蓬勃发展。分析机构Wikibon日前发布了最新的2017年大数据全球预测,报告指出,2016年全球大数据硬件、软件和服务整体市场增长22%,达到281亿美元,这促使大数据成为技术领域更具吸引力的领域之一。同时,模型显示到2027年,在大数据硬件、软件和服务上整体开支的复合年增长率为12%,而这主要是受到了大数据软件的推动。
事实上,全球多家市场研究机构统计的数据都显示,大数据市场正在快速兴起,无论是大数据市场的整体规模,还是大数据公司的数量都在快速增长,大数据技术正在越来越多的行业中得到应用,随之而来的就是大数据人才问题的凸显。相关统计数据显示,未来3~5年,中国需要180万数据人才,但目前只有约30万人。
而麦肯锡早在几年前就预测,2018年,大数据或者数据工作者的岗位需求将激增,其中大数据科学家的缺口在14万到19万之间,对于懂得如何利用大数据作决策的分析师和经理的岗位缺口则将达到150万。
可以看到,在市场需求和人才供应的不均衡下,大数据人才问题日渐严峻。人才紧缺带来的最直观的现象就是薪酬的提升。目前,一个大数据工程师的月薪万,一个有几年工作经验的数据分析师的薪酬在30万~50万元之间,而更顶尖的大数据技术人才则是年薪轻松超百万,成为各大互联网和IT公司争夺的对象。因而甚至有观点认为,大数据专业正在成为求职者进入大公司的捷径。
近期的另外一则消息也凸显了大数据人才的重要性,近日,贵州第一批49名挂职大数据人才和科技副职到岗工作,这是贵州省委省政府围绕大扶贫和大数据战略,以人才驱动创新发展的重大举措。这些集中引进的大数据人才主要担任大数据领域有关机构副职,到贵阳市、贵安新区、遵义市等大数据产业发展重点地区和贵州省大数据局、“20朵云”大数据单位等重点部门任职。
在大数据已经上升为国际战略的今天,大数据人才正在拥有更多的发展机会。不过需要看到的是,大数据人才的培养并不是一朝一夕的事情,35所高校开设大数据专业,也并不意味着大数据人才紧缺的问题能够得到根本性的解决。一个专业从设立到成熟,为社会输送合格的人才,需要时间和强大的师资力量的支撑。而且随着大数据、互联网、人工智能、云计算等技术的融合发展,未来的社会需要更多复合型的技术人才。
因而,如何在借鉴国外经验的基础上科学设置大数据专业课程,如何跟随产业变化,培养满足技术和企业发展需要的大数据人才,是整个业界需要思考和解决的问题。