大数据处理技术Spark-厦门大学数据库实验室.PDF

大数据处理技术Spark-厦门大学数据库实验室.PDF

  1. 1、本文档共120页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据处理技术Spark-厦门大学数据库实验室.PDF

厦门大学研究生课程 《大数据处理技术Spark》 /post/7659/ 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 第8章Spark MLlib (PPT版本号:2017年春季学期) 林子雨 厦门大学计算机科学系 扫一扫访问班级主页 E-mail: ziyulin@ 主页:/linziyu 《大数据处理技术厦门大学计算机科学系Spark》 厦门大学计算机科学系 林子雨 2017ziyulin@年版 提纲 8.1 Spark MLlib简介 8.2 机器学习工作流 8.3 特征抽取、转化和选择 8.4 分类与回归 8.5 聚类算法 8.6 推荐算法 8.7 机器学习参数调优 免费在线教程:/blog/spark/ 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 ziyulin@ 8.1 Spark MLlib简介 8.1.1 什么是机器学习 8.1.2 基于大数据的机器学习 8.1.3 Spark 机器学习库MLLib 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 ziyulin@ 8.1.1 什么是机器学习 机器学习可以看做是一门人工智能的科学,该领域的主要 研究对象是人工智能。机器学习利用数据或以往的经验, 以此优化计算机程序的性能标准。 机器学习强调三个关键词:算法、经验、性能 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 ziyulin@ 8.1.2 基于大数据的机器学习 •传统的机器学习算法,由于技术和单机存储的限制,只能 在少量数据上使用,依赖于数据抽样 •大数据技术的出现,可以支持在全量数据上进行机器学习 •机器学习算法涉及大量迭代计算 •基于磁盘的MapReduce不适合进行大量迭代计算 •基于内存的Spark 比较适合进行大量迭代计算 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 ziyulin@ 8.1.3 Spark 机器学习库MLlib •Spark提供了一个基于海量数据的机器学习库,它提供 了常用机器学习算法的分布式实现 •开发者只需要有Spark 基础并且了解机器学习算法的原 理,以及方法相关参数的含义,就可以轻松的通过调用 相应的API 来实现基于海量数据的机器学习过程 •Spark-Shell的即席查询也是一个关键。算法工程师可 以边写代码边运行,边看结果 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 ziyulin@ 8.1.3 Spark 机器学习库MLlib •MLlib是Spark的机器学习(Machine Learning)库,旨在 简化机器学习的工程实践工作 •MLlib由一些通用的学习算法和工具组成,包括分类、回 归、聚类、协同过滤、降维等,同时还包括底层的优化原 语和高层的工作流(Pipeline)API ,具体如下: •算法工具:常用的学习算法,如分类、回归、聚类和协 同过滤; •特征化工具:特征提取、转化、降维和选择工具; •工作流(Pipeline):用于构建、评估和调整机器学习工 作流的工具; •持久性:保存和加载算法、模型和管道; •实用工具:线性代数、统计、数据处理等工具。 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨

文档评论(0)

zhoujiahao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档