- 1、本文档共120页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据处理技术Spark-厦门大学数据库实验室.PDF
厦门大学研究生课程
《大数据处理技术Spark》
/post/7659/
温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字
第8章Spark MLlib
(PPT版本号:2017年春季学期)
林子雨
厦门大学计算机科学系
扫一扫访问班级主页 E-mail: ziyulin@
主页:/linziyu
《大数据处理技术厦门大学计算机科学系Spark》 厦门大学计算机科学系 林子雨 2017ziyulin@年版
提纲
8.1 Spark MLlib简介
8.2 机器学习工作流
8.3 特征抽取、转化和选择
8.4 分类与回归
8.5 聚类算法
8.6 推荐算法
8.7 机器学习参数调优
免费在线教程:/blog/spark/
《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 ziyulin@
8.1 Spark MLlib简介
8.1.1 什么是机器学习
8.1.2 基于大数据的机器学习
8.1.3 Spark 机器学习库MLLib
《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 ziyulin@
8.1.1 什么是机器学习
机器学习可以看做是一门人工智能的科学,该领域的主要
研究对象是人工智能。机器学习利用数据或以往的经验,
以此优化计算机程序的性能标准。
机器学习强调三个关键词:算法、经验、性能
《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 ziyulin@
8.1.2 基于大数据的机器学习
•传统的机器学习算法,由于技术和单机存储的限制,只能
在少量数据上使用,依赖于数据抽样
•大数据技术的出现,可以支持在全量数据上进行机器学习
•机器学习算法涉及大量迭代计算
•基于磁盘的MapReduce不适合进行大量迭代计算
•基于内存的Spark 比较适合进行大量迭代计算
《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 ziyulin@
8.1.3 Spark 机器学习库MLlib
•Spark提供了一个基于海量数据的机器学习库,它提供
了常用机器学习算法的分布式实现
•开发者只需要有Spark 基础并且了解机器学习算法的原
理,以及方法相关参数的含义,就可以轻松的通过调用
相应的API 来实现基于海量数据的机器学习过程
•Spark-Shell的即席查询也是一个关键。算法工程师可
以边写代码边运行,边看结果
《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 ziyulin@
8.1.3 Spark 机器学习库MLlib
•MLlib是Spark的机器学习(Machine Learning)库,旨在
简化机器学习的工程实践工作
•MLlib由一些通用的学习算法和工具组成,包括分类、回
归、聚类、协同过滤、降维等,同时还包括底层的优化原
语和高层的工作流(Pipeline)API ,具体如下:
•算法工具:常用的学习算法,如分类、回归、聚类和协
同过滤;
•特征化工具:特征提取、转化、降维和选择工具;
•工作流(Pipeline):用于构建、评估和调整机器学习工
作流的工具;
•持久性:保存和加载算法、模型和管道;
•实用工具:线性代数、统计、数据处理等工具。
《大数据处理技术Spark》 厦门大学计算机科学系 林子雨
文档评论(0)