下载安卓APP
龙果安卓APP

学院首页 > 课程列表 > PySpark 大数据处理及机器学习Spark2.3

  • 章节
  • 提问
  • 手机观看

    扫码下载安卓APP

    龙果安卓APP

PySpark 大数据处理及机器学习Spark2.3

1 - (免费) 课时介绍 00:14:26分钟
2 - (免费) Spark课程前言 00:16:56分钟
3 - (免费) Spark基础概念 00:18:59分钟
4 - 镜像制作方案和集群网络规划及子网配置和SSH无密钥登录规则配置ssh_config 00:17:04分钟
5 - Hadoop、HDFS、Yarn配置文件详解 00:18:04分钟
6 - Spark及Hive配置文件详解 00:13:11分钟
7 - Dockerfile制作Hadoop、Spark、Hive、Mysql镜像详解 00:26:50分钟
8 - (免费) 启动5个容器并开启Hadoop、Spark、Hive、Mysql服务 00:38:11分钟
9 - pyspark模块介绍 00:14:12分钟
10 - SparkContext编程入口及Accumulator累加器详解 00:17:45分钟
11 - addFile方法和SparkFiles的get方法加载和获取本地文件,HDFS文件,http文件 00:22:24分钟
12 - binaryFiles读取二进制文件 00:05:02分钟
13 - Broadcast广播变量和setLogLevel日志级别 00:17:05分钟
14 - 文件的读取和保存及runJob方法和parallelize方法的使用 00:23:31分钟
15 - union方法和statusTracker方法讲解 00:07:16分钟
16 - aggregate和aggregateByKey的异同及注意事项 00:16:47分钟
17 - collectAsMap和fold方法的理解及正确使用 00:16:42分钟
18 - foreach和foreachPartitions原理及使用场景和注意事项 00:06:16分钟
19 - histogram和lookup方法的使用详解 00:17:47分钟
20 - reduce、sampleStdev、saveAsPickleFile、saveAsTextFile及指定压缩格式 00:16:54分钟
21 - sequenceFile序列文件的保存和读取 00:06:44分钟
22 - takeSample、treeAggregate和treeReduce方法的使用及注意事项 00:17:54分钟
23 - coalesce、repartition和partitionBy方法的使用技巧 00:20:41分钟
24 - cogroup、combineByKey、reduceByKey、groupByKey、aggregateByKey的异同及性能对比 00:17:07分钟
25 - foldByKey、groupBy、groupWith几个方法的使用 00:18:14分钟
26 - 集合操作intersection、subtract、union,subtractByKey 00:04:39分钟
27 - join、fullOuterJoin、leftOuterJoin、rightOuterJoin之RDD关联操作 00:05:58分钟
28 - glom、mapPartitions、mapValues等方法详细讲解 00:13:20分钟
29 - pipe、randomSplit、sampleByKey、sample方法详解 00:08:03分钟
30 - sortBy、sortByKey、values、zip、zipWithUniqueId等方法完全披露 00:09:25分钟
31 - StorageLevel中常见的存储级别 00:04:34分钟
32 - SparkConf对象详解 00:11:04分钟
33 - 广播变量深入讲解 00:06:36分钟
34 - Accumulator累加器详解 00:04:05分钟
35 - StatusTracker Spark作业运行状态监控 00:04:49分钟
36 - pyspark之SparkSQL模块介绍 00:14:28分钟
37 - SparkSession编程入口 00:13:20分钟
38 - 掌握创建DataFrame的八种方法 00:21:13分钟
39 - range和udf用户自定义函数详解 00:20:38分钟
40 - agg聚合方法及数据缓存方法cache的讲解 00:21:17分钟
41 - colRegex及corr计算皮尔森相关系数 00:19:57分钟
42 - crossJoin笛卡尔积和cube多维数据立方体 00:18:25分钟
43 - explain、dropna及filter和where算子详解 00:19:33分钟
44 - groupBy、intersect、join方法详解 00:19:22分钟
45 - rollup、replace和randomSplit方法讲解 00:18:21分钟
46 - summary统计方法及toPandas转换为Pandas对象 00:29:56分钟
47 - GroupedData 对象 00:30:04分钟
48 - DataFrame中的Column对象(上) 00:30:24分钟
49 - DataFrame中的Column对象(下) 00:19:06分钟
50 - Catolog对象详解 00:36:07分钟
51 - Row对象详解 00:05:34分钟
52 - DataFrameNaFunctions空数据处理 00:12:24分钟
53 - DataFrameStatFunctions统计模块详解 00:11:05分钟
54 - DataFrameReader读取外部数据生成DataFrame 00:20:04分钟
55 - DataFrameWriter将DataFrame数据写入外部存储 00:22:19分钟
56 - types 类型详解 00:15:03分钟
57 - functions内置函数详解 00:16:06分钟
58 - 本地密集、稀疏向量和LabeledPoint 00:22:55分钟
59 - 本地矩阵和4种分布式矩阵 00:32:24分钟
60 - Statistics基本的统计方法 00:20:18分钟
61 - 假设检验、随机数据的生成及核密度估计 00:13:23分钟
62 - Piplines构建机器学习工作流 00:43:43分钟
63 - TF-IDF词频逆文档数和Word2vec词向量表示 00:27:45分钟
64 - CountVectorizer和Tokenizer、RegexTokenizer特征转化 00:14:16分钟
65 - PCA主成分分析、多项式核函数扩展特征空间、数据正则化、特征标准化 00:34:12分钟
66 - 分桶器、向量组合器、SQL转换器及元素放缩器 00:17:22分钟
67 - 特征个数过滤器、缺失值处理器、类别编码器、向量类别判断器 00:21:26分钟
68 - 逻辑回归算法、原理、公式推导及二分类和多分类实践 00:28:42分钟
69 - 完全理解L1,L2正则化的作用 00:22:25分钟
70 - 决策树算法原理、随机深林、梯度提升树代码实践 00:41:44分钟
71 - 多层感知机分类算法 00:13:05分钟
72 - SVM支持向量机分类算法 00:21:41分钟
73 - OneVsRest多分类算法 00:05:37分钟
74 - Naive Bayes 朴素贝叶斯分类器 00:10:03分钟
75 - Linear Regression线性回归 00:24:15分钟
76 - GLMs广义线性模型 00:07:00分钟
77 - 回归树 00:11:22分钟
78 - K-Means聚类算法 00:21:06分钟
79 - 二分K均值算法 00:06:24分钟
80 - GMM高斯混合模型 00:07:30分钟
81 - 基于ALS交替最小二乘法的协同过滤推荐算法电影推荐实践 00:37:14分钟
82 - FP-Growth频繁项集推荐算法 00:14:39分钟
83 - 超参数网格搜索 00:21:22分钟
84 - 什么是Docker技术 00:08:20分钟
85 - 为什么要使用Docker 00:04:52分钟
86 - Docker中的基本概念 00:05:42分钟
87 - Docker安装 00:04:14分钟
88 - 获取镜像 00:08:19分钟
89 - 创建镜像(上) 00:09:06分钟
90 - 创建镜像(下) 00:10:25分钟
91 - 本地导入镜像 00:07:26分钟
92 - 保存、载入、删除镜像 00:05:14分钟
93 - Docker容器的创建、启动、和停止 00:11:19分钟
94 - 进入后台运行的容器 00:08:59分钟
95 - 导入、导出、删除容器 00:07:46分钟
96 - Docker公有仓库Docker Hub 00:10:26分钟
97 - 创建Docker私有仓库 00:08:36分钟
98 - 数据卷 00:15:26分钟
99 - 数据卷容器 00:10:30分钟
100 - 数据卷容器备份、恢复、迁移数据卷 00:11:06分钟
101 - Docker容器绑定外部IP和端口 00:11:26分钟
102 - 容器互联 00:08:18分钟
103 - 一个完整的例子 00:35:10分钟
104 - Dockerfile基本结构 00:08:33分钟
105 - Dockerfile中的指令 00:21:48分钟

PySpark 大数据处理及机器学习Spark2.3

优惠价: 399

难    度:中级

课    时: 105

讲    师:小米先生

     购买咨询

课程大纲
  • 第1节

    课时介绍

    [免费观看]
    00:14:26分钟 |
  • 第2节

    Spark课程前言

    [免费观看]
    00:16:56分钟 |
  • 第3节

    Spark基础概念

    [免费观看]
    00:18:59分钟 |
  • 第4节

    镜像制作方案和集群网络规划及子网配置和SSH无密钥登录规则配置ssh_config

    00:17:04分钟 |
  • 第5节

    Hadoop、HDFS、Yarn配置文件详解

    00:18:04分钟 |
  • 第6节

    Spark及Hive配置文件详解

    00:13:11分钟 |
  • 第7节

    Dockerfile制作Hadoop、Spark、Hive、Mysql镜像详解

    00:26:50分钟 |
  • 第8节

    启动5个容器并开启Hadoop、Spark、Hive、Mysql服务

    [免费观看]
    00:38:11分钟 |
  • 第9节

    pyspark模块介绍

    00:14:12分钟 |
  • 第10节

    SparkContext编程入口及Accumulator累加器详解

    00:17:45分钟 |
  • 第11节

    addFile方法和SparkFiles的get方法加载和获取本地文件,HDFS文件,http文件

    00:22:24分钟 |
  • 第12节

    binaryFiles读取二进制文件

    00:05:02分钟 |
  • 第13节

    Broadcast广播变量和setLogLevel日志级别

    00:17:05分钟 |
  • 第14节

    文件的读取和保存及runJob方法和parallelize方法的使用

    00:23:31分钟 |
  • 第15节

    union方法和statusTracker方法讲解

    00:07:16分钟 |
  • 第16节

    aggregate和aggregateByKey的异同及注意事项

    00:16:47分钟 |
  • 第17节

    collectAsMap和fold方法的理解及正确使用

    00:16:42分钟 |
  • 第18节

    foreach和foreachPartitions原理及使用场景和注意事项

    00:06:16分钟 |
  • 第19节

    histogram和lookup方法的使用详解

    00:17:47分钟 |
  • 第20节

    reduce、sampleStdev、saveAsPickleFile、saveAsTextFile及指定压缩格式

    00:16:54分钟 |
  • 第21节

    sequenceFile序列文件的保存和读取

    00:06:44分钟 |
  • 第22节

    takeSample、treeAggregate和treeReduce方法的使用及注意事项

    00:17:54分钟 |
  • 第23节

    coalesce、repartition和partitionBy方法的使用技巧

    00:20:41分钟 |
  • 第24节

    cogroup、combineByKey、reduceByKey、groupByKey、aggregateByKey的异同及性能对比

    00:17:07分钟 |
  • 第25节

    foldByKey、groupBy、groupWith几个方法的使用

    00:18:14分钟 |
  • 第26节

    集合操作intersection、subtract、union,subtractByKey

    00:04:39分钟 |
  • 第27节

    join、fullOuterJoin、leftOuterJoin、rightOuterJoin之RDD关联操作

    00:05:58分钟 |
  • 第28节

    glom、mapPartitions、mapValues等方法详细讲解

    00:13:20分钟 |
  • 第29节

    pipe、randomSplit、sampleByKey、sample方法详解

    00:08:03分钟 |
  • 第30节

    sortBy、sortByKey、values、zip、zipWithUniqueId等方法完全披露

    00:09:25分钟 |
  • 第31节

    StorageLevel中常见的存储级别

    00:04:34分钟 |
  • 第32节

    SparkConf对象详解

    00:11:04分钟 |
  • 第33节

    广播变量深入讲解

    00:06:36分钟 |
  • 第34节

    Accumulator累加器详解

    00:04:05分钟 |
  • 第35节

    StatusTracker Spark作业运行状态监控

    00:04:49分钟 |
  • 第36节

    pyspark之SparkSQL模块介绍

    00:14:28分钟 |
  • 第37节

    SparkSession编程入口

    00:13:20分钟 |
  • 第38节

    掌握创建DataFrame的八种方法

    00:21:13分钟 |
  • 第39节

    range和udf用户自定义函数详解

    00:20:38分钟 |
  • 第40节

    agg聚合方法及数据缓存方法cache的讲解

    00:21:17分钟 |
  • 第41节

    colRegex及corr计算皮尔森相关系数

    00:19:57分钟 |
  • 第42节

    crossJoin笛卡尔积和cube多维数据立方体

    00:18:25分钟 |
  • 第43节

    explain、dropna及filter和where算子详解

    00:19:33分钟 |
  • 第44节

    groupBy、intersect、join方法详解

    00:19:22分钟 |
  • 第45节

    rollup、replace和randomSplit方法讲解

    00:18:21分钟 |
  • 第46节

    summary统计方法及toPandas转换为Pandas对象

    00:29:56分钟 |
  • 第47节

    GroupedData 对象

    00:30:04分钟 |
  • 第48节

    DataFrame中的Column对象(上)

    00:30:24分钟 |
  • 第49节

    DataFrame中的Column对象(下)

    00:19:06分钟 |
  • 第50节

    Catolog对象详解

    00:36:07分钟 |
  • 第51节

    Row对象详解

    00:05:34分钟 |
  • 第52节

    DataFrameNaFunctions空数据处理

    00:12:24分钟 |
  • 第53节

    DataFrameStatFunctions统计模块详解

    00:11:05分钟 |
  • 第54节

    DataFrameReader读取外部数据生成DataFrame

    00:20:04分钟 |
  • 第55节

    DataFrameWriter将DataFrame数据写入外部存储

    00:22:19分钟 |
  • 第56节

    types 类型详解

    00:15:03分钟 |
  • 第57节

    functions内置函数详解

    00:16:06分钟 |
  • 第58节

    本地密集、稀疏向量和LabeledPoint

    00:22:55分钟 |
  • 第59节

    本地矩阵和4种分布式矩阵

    00:32:24分钟 |
  • 第60节

    Statistics基本的统计方法

    00:20:18分钟 |
  • 第61节

    假设检验、随机数据的生成及核密度估计

    00:13:23分钟 |
  • 第62节

    Piplines构建机器学习工作流

    00:43:43分钟 |
  • 第63节

    TF-IDF词频逆文档数和Word2vec词向量表示

    00:27:45分钟 |
  • 第64节

    CountVectorizer和Tokenizer、RegexTokenizer特征转化

    00:14:16分钟 |
  • 第65节

    PCA主成分分析、多项式核函数扩展特征空间、数据正则化、特征标准化

    00:34:12分钟 |
  • 第66节

    分桶器、向量组合器、SQL转换器及元素放缩器

    00:17:22分钟 |
  • 第67节

    特征个数过滤器、缺失值处理器、类别编码器、向量类别判断器

    00:21:26分钟 |
  • 第68节

    逻辑回归算法、原理、公式推导及二分类和多分类实践

    00:28:42分钟 |
  • 第69节

    完全理解L1,L2正则化的作用

    00:22:25分钟 |
  • 第70节

    决策树算法原理、随机深林、梯度提升树代码实践

    00:41:44分钟 |
  • 第71节

    多层感知机分类算法

    00:13:05分钟 |
  • 第72节

    SVM支持向量机分类算法

    00:21:41分钟 |
  • 第73节

    OneVsRest多分类算法

    00:05:37分钟 |
  • 第74节

    Naive Bayes 朴素贝叶斯分类器

    00:10:03分钟 |
  • 第75节

    Linear Regression线性回归

    00:24:15分钟 |
  • 第76节

    GLMs广义线性模型

    00:07:00分钟 |
  • 第77节

    回归树

    00:11:22分钟 |
  • 第78节

    K-Means聚类算法

    00:21:06分钟 |
  • 第79节

    二分K均值算法

    00:06:24分钟 |
  • 第80节

    GMM高斯混合模型

    00:07:30分钟 |
  • 第81节

    基于ALS交替最小二乘法的协同过滤推荐算法电影推荐实践

    00:37:14分钟 |
  • 第82节

    FP-Growth频繁项集推荐算法

    00:14:39分钟 |
  • 第83节

    超参数网格搜索

    00:21:22分钟 |
  • 第84节

    什么是Docker技术

    00:08:20分钟 |
  • 第85节

    为什么要使用Docker

    00:04:52分钟 |
  • 第86节

    Docker中的基本概念

    00:05:42分钟 |
  • 第87节

    Docker安装

    00:04:14分钟 |
  • 第88节

    获取镜像

    00:08:19分钟 |
  • 第89节

    创建镜像(上)

    00:09:06分钟 |
  • 第90节

    创建镜像(下)

    00:10:25分钟 |
  • 第91节

    本地导入镜像

    00:07:26分钟 |
  • 第92节

    保存、载入、删除镜像

    00:05:14分钟 |
  • 第93节

    Docker容器的创建、启动、和停止

    00:11:19分钟 |
  • 第94节

    进入后台运行的容器

    00:08:59分钟 |
  • 第95节

    导入、导出、删除容器

    00:07:46分钟 |
  • 第96节

    Docker公有仓库Docker Hub

    00:10:26分钟 |
  • 第97节

    创建Docker私有仓库

    00:08:36分钟 |
  • 第98节

    数据卷

    00:15:26分钟 |
  • 第99节

    数据卷容器

    00:10:30分钟 |
  • 第100节

    数据卷容器备份、恢复、迁移数据卷

    00:11:06分钟 |
  • 第101节

    Docker容器绑定外部IP和端口

    00:11:26分钟 |
  • 第102节

    容器互联

    00:08:18分钟 |
  • 第103节

    一个完整的例子

    00:35:10分钟 |
  • 第104节

    Dockerfile基本结构

    00:08:33分钟 |
  • 第105节

    Dockerfile中的指令

    00:21:48分钟 |
课程介绍

对于想转行或学习大数据的Python学员,基于已有的Python知识,学习Python大数据,你们拥有巨大的优势。大部分框架使用类Java语言实现,对于Python学员,PySpark是使用Python作为开发语言的程序员的福音,借助PySpark,Python开发人员可以轻松胜任大数据,冲击高薪。

本课程主要讲解Spark技术,借助Spark对外提供的Python接口,使用Python语言开发。涉及到Spark内核原理、Spark基础知识及应用、Spark基于DataFrame的Sql应用、机器学习等内容。由浅到深的带大家深入学习大数据领域最火的项目Spark。帮助大家进入大数据领域,抓住大数据浪潮的尾巴。


软件版本:

  • Hadoop2.7.3

  • Spark2.3.0

  • Scala2.11.8

  • Python2.7.12

  • Jdk-8u101-linux-x64

  • Docker 1.12.6

  • Apache-hive-2.3.2-bin

  • Mysql-5.5.45-linux2.6-x86_64

  • Mysql-connector-java-5.1.37-bin


  • 内容涉及:

    • pyspark 基础模块

    • pyspark.sql 模块

    • pyspark.ml 基于DataFrame的机器学习模块

    • pyspark.mllib package 基于RDD的机器学习模块

    • 中间还会涉及到云计算中的docker容器技术,课程的学习环境就是使用Docker三个容器搭建的分布式环境

    • pyspark中Numpy、Pandas、Scikit-learn的互操作和相互对比


课程大纲
  • 第1节

    课时介绍

    [免费观看]
    00:14:26分钟 |
  • 第2节

    Spark课程前言

    [免费观看]
    00:16:56分钟 |
  • 第3节

    Spark基础概念

    [免费观看]
    00:18:59分钟 |
  • 第4节

    镜像制作方案和集群网络规划及子网配置和SSH无密钥登录规则配置ssh_config

    00:17:04分钟 |
  • 第5节

    Hadoop、HDFS、Yarn配置文件详解

    00:18:04分钟 |
  • 第6节

    Spark及Hive配置文件详解

    00:13:11分钟 |
  • 第7节

    Dockerfile制作Hadoop、Spark、Hive、Mysql镜像详解

    00:26:50分钟 |
  • 第8节

    启动5个容器并开启Hadoop、Spark、Hive、Mysql服务

    [免费观看]
    00:38:11分钟 |
  • 第9节

    pyspark模块介绍

    00:14:12分钟 |
  • 第10节

    SparkContext编程入口及Accumulator累加器详解

    00:17:45分钟 |
  • 第11节

    addFile方法和SparkFiles的get方法加载和获取本地文件,HDFS文件,http文件

    00:22:24分钟 |
  • 第12节

    binaryFiles读取二进制文件

    00:05:02分钟 |
  • 第13节

    Broadcast广播变量和setLogLevel日志级别

    00:17:05分钟 |
  • 第14节

    文件的读取和保存及runJob方法和parallelize方法的使用

    00:23:31分钟 |
  • 第15节

    union方法和statusTracker方法讲解

    00:07:16分钟 |
  • 第16节

    aggregate和aggregateByKey的异同及注意事项

    00:16:47分钟 |
  • 第17节

    collectAsMap和fold方法的理解及正确使用

    00:16:42分钟 |
  • 第18节

    foreach和foreachPartitions原理及使用场景和注意事项

    00:06:16分钟 |
  • 第19节

    histogram和lookup方法的使用详解

    00:17:47分钟 |
  • 第20节

    reduce、sampleStdev、saveAsPickleFile、saveAsTextFile及指定压缩格式

    00:16:54分钟 |
  • 第21节

    sequenceFile序列文件的保存和读取

    00:06:44分钟 |
  • 第22节

    takeSample、treeAggregate和treeReduce方法的使用及注意事项

    00:17:54分钟 |
  • 第23节

    coalesce、repartition和partitionBy方法的使用技巧

    00:20:41分钟 |
  • 第24节

    cogroup、combineByKey、reduceByKey、groupByKey、aggregateByKey的异同及性能对比

    00:17:07分钟 |
  • 第25节

    foldByKey、groupBy、groupWith几个方法的使用

    00:18:14分钟 |
  • 第26节

    集合操作intersection、subtract、union,subtractByKey

    00:04:39分钟 |
  • 第27节

    join、fullOuterJoin、leftOuterJoin、rightOuterJoin之RDD关联操作

    00:05:58分钟 |
  • 第28节

    glom、mapPartitions、mapValues等方法详细讲解

    00:13:20分钟 |
  • 第29节

    pipe、randomSplit、sampleByKey、sample方法详解

    00:08:03分钟 |
  • 第30节

    sortBy、sortByKey、values、zip、zipWithUniqueId等方法完全披露

    00:09:25分钟 |
  • 第31节

    StorageLevel中常见的存储级别

    00:04:34分钟 |
  • 第32节

    SparkConf对象详解

    00:11:04分钟 |
  • 第33节

    广播变量深入讲解

    00:06:36分钟 |
  • 第34节

    Accumulator累加器详解

    00:04:05分钟 |
  • 第35节

    StatusTracker Spark作业运行状态监控

    00:04:49分钟 |
  • 第36节

    pyspark之SparkSQL模块介绍

    00:14:28分钟 |
  • 第37节

    SparkSession编程入口

    00:13:20分钟 |
  • 第38节

    掌握创建DataFrame的八种方法

    00:21:13分钟 |
  • 第39节

    range和udf用户自定义函数详解

    00:20:38分钟 |
  • 第40节

    agg聚合方法及数据缓存方法cache的讲解

    00:21:17分钟 |
  • 第41节

    colRegex及corr计算皮尔森相关系数

    00:19:57分钟 |
  • 第42节

    crossJoin笛卡尔积和cube多维数据立方体

    00:18:25分钟 |
  • 第43节

    explain、dropna及filter和where算子详解

    00:19:33分钟 |
  • 第44节

    groupBy、intersect、join方法详解

    00:19:22分钟 |
  • 第45节

    rollup、replace和randomSplit方法讲解

    00:18:21分钟 |
  • 第46节

    summary统计方法及toPandas转换为Pandas对象

    00:29:56分钟 |
  • 第47节

    GroupedData 对象

    00:30:04分钟 |
  • 第48节

    DataFrame中的Column对象(上)

    00:30:24分钟 |
  • 第49节

    DataFrame中的Column对象(下)

    00:19:06分钟 |
  • 第50节

    Catolog对象详解

    00:36:07分钟 |
  • 第51节

    Row对象详解

    00:05:34分钟 |
  • 第52节

    DataFrameNaFunctions空数据处理

    00:12:24分钟 |
  • 第53节

    DataFrameStatFunctions统计模块详解

    00:11:05分钟 |
  • 第54节

    DataFrameReader读取外部数据生成DataFrame

    00:20:04分钟 |
  • 第55节

    DataFrameWriter将DataFrame数据写入外部存储

    00:22:19分钟 |
  • 第56节

    types 类型详解

    00:15:03分钟 |
  • 第57节

    functions内置函数详解

    00:16:06分钟 |
  • 第58节

    本地密集、稀疏向量和LabeledPoint

    00:22:55分钟 |
  • 第59节

    本地矩阵和4种分布式矩阵

    00:32:24分钟 |
  • 第60节

    Statistics基本的统计方法

    00:20:18分钟 |
  • 第61节

    假设检验、随机数据的生成及核密度估计

    00:13:23分钟 |
  • 第62节

    Piplines构建机器学习工作流

    00:43:43分钟 |
  • 第63节

    TF-IDF词频逆文档数和Word2vec词向量表示

    00:27:45分钟 |
  • 第64节

    CountVectorizer和Tokenizer、RegexTokenizer特征转化

    00:14:16分钟 |
  • 第65节

    PCA主成分分析、多项式核函数扩展特征空间、数据正则化、特征标准化

    00:34:12分钟 |
  • 第66节

    分桶器、向量组合器、SQL转换器及元素放缩器

    00:17:22分钟 |
  • 第67节

    特征个数过滤器、缺失值处理器、类别编码器、向量类别判断器

    00:21:26分钟 |
  • 第68节

    逻辑回归算法、原理、公式推导及二分类和多分类实践

    00:28:42分钟 |
  • 第69节

    完全理解L1,L2正则化的作用

    00:22:25分钟 |
  • 第70节

    决策树算法原理、随机深林、梯度提升树代码实践

    00:41:44分钟 |
  • 第71节

    多层感知机分类算法

    00:13:05分钟 |
  • 第72节

    SVM支持向量机分类算法

    00:21:41分钟 |
  • 第73节

    OneVsRest多分类算法

    00:05:37分钟 |
  • 第74节

    Naive Bayes 朴素贝叶斯分类器

    00:10:03分钟 |
  • 第75节

    Linear Regression线性回归

    00:24:15分钟 |
  • 第76节

    GLMs广义线性模型

    00:07:00分钟 |
  • 第77节

    回归树

    00:11:22分钟 |
  • 第78节

    K-Means聚类算法

    00:21:06分钟 |
  • 第79节

    二分K均值算法

    00:06:24分钟 |
  • 第80节

    GMM高斯混合模型

    00:07:30分钟 |
  • 第81节

    基于ALS交替最小二乘法的协同过滤推荐算法电影推荐实践

    00:37:14分钟 |
  • 第82节

    FP-Growth频繁项集推荐算法

    00:14:39分钟 |
  • 第83节

    超参数网格搜索

    00:21:22分钟 |
  • 第84节

    什么是Docker技术

    00:08:20分钟 |
  • 第85节

    为什么要使用Docker

    00:04:52分钟 |
  • 第86节

    Docker中的基本概念

    00:05:42分钟 |
  • 第87节

    Docker安装

    00:04:14分钟 |
  • 第88节

    获取镜像

    00:08:19分钟 |
  • 第89节

    创建镜像(上)

    00:09:06分钟 |
  • 第90节

    创建镜像(下)

    00:10:25分钟 |
  • 第91节

    本地导入镜像

    00:07:26分钟 |
  • 第92节

    保存、载入、删除镜像

    00:05:14分钟 |
  • 第93节

    Docker容器的创建、启动、和停止

    00:11:19分钟 |
  • 第94节

    进入后台运行的容器

    00:08:59分钟 |
  • 第95节

    导入、导出、删除容器

    00:07:46分钟 |
  • 第96节

    Docker公有仓库Docker Hub

    00:10:26分钟 |
  • 第97节

    创建Docker私有仓库

    00:08:36分钟 |
  • 第98节

    数据卷

    00:15:26分钟 |
  • 第99节

    数据卷容器

    00:10:30分钟 |
  • 第100节

    数据卷容器备份、恢复、迁移数据卷

    00:11:06分钟 |
  • 第101节

    Docker容器绑定外部IP和端口

    00:11:26分钟 |
  • 第102节

    容器互联

    00:08:18分钟 |
  • 第103节

    一个完整的例子

    00:35:10分钟 |
  • 第104节

    Dockerfile基本结构

    00:08:33分钟 |
  • 第105节

    Dockerfile中的指令

    00:21:48分钟 |

相关课程

讲师简介

现任算法工程师,主攻NLP自然语言处理,在Spark内核方面有深入的研究,参与Scala基础入门,Spark内核及性能优化相关书籍部分内容的编写工作。 目前在物联网公司参加公司大数据平台建设及数据挖掘工作,在大数据领域有着丰富的实战经验。

学员动态

数据加载中,请稍后...