酷应用

R语言机器学习与大数据可视化暨Python文本挖掘与自然语言处理核心技术研修

百家作者：数据分析 2018-01-03 08:33:37

中国通信工业协会通信和信息技术创新人才培养工程项目办公室

通人办〔2017〕第45号

“R语言机器学习与大数据可视化”暨“Python文本挖掘与自然语言处理”核心技术高级研修班的通知

各有关单位：

为了响应国家大数据战略加快建设数字中国，加强数据科学的创新发展和技术应用，打造大数据专业技术人才队伍，满足行业对人工智能、机器学习、深度学习等相关领域高端人才的迫切需求，我单位将于2018年1月23日至26日在上海、1月25日至28日在厦门分别举办“R语言机器学习与大数据可视化”、“Python文本挖掘与自然语言处理”核心技术高级研修班；课程目标、特点、教学大纲及师资安排等具体内容详见附件。

附件：

一、课程对象

各高等院校大数据相关学科、计算机、软件、信息管理、统计、电子商务、金融、工商管理、数理统计专业等科研、教学带头人，骨干教师、博士生、硕士生，机器学习、数据挖掘、文本挖掘及自然语言处理技术的爱好者与潜在研究者。

二、时间与地点

2018年1月23日～26日上海

2018年1月25日～28日厦门

三、课程目标及特点

通过实际的案例分析与流程演示，熟悉机器学习、大数据可视化、文本挖掘与自然语言处理等核心技术并学会如何将相应的技术运用到自己的实际工作中；
学会将数据挖掘的能力从有限的结构化数据延伸到非结构化的海量文字材料，全面提升个人的数据挖掘与分析应用能力；
通过紧密结合应用实例，针对工作中存在的疑难问题进行分析讲解和专题讨论，进而有效提升学员解决科研及教学中实际问题的能力同时提升其从数据角度去思考的能力；
采用理论知识+案例示范+练习讨论的workshop教学模式，从典型案例入手；既适合零基础的初学者，也适合经验丰富的操作者；
全栈式的数据科学及大数据人才培养体系，额外提供价值4000元共350G、75课时的python机器学习、数据挖掘、网络爬虫与文本挖掘最新教学视频及课件PPT，以协助高校开展数据科学与大数据专业建设，协助教师开展相关课程教学与科研；
通过流微信平台建立与授课专家的长期的答疑联系，提供即时的在线技术咨询；

四、课程内容

模块一：R语言机器学习与大数据可视化技术

第一天	第1讲：数据可视化（统计图形）	1. 数据可视化简介 2. R语言基础作图 3. ggplot2简介 4. 常见统计图形
第一天	第2讲：数据可视化（动态可视化）	1. R的动态可视化框架 2. Echarts简介 3. Shiny与动态报告 4. 案例1：做一个动态可视化的小系统
第二天	第3讲：数据挖掘（数据处理与关联规则）	1. 数据处理与dplyr 2. 数据的清洗与转换 3. 关联规则简介 4. 案例2：零售店数据的挖掘
第二天	第4讲：数据挖掘（聚类和分类）	1. 数据挖掘与机器学习 2. 聚类和分类简介 3. 层次聚类分析 4. K-Means 聚类分析 5. 基于密度的聚类 6. 案例3：互联网行为分析
第三天	第5讲：数据挖掘（分类算法）	1. 逻辑斯蒂回归 2. 混淆矩阵与交叉验证 3. 决策树 4. 随机森林 5. Boosting 6. 案例4：足球比赛数据的机器学习 7. 分析与讨论
第三天	第6讲：数据挖掘（神经网络和深度学习）	1. 人工智能简介 2. 感知机和神经网络 3. 图像分析简介 4. 深度学习与卷积神经网络 5. 案例5：训练图像识别模型 6. 课程总结与讨论

模块二：Python文本挖掘与自然语言处理技术

第一天	第1讲：自然语言处理及文本挖掘介绍	1.自然语言处理简介 2.文本挖掘简介 3.自然语言处理与python 4.自然语言处理相关工具概述及对比
	第2讲：python自然语言处理环境及基础语法	1.Anaconda套件 2.基本数据结构（列表/字符串/字典） 3.基本语法（条件/循环/函数/类/模块） 4.Jupyter Notebook基本使用 5.python在自然语言处理中的应用
	第3讲：文本数据处理	1. 基础包 numpy 2. 绘图与可视化 matplotlib与 seaborn 3. 自然语言处理包NLTK 4. 文本语料与词汇资源 5. 文本数据获取之爬虫 6. 文本预处理
第二天	第4讲：文本分类	1. 分类与标注词汇 2. 文本分类简介 3. 各类文本分类模型 4. 为语言模式建模 5. 案例分析
	第5讲：文本信息提取	1. 信息提取 2. 分块 3. 开发和评估分块器 4. 语言结构中的递归 5. 命名实体识别 6. 关系抽取 7, 案例演示
	第6讲：文法分析	1. 句子结构分析 2. 文法特征 3. 处理特征结构 4. 扩展基于特征的文法
第三天	第7讲：基于传统机器学习模型的文本分析技术基础	1. 文本挖掘全流程概述 2. TextBlob文本处理库介绍 3. 中文分词介绍（jieba） 4. 词云介绍 5. 案例演示
	第8讲：基于传统机器学习模型的文本分析技术应用	1. 文本挖掘预处理技术 2. 文本特征处理 3. 文本聚类 4. 主题模型 5. 案例演示
	第9讲：基于深度学习的文本处理技术	1. 深度学习简介 2. 词向量技术 3. RNN基本概念 4. LSTM简介 5. LSTM语言模型的实现 6. 案例：利用LSTM实现文本分类
	第10讲：基于seq2seq模型的自然语言处理应用（选修）	1. seq2seq模型简介 2. Encoder-Decoder 结构 3. seq2seq模型原理 4. seq2seq模型的应用 5. 案例：基于seq2seq模型的机器翻译

五、颁发证书

学员经考核合格可获得国家工信部全国通信和信息技术创新人才培养工程《大数据挖掘与分析应用高级工程师》职业技术水平证书。该证表明持有者已通过相关考核，具备相应的专业知识和专业技能，并作为聘用、任职、定级和晋升的重要参考依据，全国通用。

六、拟邀师资

尹老师，数据科学家，浙江大学物理学博士，浙江某高校深度学习研究中心负责人，深度学习领域一线实战专家，兼任某网络科技上市公司大数据总监，承担30多个企业数据挖掘项目，受聘担任多家大数据教学机构主讲教师，开发多套python机器学习、网络爬虫与文本挖掘系列课程，10+年软件开发数据产品经验，熟悉RPythonJavascript等多种编程语言，目前研究集中在推荐系统、文本挖掘、神经网络等深度学习领域，具有丰富的统计建模、数据挖掘、大数据技术教学经验，先后为中国交通银行，平安保险公司等数十家知名机构主讲python机器学习课程。

李老师，博士，毕业于北京大学，浙江大学软件学院兼职教授、华东师范大学硕士研究生导师，台北商业大学业界专业教师，曾任Mango Solutions中国区数据总监，主导数十个R语言数据挖掘与分析应用工程项目， 2003年从事R语言相关研究，擅长R语言的工程开发与分析建模，是 Rweibo、Rwordseg、tmcn等 R 包的作者，著有《数据科学中的R语言》，翻译了《R语言核心技术手册》、《机器学习与R语言》，撰写过大量R语言的基础和高级应用类文章，从事R语言数据挖掘分析培训多年，为国内多所科研院所及知名企业主讲R语言机器学习内训课程，探索出一套以案例讲解带动理论理解和软件操作熟悉的方法。

七、费用标准

每个模块参会费均为3980元/人（含专家授课费、教材考试费、证书申报、场地等），食宿统一安排，费用自理。

八、联系方式

联系电话: 18611038557 微信: 18611038557

联系人: 宋老师邮箱: 1843626486@qq.com

（扫码咨询）

全国R语言与python数据科学高级研修班报名回执表

（经研究我单位选派以下同志参加此次学习）

单位名称
发票抬头
发票税号
发票内容	□1、培训费 □2、会议费 □3、会务费
缴款方式	□1、现金 □2、刷卡 □3、对公转账
参会人数：_ ___ 人					参会费用： _ ____元
参会人员名单	姓名	职务	手机	电子邮箱




住宿安排	□1、住 □2、不住 □3、待定
住宿标准	□1、双人标间 □2、单间 □3、待定