美国北卡罗来纳大学吴喜之教授莅临我院开展学术讲座
2019年4月10日上午九点半,来自美国北卡罗来纳大学统计系博士吴喜之教授受邀来到我院,在慧智楼90510学院会议室开展题为《分类-决策树为例》的学术讲座。此次讲座由我院统计系主任李勇教授主持,学院相关学科教师以及研究生参与。
首先,吴教授以“有指导学习”方法介绍开始了今天的讲座。随后吴教授讲解了决策树的基本思想,并以信息增益为例讲解构建决策树如何选择变量作为拆分变量。接着以训练简单最小二乘法回归模型为例,举例讲解交叉验证。随后吴教授讲解了bagging和随机森林两种决策组合,bagging主要以有放回重复抽样来默认构建100棵树,再对这100棵树进行投票,并且提到用bagging预测比用单独的决策树回归预测精度高,随机森林是bagging的一种扩张。最后吴教授运用随机森林的方法,以皮肤病患者数据为例讲述样本量小,但自变量多的情况下如何筛选重要变量结束了今天上午的讲座。

4月11日上午九点半,吴教授对放回再抽样重新进行讲解,再温习Bagging、随机森林、adaboost三种基本决策树的组合方法,表示前两种组合方法可做分类与回归,而adaboost只能做分类,同时指出随机森林每棵树的每个节点的拆分变量由随机选取的少数变量竞争,以确保每个观测值能被使用几次,对出错的观测值加权后再抽样,增加抽中的概率。接着,部分师生提出疑问,吴老师分别耐心作答。随后,吴教授讲解人工神经网络的基本概念,以三层神经网络回归为例讲解输入层、隐藏层与输出层,并详细介绍如何进行神经网络训练。接着再以皮肤病数据网络分类为例对神经网络分类进行讲解,最后画图介绍如何选取节点个数结束了上午的讲座。

4月11日下午三点,吴教授以“人工神经网络”方法介绍开始了今天下午的讲座。随后吴教授讲解了朴素贝叶斯的基本思想,指出该方法是一种简单有效的分类方法,相较于随机森林误判率较小。接着针对线性可分问题,讲解了支持向量机这一方法,并指出分类标准的关键在于寻找一个超平面使其到两组点的距离最大。随后吴教授讲解了K最近邻方法和最小二乘线性回归,并结合R软件做相应操作示范。最后吴教授与在场师生进行问答互动,交流思想。多数学生表示,本次讲座使其受益匪浅,对数据科学与传统统计学有了新认识。
