大数据挖掘案例库.pdf
顶尖数据挖掘教学实训平台之案例库产品说明书 顶尖数据挖掘教学实训平台 之案例库(TipDM-C10) 产 品 说 明 书 广州泰迪智能科技有限公司 版权所有 地址: 广州市经济技术开发区科学城 232 号 网址: http://www.tipdm.com 邮箱: services@tipdm.com 热线: 40068-40020 企业 QQ:40068-40020 邮编: 510663 电话: (020)82039399 泰迪科技(www.tipdm.com), 2005~2016 1 顶尖数据挖掘教学实训平台之案例库产品说明书 修订记录 日期 版本 作者 修改内容 2016-7-5 1.0 放榜松 初稿 2016-10-28 2.0 莫芳 修改案例库清单 2016-10-31 2.1 施兴 修订部分案例文字说明、格式及增加配套资 源 ppt 及微课部分 泰迪科技(www.tipdm.com), 2005~2016 2 顶尖数据挖掘教学实训平台之案例库产品说明书 目 录 1 案例库概述 .................................................................................... 4 2 案例构成 ...................................................................................... 26 3 案例示例 ...................................................................................... 27 3.1 3.2 案例介绍 ...................................................................................................................................27 3.1.1 案例与挖掘目标 ....................................................................................................27 3.1.2 分析方法与过程 ....................................................................................................28 3.1.3 上机实践 ..................................................................................................................28 3.1.4 拓展思考 ..................................................................................................................29 配套资源 ...................................................................................................................................29 3.2.1 配套程序 ..................................................................................................................30 3.2.2 配套数据 ..................................................................................................................30 泰迪科技(www.tipdm.com), 2005~2016 3 顶尖数据挖掘教学实训平台之案例库产品说明书 1 案例库概述 顶尖数据挖掘教学实训平台之案例库(TipDM-C10)是泰迪科技在数据挖掘领域探 索 10 余年和高校资深讲师联合经验总结之作,内容涵盖智能电网、移动电信、医疗健 康、网络舆情、电子商务、金融保险、交通运输、信息安全、政务民生等诸多行业,特 别适合有数据挖掘相关课程教学的高校、研究所和培训机构,也可作为个人学习数据挖 掘技术的最佳素材。 数据挖掘案例主要包括为: 行业类别 案例名称 案例描述 主要知识点 应用平台 通过采集电力计量自动化系统的电 1.分布分析 流、电压、功率因数等用电负荷数据, 2.周期性分析 TipDM-TB 3.拉格朗日插值 TipDM-HB 4.CART 决策树 R 语言 5.LM 人工神经网络 Python 6.混淆矩阵 MATLAB 用电异常等终端报警信息以及电力 电力窃漏 营销系统提供的历史窃漏电用例,归 电用户自 纳出窃漏电用户的关键特征,构建出 动识别 窃漏电用户的识别模型,最终通过监 测用户用电数据,实现窃漏电用户的 电力行业 7.ROC 曲线 实时在线诊断。 通过分析鸟害、接地装臵受损、保护 1.分布分析 气象与输 区安全隐患、部件发热异常、锈蚀损 2.趋势分析 电线路缺 伤等缺陷与气象因子的关联关系,构 3.Pearson 相关系数 陷关联分 建出气象因子与缺陷关联关系的预 4.数据去重 TipDM-TB R 语言 Python 析 警模型。实现在极端气象条件下缺陷 5.牛顿插值 泰迪科技(www.tipdm.com), 2005~2016 4 顶尖数据挖掘教学实训平台之案例库产品说明书 在高发区发生的概率并进行预警。 6.拉格朗日插值 7.因子关联分析 通过构建电能计量异常评价指标体 1.特征提取 电能计量 系及电能计量采集异常专家样本库 2.C4.5 决策树 异常智能 和具有自适应和自学习特性的电能 3.BP 神经网络 诊断 计量异常智能诊断模型,准确判断出 3.混淆矩阵 计量装臵损坏真因。 TipDM-TB R 语言 Python 4. ROC 曲线 企业信息化建设以及下一代智能化 电网的全面建设,电力数据资源急剧 1.Oracle SQL 查询提 增长并形成了一定规模。构建客户细 取数据 TipDM-TB 分模型,将电网中的所有用电客户细 2.箱线图异常值检 R 语言 分成五个不同的群体,分析模型得出 测 Python 用电客户 分群研究 的各个群体的特征,根据不同的群 3.K-means 算法 体,为电网提出差异出的营销建议。 供电企业的的基本任务是提供给客 户电力商品与服务,满足客户需求的 1.分布分析 同时获得盈利。客户较高的满意度是 2.层次分析法 电力客户 企业长期奋斗的目标,需要从客户需 3.熵权法(客观权 满意度综 求出发,制定相关策略,实现客户满 重) 合评分 TipDM-TB R 语言 Python 意度评价。根据电力营销系统各模块 4.混淆矩阵 原始数据,构建电力客户满意度评价 5. ROC 曲线 指标体系及满意度综合评分模型。 泰迪科技(www.tipdm.com), 2005~2016 5 顶尖数据挖掘教学实训平台之案例库产品说明书 商圈划分的目的之一是为了研究潜 在的顾客的分布以制定适宜的商业 TipDM-TB 对策。从通信运营商提供的基站定位 1.特征提取 TipDM-HB 数据,利用基站小区的覆盖范围作为 2.零-均值标准化 R 语言 商圈区域的划分,归纳出商圈的人流 3.层次聚类法 Python 特征和规律,识别出不同类别的商 MATLAB 基于基站 定位数据 的商圈分 析 圈,实现营销指导。 随着大数据挖掘技术的不断发展和 应用,移动运营商希望能借助数据挖 1.特征分析及提取 掘技术识别哪些用户可能流失,什么 2.欠抽样与过抽样 基于大数 时候会发生流失。而通过建立流失预 3.逻辑回归 移动通信 据 的 运 营 测模型,分析用户的历史数据和当前 4.支持向量机 商用户流 数据,提取辅助决策的关键性数据, 4. ROC 曲线 TipDM-TB R 语言 Python 失分析 并从中发现隐藏关系和模式,进而预 6.召回率 测未来可能发生的行为,就可以帮助 7.F 值 移动运营商实现这些要求 从线上信息的浏览归纳出不同客户 的对金融理财的个体偏好特征,构建 1.K-means 聚类分 金融理财 TipDM-TB 模型对客户进行分类,识别对金融理 析 的广告牌 R 语言 财感兴趣的重点和潜在客户群。进一 2.LOCF 插值法 精准投放 Python 步对重点和潜在客户群的时空轨迹 3.轨迹挖掘 进行定位,确定热门聚集地和聚集时 泰迪科技(www.tipdm.com), 2005~2016 6 顶尖数据挖掘教学实训平台之案例库产品说明书 点,从而为金融理财产品广告牌的精 准营销和投放提供理论依据。 通信市场逐渐趋于饱和,想依赖发展 新客户群带动运营商利益的时代已 1.分布分析 不复存在。而且,现今的客户在更换 2.趋势分析 手 机 终 端 手机的频率和对手机的依赖度将越 TipDM-TB 3.SMOTE 算法 用 户 变 迁 来越高,所以对客户换机倾向的预测 R 语言 4.决策树 预测 势在必行。归纳出换机用户的关键属 Python 5.神经网络 性与行为特征,构建换机用户的识别 6.交叉验证 模型,并预测用户后一个月的换机情 况。 对于电信运营商而言,任何时候都不 可以松懈的任务就是如何扩大客户 资源,如何保留已有的客户资源。基 电信业务 于客户属性与历史行为数据,从客户 1.层次分析法 TipDM-TB 客户价值 的当前价值及客户的潜在价值两个 2.主成分分析 R 语言 评价实证 维度出发,构建客户价值评价指标体 3.K-means 聚类分 Python 分析 系;根据指标体系构建客户价值评价 析 模型,识别不同价值等级的客户,并 针对不同的群体为企业资源配臵提 供意见和建议。 泰迪科技(www.tipdm.com), 2005~2016 7 顶尖数据挖掘教学实训平台之案例库产品说明书 借助三阴乳腺癌患者的病理信息,发 现中医症状间的关联关系和诸多症 1.问卷调查 状间的规律性,挖掘潜性证素,并且 中医证型 TipDM-TB 2.问卷结果数值化 依据规则分析病因、预测病情发展以 关联规则 R 语言 3.数据 Kmeans 离散 及为未来临床诊治提供有效借鉴。这 挖掘 Python 化 样患者在治疗过程中,医生可以有效 MATLAB 3.Apriori 算法 的减少西医以及化疗治疗的毒副作 用,为后续治疗打下基础。 对脑中风的发病环境因素进行分析, 医疗健康 其目的是为了进行疾病的风险评估, 1.周期性 对脑中风高危人群能够及时采取干 2.自相关性 脑 中 风 发 预措施。根据病人基本信息,对发病 3.多重共线性分析 TipDM-TB 4.过度离势检验 R 语言 5.泊松回归 Python 病 环 境 因 人群进行统计描述。建立数学模型研 素 分 析 及 究脑卒中发病率与气温、气压、相对 干预 湿度间的关系。查阅和搜集文献中有 6.违背经典假设检 关脑卒中高危人群的重要特征和关 验 键指标,对高危人群提出预警和干预 的建议方案。 泰迪科技(www.tipdm.com), 2005~2016 8 顶尖数据挖掘教学实训平台之案例库产品说明书 基因表达谱能够提供丰富的信息进 行正常和患有肿瘤两类样本的辨别, 1.数据归一化 为医学诊断及抗癌药物研制便捷。选 2.特征提取 取一定标准,作为衡量某基因是否为 3.巴氏距离 基 于 基 因 “无关基因”的判断条件,然后对样 TipDM-TB 4.FSSM 算法 表 达 谱 的 本的基因表达谱进行筛选,剔除与肿 R 语言 5.支持向量机 肿瘤识别 瘤无关的基因。设计分类器提取肿瘤 Python 6.留一法交叉验证 相关基因标签。将噪声干扰考虑到基 7.小波阈值去噪法 因表达谱的分析中,分析通过引入噪 8. LDA-GA 方法 声模型对基因标签的确定的影响。分 析基因标签判断的准确性。 医疗保险欺诈,是指公民、法人或者 其他组织在参加医疗保险、缴纳医疗 1.比较法 医 保 欺 诈 保险费、享受医疗保险待遇过程中, TipDM-TB 2.Benford 定律 用 户 的 自 故意捏造事实、弄虚作假、隐瞒真实 R 语言 3.K-means 聚类 动识别 情况等造成医疗保险基金损失的行 Python 4.关联规则 为。根据医保欺诈数据,建立自动识 别模型,识别医保欺诈记录。 泰迪科技(www.tipdm.com), 2005~2016 9 顶尖数据挖掘教学实训平台之案例库产品说明书 某市外来人口较多,人口密度过大, 给交通、医疗、教育等社会公共服务 带来了巨大的压力。根据 1979 年至 2010 年某人口数据,建立模型预测 市政人口 TipDM-TB 未来五年某市户籍、非户籍、常住人 1.ARIMA 时间序列 与医疗需 R 语言 口数量;根据 2000 年、2005 年、2010 2.Leslie 人口模型 求预测 Python 年三年的深圳市常住人口年龄结构, 预测 2015 年某市常住人口年龄结 构;收集数据,以病床需求量为参考, 预测 2014 年某市医疗需求状况. 在电商平台激烈竞争的大背景下,除 了提高商品质量、压低商品价格外, 其中非常重要的方式就是对消费者 TipDM-TB 的文本评论数据包含的内在信息进 1.八爪鱼爬取数据 电商评论 TipDM-HB 行挖掘分析。而得到的这些信息,也 2.机械压缩去词 网络舆情 数 据 情 感 R 语言 会有利于对应商品的生产厂家自身 3.吉布斯抽样 分析 Python 竞争力的提升。分析某一热水器的用 4.LDA 主题分析 MATLAB 户情感倾向,从评论文本中挖掘出该 热水器的优点与不足,提炼不同品牌 热水器的卖点。 泰迪科技(www.tipdm.com), 2005~2016 10 顶尖数据挖掘教学实训平台之案例库产品说明书 对网络招聘信息进行分析研究,了解 不同地区和行业的需求特点,分析热 基 于 网 络 门地域和行业,挖掘兴起的数据类行 招 聘 信 息 业相应的人才需求现状及发展趋势。 TipDM-TB 的 热 门 职 根据招聘单位的地域、行业、职位等 1.文本聚类 R 语言 位 分 析 与 特点,找出哪些是热门地域、行业、 2.时间序列预测 Python 人 才 需 求 职位等,并针对热门行业,分析其相 预测 应的技术要求;分析当前人才市场的 需求现状并预测其未来短期的需求 量。 1.去空值、重复值、 关于食品安全的网络新闻蕴含着大 干扰词、 量的食品安全信息,根据历史食品新 2.最大正向匹配法、 基 于 网 络 闻报道发现最受关注的食品供应环 分词、停用词过滤 TipDM-TB 新 闻 数 据 节,深度挖掘食品安全问题细节;根 3.关键词提取 R 语言 的 食 品 安 据历史食品新闻报道发现最受关注 4.关联词汇提取 Python 全挖掘 的食品种类,深入挖掘新闻对该类食 5.K-Means 聚类、 品报道的主要关注点,进而获得该类 MIC、BT 食品安全问题的主要原因。 6.语意网络图、雷达 图、饼图 泰迪科技(www.tipdm.com), 2005~2016 11 顶尖数据挖掘教学实训平台之案例库产品说明书 垃圾短信已日益成为困扰运营商和 手机用户的难题,严重影响到人们正 常生活、侵害到运营商的社会形象以 1.欠抽样与过抽样 及危害着社会稳定。传统的基于策 结合的类不平衡处 基于垃圾 略、关键词等过滤的效果有限,很多 理 TipDM-TB 垃圾短信“逃脱”过滤,继续到达手 2.支持向量机分类 R 语言 机终端。本案例 基于短信文本内容, 3.精准率 Python 短信的文 本内容识 别 结合机器学习算法、大数据分析挖掘 4.召回率 来智能地识别垃圾短信及其变化。建 5.F1 评价指标 立模型准确地、完整地识别出垃圾短 信、正常短信。 1.正则匹配 挖掘用户的潜在兴趣并进行相应的 2.文本分词 新闻推荐,就能够产生更大的社会和 3.LDA 主题模型及 经济价值。通过对带有时间标记的用 可视化检验 用户浏览 TipDM-TB 户浏览行为和新闻文本内容进行分 4.物品协同过滤算 新闻行为 TipDM-HB 析,分析用户的新闻浏览模式和变化 法 分析与智 R 语言 规律,基于新闻的文本内容,对新闻 5.时序加权推荐列 能推荐 Python 进行合理的分群;跟据用户浏览新闻 表 行为,实现为每个用户的新闻的个性 6.精准率 化智能推荐。 7.召回率 8.F1 评价指标 泰迪科技(www.tipdm.com), 2005~2016 12 顶尖数据挖掘教学实训平台之案例库产品说明书 针对 12315 消费者投诉举报专线的 投诉数据,从中挖掘出有用信息,一 方面方便工商部门及时有效的受理 和查处各类经济违法违章案件,维护 消费者投 1.词条-文档矩阵 市场经济秩序;另一方面可以更好的 诉举报信 TipDM-TB 2.高频词云图 维护消费者权益;同时也可为商家提 息意见挖 R 语言 3.LDA 主题分析 供改进商品提高竞争力的依据。统计 掘 Python 4.语义网络分析 投诉、举报、咨询三类信息中的品牌 分布,并绘制词云图;归纳消费者投 诉的主要内容(方面),分析投诉原 因。 基于当前网络信息发展与电信诈骗 事件的特点,从海量新闻文本中快速 1.结巴分词 了解事件的发展过程及民众的情绪 2.TF-IDF 词频-逆文 变化和关注焦点,找出事件的问题根 电信诈骗 档频率 源对于快速了解事件发展具有重要 事件演化 TipDM-TB 3.LDA 主题分析及 意义,也为相关部门更好地管控和处 分析与挖 R 语言 基于相似度的主题 理事件提供参考依据。根据电信诈骗 掘 Python 数确定 相关新闻文章,分析事件发展过程, 4.情感倾向性分析 深度挖掘事件问题根源;分析民众对 5.语义网络分析 该事件发展过程的情感变化,挖掘出 民众关注的焦点问题。 泰迪科技(www.tipdm.com), 2005~2016 13 顶尖数据挖掘教学实训平台之案例库产品说明书 根据某家法律网站采集到的用户访 1.用 R 连接数据库取 问数据,按地域研究用户访问时间、 数据 法律网站 访问内容、访问次数等分析主题,深 2.数据库查询语句 TipDM-TB 用户行为 入了解用户对访问网站的行为和目 TipDM-HB 分析与服 的及关心的内容。借助大量的用户的 4.协同过滤算法 务推荐 访问记录,发现用户的访问行为习 3.正则匹配 R 语言 5.相关系数:余弦相 Python 惯,对不同需求的用户进行相关的服 关系数、杰卡德相关 务页面的推荐。 系数 目前餐饮企业的点餐服务仅依赖于 服务员的个人经验,但是对于多项菜 基 于 关 联 品、以及它们的毛利率和店家的主推 TipDM-TB 规 则 的 菜 意愿,个人的经验就比较有限了,根 1.Apriori 关联规则 TipDM-HB 品 智 能 推 据用户的历史点餐行为数据,挖掘菜 2.综合评分方法 R 语言 荐 Python 电子商务 品之间的关联度;借助菜品的关联 度,结合业务理解,得出菜品推荐综 合评分,完成菜品的智能推荐。 用户作为电商企业的主要经营对象, 1. 类不平衡问题处 基于类不 分析用户的行为记录,探索用户的行 理 平衡问题 TipDM-TB 为规律,并将这些规律和网站经营策 2. 随机森林建模 的客户购 R 语言 略相结合,对网站的营销方案作出有 3. 混淆矩阵 买品牌预 Python 利的修改,以及为电商企业增加利润 4.精度 p 测 和实施高效管理有着重要意义。根据 5.召回率 r 泰迪科技(www.tipdm.com), 2005~2016 14 顶尖数据挖掘教学实训平台之案例库产品说明书 某电子商务网站部分用户的 4 个月 6.F1 值 的行为日志,建立预测购买模型,预 测下个月用户会购买的品牌,得出购 买行为的一般特征。 商品评分是电子商务网站的一项必 备环节,若用户对商品的评分高,则 1. 评分矩阵 基于 LFM 可以认为用户“喜欢”这件商品;反 TipDM-TB 2. LFM 算法 的商品评 之,若用户对商品的评分较低,则可 R 语言 3. 评价指标 MAE、 分预测 认为用户“不喜欢”这件商品。根据 Python RMSE 某电商网站提供的数据进行商品评 分预测。 1. 分布分析 根据泰迪杯竞赛网站大量用户的访 2. 缺失值插补 竞赛网站 问数据,发现用户的访问行为习惯, 3.数据变换 用户行为 TipDM-TB 对不同需求的用户进行相关服务页 4.数据去重 分析与智 R 语言 面的推荐;根据用户访问内容、访问 5. 杰卡德相关系数 能推荐服 Python 次数等属性特征,深入了解用户对访 6. 协同过滤算法 务 问网站的行为和目的及关心的内容。 7. 推荐效果评价分 析,精确率、召回率。 泰迪科技(www.tipdm.com), 2005~2016 15 顶尖数据挖掘教学实训平台之案例库产品说明书 泰迪杯竞赛网致力于为用户提供丰 富的泰迪杯竞赛信息、数据挖掘培训 1. 分布分析 咨询服务,并为参赛者提供了往届优 网站用户 2. 缺失值插补 TipDM-TB 3.数据变换 TipDM-HB 4.数据去重 R 语言 5. Kmeans 聚类 Python 秀作品作为参考,为高校提供了丰富 浏览行为 的教学资源。依据用户的历史浏览记 分析及分 录,分析用户的行为特征和兴趣偏 群研究 好;根据用户的行为特征和兴趣偏好 6. 用户特征图 将用户划分成不同的群体,并分析各 个群体的属性特征。 对商家而言,滥发的优惠券可能降低 品牌声誉,同时难以估算营销成本。 因此,个性化投放是提高优惠券核销 1. 决策树 O2O 优惠 率的重要技术,它可以让具有一定偏 2. 混淆矩阵 TipDM-TB 券个性化 好的消费者得到真正的实惠,同时赋 3. 精度 p R 语言 投放 予商家更强的营销能力。根据用户线 4.召回率 r Python 下线上使用消费劵的历史记录,预测 5.F1 值 用户在拿到一张优惠券后使用的概 率。 泰迪科技(www.tipdm.com), 2005~2016 16 顶尖数据挖掘教学实训平台之案例库产品说明书 金融机构建立信用卡风险管理体系, 面临的重要问题是如何准确识别出 1.缺失值插补 哪些客户为高风险类客户,哪些客户 2.字符型数据处理 P2P 网 络 TipDM-TB 为禁入类客户。基于某互联网企业提 3.SMOTE 数据不平 信贷获贷 R 语言 供的贷款申请数据,包括个人申请和 衡处理 结果预测 Python 企业申请。将申请数据分为个人申请 4.WOE 编码 客户和企业申请客户;分别建立个人 5.逻辑回归 申请和企业主申请获贷模型。 某金融服务机构拥有上亿会员,并且 业务场景中每天都涉及大量的资金 流入和流出,面对如此庞大的用户 1.平稳性检验 金融保险 金 融 服 务 群,资金管理压力会非常大。对货币 2.白噪声检验 TipDM-TB 机 构 资 金 基金而言,资金流入意味着申购行 3.时间序列 BIC 图定 R 语言 流入预测 阶 为,资金流出为赎回行为 。根据用 Python 户的历史申购和赎回信息,预测预测 4.ARIMA 模型 蚂蚁金服次月每天的申购总额和赎 回总额。 为了推进信用卡业务良性发展,减少 1.分布分析 信 用 卡 高 坏账风险,台湾各大银行都进行了信 2.关联分析 TipDM-TB 风 险 客 户 用卡客户风险识别相关工作,建立了 3.数据筛选 R 语言 识别 Python 相应的客户风险识别模型。判断识别 4.数据归一化 出哪些客户为高风险类客户,哪些客 5.评分卡模型 泰迪科技(www.tipdm.com), 2005~2016 17 顶尖数据挖掘教学实训平台之案例库产品说明书 户为禁入类客户。对不同客户类别进 6.K-Means 聚类 行特征分析,比较不同客户的风险。 评估该机构的信用卡业务风险,针对 目前的情况提出风控建议。 风险控制主要目的是采取各种措施 和方法,消灭或降低信用风险,流动 1.分布分析 性风险,市场风险等风险事件发生的 2.多表合并 P2P 网 络 TipDM-TB 各种可能性,或减少发生时造成的损 3.多重共线性分析 信贷风险 R 语言 失。做好风险控制,能够最大程度提 4.梯度提升方法 评估 Python 高信贷资产收益,保证投资人的资金 Gradient Boosting 安全。找出影响用户逾期还款的关键 5.数据降维 因素;预测用户逾期还款的概率。 根据网络贷款平台平台的历史数据, 能预测金融机构回馈的审核结果。用 户在提交贷款产品订单时能大概知 1.分类变量的处理 贷款产品 TipDM-TB 道申请成功的概率,在一定程度上可 2.缺失值处理 申请审批 R 语言 以提高平台用户的使用体验。另外一 3.随机森林算法 结果预测 Python 方面,平台方还希望知道影响贷款成 4.GBM 算法 功的关键因素,以便给申请贷款的用 户更合适的建议。 泰迪科技(www.tipdm.com), 2005~2016 18 顶尖数据挖掘教学实训平台之案例库产品说明书 航空市场竞争激烈,某航空公司面临 着常旅客流失、竞争力下降、航空资 源未充分利用等经营危机。通过积累 TipDM-TB 1.零-均值标准化 航 空 公 司 的大量的会员档案信息和其乘坐航 TipDM-HB 2.一致性分析 客 户 价 值 班记录,建立合理的客户价值评估模 R 语言 3.回归插值法 分析 型对客户进行分群,分析比较不同客 Python 4.K-Means 聚类分析 户群的客户价值,对不同价值的客户 MATLAB 类别提供个性化服务,并制定相应的 营销策略。 本案例主要以城市公交车的刷卡数 据和 GPS 车载数据为原始数据。采 1.均值插值法 交通运输 城 市 公 交 TipDM-TB 用 DESCAN 密度聚类法对 GPS 数据 2.DESCAN 密度聚 站点设臵 TipDM-HB 进行聚类分析区分公交站点;运用概 类法 的优化分 R 语言 率论模型计算得出下车人数。最终得 3.泊松分布 析 Python 出 OD 矩阵,推出居民出行规律,进 4.OD 矩阵 而对公交站点设臵提出优化建议。 基 于 铁路部门为了保持市场的竞争力,实 1.分布统计 SARIMA 现利润的最大化,需要了解日常铁路 2.数据变换 TipDM-TB 3.函数构造 R 语言 4.ARIMA 模型 Python 混 合 模 型 客运流量、淡旺季变动指数、冷热门 的 铁 路 站 线路的具体情况。按车次、时段(小 点 客 流 量 时)、车站、区间(两个车站之间) 5.SARIMA 模型 预测 等分析客流规律。考虑相关因素的影 泰迪科技(www.tipdm.com), 2005~2016 19 顶尖数据挖掘教学实训平台之案例库产品说明书 响,构建客流量预测模型,并预测未 来两周的客流量。针对特定的区段, 优化设计车辆配臵以及提出车站停 靠方案。 道路交通具有动态性,随机性,因果 性和再现性等特点,这就直接导致了 提高道路交通安全的复杂性。利用交 1.关联度 通事故相关的多维度数据,通过对事 交通事故 TipDM-TB 2.格兰因果 故类型、事故人员、事故车辆、事故 成因分析 R 语言 3.灰色预测 天气、驾照信息、驾驶人员犯罪记录 Python 4.卡尔曼滤波 数据以及其他和交通事故有关的数 据进行深度挖掘,形成交通事故成因 分析的模型。 航空机场无线网络的连入数量,位臵 等情况在某个程度上反映了机场客 航空机场 流量的多少,以及分布情况。根据某 1.分布统计 TipDM-TB 机场提供海量机场 WIFI 数据及安检 2.相关度分析 R 语言 登机值机数据,预测未来指定的时间 3.ARIMA 模型 Python 无线网络 的设备连 接数预测 窗口内,航空机场内每个无线网络点 每单位时间内的平均设备连接数量。 泰迪科技(www.tipdm.com), 2005~2016 20 顶尖数据挖掘教学实训平台之案例库产品说明书 入侵检测是网络安全领域中一个较 新的课题,检测引擎作为入侵检测系 统的核心模块,其检测速度快慢直接 影响网络入侵检测系统的效率,模式 网络入侵 自动识别 1.协议分析的方法 TipDM-TB 2.模式匹配算法 R 语言 3.BP 神经网络 Python 匹配是入侵检测系统的重要检测方 法,其性能对入侵检测系统至关重 要。利用网络协议的高度规则性,采 用协议分析的方法,结合模式匹配算 法,归纳出入侵的关键特征,构建入 侵的识别模型。 信息安全 海量的视频监控流使得发生突发事 故后,需要耗费大量的人力物力去搜 索有效信息。行人作为视频监控中的 1.灰度化、二值化 监控场景 重要目标之一,根据监控场景下多张 2.canny 获取边缘 TipDM-TB 带有标注信息的行人图像,完成图像 3.特征提取 R 语言 数据中行人属性(头部、上身、下身、 4.图像形态学变换 Python 下的行人 精细化识 别 脚、帽子、包)的位臵定位;研究行 5.图层识别 人精细化识别算法,自动识别出行人 图像中行人的属性特征。 泰迪科技(www.tipdm.com), 2005~2016 21 顶尖数据挖掘教学实训平台之案例库产品说明书 与传统的电视广告、户外广告采买相 比,流量作弊一直以来被看作互联网 1、分类数据概率转 广告特有的弊病。随着网络数据技术 换 广告监测 的发展进步,流量作弊也呈现出规模 TipDM-TB 2、缺失值处理 中的流量 化、机器化、产业化的趋势。基于 R 语言 3、神经网络算法 作弊识别 IP,cookie,设备 ID,访问时间序列, Python 4、混淆矩阵评价模 UA 信息分布等行为属性来建立一个 型 模型,区分正常用户曝光记录与作弊 行为记录,并进行标记。 如何有效的利用地方财政收入,合理 的分配,来促进地方的发展,提高市 民的收入和生活质量是每个地方政 基于数据 1.Lasso 法 府需要考虑的首要问题。根据广州市 挖掘技术 2.Adaptive-Lasso 变 TipDM-TB 量选择法 R 语言 3.灰色预测与神经 Python 1994-2013 年财政收入以及相关因素 政务民生 的 市 财 政 的数据,梳理影响地方财政收入的关 收入分析 键特征,分析、识别影响地方财政收 预测 网络组合模型 入的关键特征的选择模型;对广州市 2015 年的财政总收入及各个类别收 入进行预测。 泰迪科技(www.tipdm.com), 2005~2016 22 顶尖数据挖掘教学实训平台之案例库产品说明书 低保制度还不完善,具体的实施也就 1.神经网络 存在诸多漏洞。针对不同种类低保 2.SMOTE 算法 民 政 低 保 户,提供他们最需要的救助是亟待解 TipDM-TB 3.过抽样 申 请 用 户 决的另一个难题。找出低保户与非低 R 语言 4.ROC 曲线 识别 保户的特征,通过动态识别的方式, Python 5.精确率 自动识别符合低保条件或者不符合 6.召回率 低保条件的对象。 由于缺乏科学的瞄准机制导致贫困 基 于 数 据 原因不明,扶贫情况不明等,严重阻 1.决策树 挖 掘 技 术 碍了扶贫工作的开展。利用数据挖掘 TipDM-TB 2.神经网络 的 民 政 低 知识精准的找出每个地区致使其贫 R 语言 3.k-means 聚类 保 用 户 精 困的主要原因。针对找出的原因对不 Python 4.雷达图 准扶贫 同地区采取差异化的扶贫政策,使扶 贫效果更加有效。 由于水色能反映水中浮游植物的种 类和多少,可通过观察水色变化来调 控水质,维持养殖水体生态系统合理 1.图像切割 TipDM-TB 的动态平衡。通过历史水产专家经验 2.颜色矩阵 TipDM-HB 判断结果以及用数码相机按照标准 2.SVM 算法 R 语言 进行水色采集的数据,利用图像处理 3.混淆矩阵 Python 基于水色 其他行业 图 像 的 水 质评价 技术,实现基于水色图像的水质自动 评价。 泰迪科技(www.tipdm.com), 2005~2016 23 顶尖数据挖掘教学实训平台之案例库产品说明书 农产品价格是否合理,不仅影响农业 生产的发展,农产品的流通、消费和 多种农产 农民的收入水平,而且影响工业品的 1.映射处理 TipDM-TB 品价格的 成本和价格,影响国家同农民之间、 2.样条插值法 R 语言 分类智能 城乡人民之间以及农民内部的物质 3.ARIMA 模型 Python 预测 利益关系,对整个社会经济生活的安 4.SARIMA 模型 定也关系重大。通过大量历史数据的 分析,预测农产品未来的价格走势。 家用电器在使用过程中,因地区气 候、区域不同、用户年龄性别差异, 形成不同的机组使用行为,称之为用 家 用 电 器 户的使用习惯。按地域研究用户访问 TipDM-TB 1.数值变化 用 户 行 为 时间、访问内容、访问次数等分析主 TipDM-HB 2.特征提取 分 析 及 事 题,深入了解用户对访问网站的行为 R 语言 3.BP 神经网络 件识别 和目的及关心的内容。借助大量的用 Python 户的访问记录,发现用户的访问行为 习惯,对不同需求的用户进行相关的 服务页面的推荐。 泰迪科技(www.tipdm.com), 2005~2016 24 顶尖数据挖掘教学实训平台之案例库产品说明书 与应用系统关联的任何一种资源负 1.数据去重 载过大,都可能会引起系统性能下降 2.ARIMA 模型 甚至瘫痪。通过分析磁盘容量相关数 3.AIC 准则和 BIC 信 应用系统 据,预测应用系统服务器磁盘空间是 息准则 TipDM-TB 否满足系统健康运行的要求。根据用 4.平均绝对误差 R 语言 户需求设臵不同的预警等级,将预测 5.均方根误差 Python 负载分析 与磁盘容 量预测 值与容量值进行比较,对其结果进行 6.平均绝对百分误 预警判断,为系统管理员提供定制化 差 的预警提示。 7.使用容量定级 居民用水管道爆裂、渗漏,私接公共 管道,水表故障(或人为调整)引发 1.箱线图 水量反常等异常用水现象频发,尤其 管网漏损 2.统计分布图 是居民室内漏水以及盗取民用水为 及居民用 TipDM-TB 3.均值插值法 商业用水行为。归纳不同用户的用水 户用水异 R 语言 4.C4.5 决策树算法 行为特征,构建模型对用户进行分 常分析 Python 5.混淆矩阵 类,识别异常用水用户群。进一步对 6.ROC 曲线 管网漏损进行检测定位,确定漏损发 生的时间。 说明:案例库不断更新中…… 泰迪科技(www.tipdm.com), 2005~2016 25 顶尖数据挖掘教学实训平台之案例库产品说明书 2 案例构成 数据挖掘教学实训案例主要由以下几部分构成: 案例介绍: 案例背景 提出挖掘目标 分析方法与过程 上机实践 拓展思考 配套资源: 源数据及过程数据 建模环境下的程序/模型 教学配套PPT 微课视频 泰迪科技(www.tipdm.com), 2005~2016 26 顶尖数据挖掘教学实训平台之案例库产品说明书 3 案例示例 防窃漏电智能诊断系统通过采集电量异常、负荷异常、终端报警、主站报警、线损 异常等信息,通过“失压失流” 、 “超合同容量用电”等用电报警信息,以及根据报警事 件发生前后客户计量点有关的电流、电压、负荷数据情况来构建用户异常分析模型,从 而实现检查客户是否存在窃电、违章用电等目的。本项目的成果已广泛应用于广东电网 各地市单位,大幅度提高了防窃漏电诊断的效率及准确性,有效发现并查处窃漏电事件 70余起,追回电量损失(含违约相关费用)数百万元,已累计产生经济效益超数千万元。 一种自适应的防窃漏电诊断方法,曾获广东电网公司科学技术发明专利一等奖 (D2015ZL105-G8)和中国南方电网公司科学技术发明专利一等奖(2015-1-03-G08) 。 3.1 案例介绍 3.1.1 背景与挖掘目标 图 3-1 案例背景与挖掘目标文档 泰迪科技(www.tipdm.com), 2005~2016 27 顶尖数据挖掘教学实训平台之案例库产品说明书 3.1.2 分析方法与过程 图 3-2 案例分析方法与过程文档 3.1.3 上机实践 图 3-3 案例上机实验文档 泰迪科技(www.tipdm.com), 2005~2016 28 顶尖数据挖掘教学实训平台之案例库产品说明书 3.1.4 拓展思考 图 3-4 案例拓展思考文档 3.2 配套资源 案例配套资源包括:源数据及过程数据,常用建模环境下的程序/模型、教学配套 PPT 及案件微课视频。 泰迪科技(www.tipdm.com), 2005~2016 29 顶尖数据挖掘教学实训平台之案例库产品说明书 3.2.1 配套程序 图 3-5 案例配套程序(MATLAB/R/Python) 3.2.2 配套数据 图 3-6 案例配套原始数据 泰迪科技(www.tipdm.com), 2005~2016 30 顶尖数据挖掘教学实训平台之案例库产品说明书 3.2.3 教学配套 PPT 图 3-7 教学配套 ppt 图 3-8 教学配套 PPT 泰迪科技(www.tipdm.com), 2005~2016 31 顶尖数据挖掘教学实训平台之案例库产品说明书 3.2.4 微课视频 图 3-9 案例配套微课视频 泰迪科技(www.tipdm.com), 2005~2016 32

大数据挖掘案例库.pdf




