DM第一篇:绪论

阅读: 评论:0

DM第一篇:绪论

DM第一篇:绪论

什么叫绪论? [手动旺柴🐕]
书籍或论文开头说明主旨和内容的部分。

开篇2个W和一个H
1.什么是数挖?
数据挖掘,是一种将传统数据分析方法与处理大量数据的复杂算法相结合的技术。

2.为什么需要数挖?
数据收集和数据存储技术的快速发展,让各种组织结构累积了Mass Data。如何从这些海量Data中Extract Valuable Info 以assist Decision-making,成为Great-Challenge。 于是数挖(Data Mining)就站出来了,saying “I can do that”

3.如何数挖?
这个问题问得好


0.引例与数据挖掘定义

1.营销界的神话——啤酒与尿布的故事

提问:怎么知道:货架的组织会影响商品的销售!?

事先是不知道这个知识的,但从消费者的购物清单信息中,
挖掘出了这个知识。即: 关联销售!

美国的妇女通常在家照顾孩子,
所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,
而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。


这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析

一下出现了好多陌生名词,我大概百度了一下:

  • 购物篮分析:
    购物篮指的是超级市场内供顾客购物时使用的装商品的篮子,
    当顾客付款时这些购物篮内的商品被营业人员通过收款机一一登记结算并记录。
    所谓的购物篮分析(Market Basket Analysis)
    就是通过这些购物篮子所显示的信息来研究顾客的购买行为。
    主要的目的在于找出什么样的东西应该放在一起。
    藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品,
    找出相关的联想(association)规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。
  • 关联销售
    关联销售类似于捆绑销售,即将产品“打包”销售,
    比如将速溶咖啡和杯子打包销售,其目的是在满足顾客需求的同时
    (包括产品价格和产品种类均满足顾客需求,关联销售的价格相对于单独购买,一般都比较优惠),
    从而提高销售收入,达到双赢。

2.广告投放——精确制导

首先,是为了最终实现网络广告投放策略的真正价值。
然后,通过挖掘网络中潜在的社区人群,

企业可以更好地搜索潜在消费者和传播对象,
分散的目标顾客和受众精准地聚集在一起
精确地把广告投放给目标客户,

于是乎,这不但有效降低单人营销费用,而且可以减少对非目标客户的干扰
提高广告的满意度,

可是好多广告都令人不快,直接一气之下用脚本或者vip


3.客户流失分析

  • 在激烈竞争的市场,往往采取名目繁多的促销活动和层出不穷的广告宣传来吸引新客户、留住老客户;
  • 研究发现:发展一个新客户比保持一个老客户的费用要高出5倍以上。
  • 客户流失分析是以客户的历史消费行为数据、客户的基础信息、客户拥有的产品信息为基础,
    通过研究综合考虑流失的特点和与之相关的多种因素,
    以此建立可以在一定时间范围内预测客户流失倾向的预测模型,
    以便对流失进行预测、并对流失的后果进行评估

4.智能搜索

  • Web信息检索,即搜索引擎,是能有效解决通过网络来快速发现有用信息的重要工具。
  • 传统的搜索引擎(百度、 Google、Bing、搜搜等 ),在用户输入关键词进行查询后,
    返回的是成千上万的相关结果,往往需要用户花费大量时间浏览与选择,不能满足用户快速获取信息的愿望。
  • 因此大量学者以及研究人员开始研究行业化、个性化、智能化的第三代搜索引擎。

例如:
▶ 通过跨语言信息检索可方便地检索不同语种的网络资源
▶ 通过文本聚类算法对搜索返回结果进行划分处理,用户可以根据聚类结果快速定位到所需资源;
▶ 通过显式或隐式地收集用户偏好信息,深层次地挖掘用户个人兴趣,为用户提供个性化的搜索服务;
▶ 通过交互的查询扩展功能改善用户查询词,同时可让系统更好地理解用户的检索意图。


5.入侵检测

  • 入侵可以定义为任何威胁网络资源(如用户账号、文件系统、系统内核等)的完整性、机密性和可用性的行为。
  • 大多数商业入侵检测系统主要使用误用检测策略,这种策略对已知类型的攻击通过规则可以较好地检测,但对新的未知攻击或已知攻击的变种则难以检测。
  • 异常检测通过构建正常网络行为模型(称为特征描述),来检测与特征描述严重偏离的新的模式

上述例子来自于不同Application Area,
但是 data mining is the core processing technology behind it


6.数据挖掘定义

可以从 技术商业 两个层面定义:

  • 技术层面
    从大量数据中提取有用的信息的过程。
  • 商业层面
    一种商业信息处理技术。
    其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,
    从中提取辅助商业决策的关键性数据。

数据挖掘所得的信息有三个特征:
先前未知性、有效、实用

  • 先前未知性:比如 “啤酒与尿布” ,先前是不知道这种关联销售的。

1.数据挖掘产生的背景

  • 四种技术激发了人们对数据挖掘技术的开发应用和研究:
    1:超大规模数据库的出现
    2:先进的计算机技术,如更快更大的算力和并行体系结构
    3:对海量数据的快速访问,如分布式数据存储系统的应用
    4:统计法在数据处理领域应用不断深入
  • 互联网用户激增,社会进入网络化时代,信息爆炸时代。
    从而大量的信息导致的大堆问题:
    信息冗余、信息真假难辨识、信息安全难保证、信息形式不一、信息难统一
  • 互联网成为信息传播的主流平台:“数据过剩”、“信息爆炸”、“知识贫乏等现象出现
  • 强大的商业需求驱动:有效解决海量数据的利用,具有巨大商机。

  • 数据挖掘思想来自机器学习、模式识别、统计和数据库系统。
  • 数挖的概念首次出现在1989年举行的第试一界国际联合人工智能学术会议

2.数据挖掘任务及过程

“挖掘出的信息越出乎意料,就可能越有价值”

通常数挖任务可以分成
预测型任务 :回归、分类、离群点检测
描述型任务:聚类分析、关联分析、烟花分析、序列模式挖掘

上述两大类任务中的子任务,会在接下来系列博文中逐一介绍
在这里先说明 聚类和分类的区别
聚类:是一种无指导(监督)的观察式学习,无预先定义类。
分类:是一种有指导(监督)的示例式学习,有预先定义类。


先提一个概念:知识发现:KDD:Knowledge Discovery in Database
指,从数据中发现有用知识的整个过程。
而 知识发现的 整个过程 可以从 技术角度商业角度 来看:

  • 技术角度,知识发现七步诗

    数据清洗(data clearning)
    清除数据噪声和与挖掘主题明显无关的数据。
    数据集成(data integration)
    将来自多数据源中的相关数据组合到一起。
    数据转换(data transformation)
    将数据转换为易于进行数据挖掘的数据存储形式。
    数据挖掘(data mining)
    利用智能方法挖掘数据模式或规律知识。
    模式评估(pattern evaluation)
    根据一定评估标准从挖掘结果筛选出有意义的相关知识。
    知识表示(knowledge presentation)
    利用可视化和知识表达技术,向用户展示所挖掘的相关知识。

  • 商业角度,数据挖掘三部走

    数据收集、 知识提取、知识辅助决策


所以,数据挖掘是知识发现过程中一个重要的环节!!!不要把二者混淆或者等同

3.数据挖掘应用

数据挖掘技术,从一开始就是面向应用的。而且应用很广

商业领域中的应用:

  • 数据库营销(Database Marketing)
  • 客户群体划分(Customer Segmentation & Classification)
  • 客户背景分析(Profile Analysis)
  • 交叉销售(Cross-selling)
  • 客户流失性分析(Churn Analysis)
  • 客户信用记分(Credit Scoring)
  • 欺诈检测(Fraud Detection)

计算机领域中的应用

  • 信息安全:入侵检测,垃圾邮件的过滤
  • 互联网信息挖掘:Web内容挖掘、Web使用挖掘、Web结构挖掘。
  • 自动问答系统:采用自然语言处理技术,一方面完成对用户疑问的理解;另一方面完成正确答案的生成。
  • 网络游戏:网络游戏外挂检测、免费用户到付费用户的转化

它领域中的应用

  • 生物信息或基因数据挖掘
  • 情报分析挖掘
  • 体育竞赛
  • 天文学
  • 过程控制/质量监督保证
    ……

4.数据挖掘不能干什么呢?

虽然数据挖掘具有广泛应用,但它绝不是无所不能,
首先数据挖掘仅仅是一个工具,而不是有魔力的权杖;
其次数据挖掘得到的预言模型
可以告诉你会如何 (what will happen)但不能说明为什么会(why)
再者数据挖掘不能在缺乏指导的情况下自动地发现模型。


本篇结束

本文发布于:2024-02-02 08:28:31,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170683371442578.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:绪论   第一篇   DM
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23