数据中台和AI产品

数据中台和AI产品,第1张

数据中台和AI产品

2020年国家发布数据是5大生产要素之一的文件

这其实和几十年前“科技是第一生产力”是一样重要的标志性纲要

也可以看出国家对数据的重视程度,以及未来数据行业的前景之广大
土地、劳动力、资本、技术这4大传统生产要素,经过这么对年的发展

已经逐渐的标准化,人才需求也逐渐的稳定

已经过了粗放的爆发性发展阶段

而数据作为生产要素被提出来也就是去年的事情

数据直接创造价值,成为业务必不可少的元素也就不超过20年时间

才刚刚开始被各行各业的技术先驱和领导阶层注意

所以数据行业爆发式发展才刚开始

有很多机会和可以玩的东西

这也是我讲这门课的一个重要原因

下面我们来看看数据的6个使用阶段

看看数据是如何一步一步的由不重要的角色

逐步变成生产必不可少的要素

第一个阶段 也就是“业务信号”阶段
这个阶段数据只是业务流程中一个触发的信号,对业务价值不带来任何直接利益

对应的是IT信息化时代,业务自动化、流程自动化是这个时代主流
ERP系统、资产管理系统中,数据就是流程中审批信号、上传文件

数据只是OTLP中一个触发值 不带来具体业务收益

第二个阶段是互联网发展初期“广告变现时代”

当然现在互联网的变现也还有很多是纯靠广告变现的

这个时代的特点就是,数据不参与实际业务生产过程

只是在产品营销触达用户的最后一个环节

通过在用户可能出现的路径上透出一些产品营销链接

或者广告来间接的吸引用户

这个过程其实其实就是抱着拓广渠道概率转化思路在做

早前的谷歌、百度,你搜了某个词 tab右侧、或者返回结果中夹带几条产品链接广告就是这种

这个阶段数据其实只是在营销末端帮助业务很小块的拓展渠道,并不带来直接参与业务生产价值创造

第三个阶段是互联网发展一个阶段后,出现的“导流孵化”变现模式

这个阶段数据的价值在于:通过免费精做的产品吸引真实用户使用

创造一个数据流量生态,然后利用创造的生态为其它的服务、业务生产导流做产品服务或者变现

这个典型的例子就是腾讯系的应用

QQ通过免费的聊天工具和丰富的产品:qq群、状态、QQ空间(个人博客)

吸引中国年轻一波人建立线上强关系网络

然后通过对这些人特点分析去生产各种游戏或者和各种游戏公司合作
通过构建的年轻人强关系网为游戏导流,变现的拿收入

微信通过简单好用、提供各种信息渠道、资料渠道打造中国全民强关系社区网

微信利用这张网给拼多多、JD、滴滴...导流孵化这些公司变大赚钱

微信通过这种流量入股方式,把潜力公司孵化上市然后变现

这种模式中,数据也不直接参与业务生产、不是业务的生产要素(初期如此现在模式已经复杂化了,有参与直接业务生产,成为业务生产要素)

通过导流提供渠道方式成为企业营销成败的重要因素

第四个模式就是互联网直接参与营销“数据服务”模式
这个模式数据的价值在于,数据是全营销链路参与、不直接是业务生产的要素但是是业务生产、研发的必不可少的参考

阿里巴巴集团阿里妈妈、数据参谋、前期支付宝模式就是这种模式

通过为线上商家通过营销全链路的大盘数据决策,帮助企业获利,然后抽取服务费

这种模式下,数据已经成为了业务生产必不可少的辅助服务

第五种模式是数据是产业生产的“必要辅助”

这种模式下,数据是这个产业决定成败的添加剂,

还不是业务生产的必须要素,离开这些添加剂也还能活就是活的不那么痛快

比如海运的气象数据、物流里的地图数据
这些数据其实没有厂商提供,业务也能发展但是就是会比较痛苦

如果有了这些数据产业就会长的更快更稳定更健康

第六种模式是数据已经成为业务“生产必要要素”

这个阶段就是数据就是业务生产的必须要的决定性的元素,没有数据这业务就没法存在

比如高铁调度,如果没有高铁路网的实时汇总数据,实时计算统一调度系统

全国的高铁就无法现在这么快的速度高效运行

相信大家应该还记得当年温州高铁对撞的事件、

以及前几年新闻联播多次出现的一辆高铁出故障半个中国高铁瘫痪半小时的事件

高铁网需要即时把中国路网上车辆运行状态快速精准预算预测、调度

如果慢半小时就会导致高铁不是高铁变成瘫痪

还有一个例子就是Netflix的纸牌屋

纸牌屋的剧本创作完全是基于用户的观影趋势分析、观影感文字创造出来然后拍摄

这部电影的生产整个过程用户数据就是必不可少的生产要素

讲到这相信大家都了解了数据是如何影响业务生产,如何由弱到强的变成不可少的要素

下面我们会讲两个我实际做过的两个例子带大家来看看数据可以怎么用,
怎么构建,怎么去解决现实业务问题

 

这部分会和大家介绍两个真实的例子,

带大家了解下实际例子中我们是怎么去采集、融合、加工构建数据

怎么把数据变成策略、变成标签;

怎么样把数据转成可以解决问题的AI服务

去给企业带来业务价值的

我们先讲第一个风控的例子

大概背景是:我们需要举办一次发红包拉起沉默用户的活动,活动参与用户会在上亿级别

这种大规模的送钱活动,一定会引起羊毛党、黑产的注意

在活动之前我们就必须搭建一个系统来把羊毛党、黑产的风险降到最低(95%以上识别准确率)

黑产是个什么概念,就是他们会买很多台手机,

然后装上各种的应用APP,利用软件或者一个人负责几十台机器

等到有大型的权益福利时候通过这些设备撸羊毛,聚少离成多的赚钱的一般人

这个难度在于他们有真机而不是仿真机,并且他们的行为很人 *** 作的行为是很像的

那这个问题怎么解决呢

我们当时的思路是:

1.他们虽然是真机,但是机器还是要共享的,一台机器可能会对应多个电话号码

2.虽然有可能是真人在 *** 作,但是他们 *** 作是一个人对应几十台机器,他们动作是单一的

3.他们手机号IP是多地的,但是他们手机真实地址大部分时候就在一个地方,且不常移动

总结下来就是他们像人但是毕竟不是真人,行为上一定可以找到差异
1.人在一定周期内打开和使用APP的个数不会只是一个、每个APP都会有使用流量和使用时长

2.真人和手机基本在一起,所以真人的手机是会有走的步数、、步率的

3.真人一定周期内总是会移动的,所以移动轨迹不会只是在一个点

4.真人手机号基本会注册微信、抖音、QQ这种国民应用的,并且每天总是会有比较高打开频次和使用时长、流量消耗也不小

5.真人电话好友、打出打入电话构建的关系网应该是比较有规律的

6.可疑手机,基本是一个地址点附近会有群聚效应;一台可以手机附近会有多部可以手机

针对以上的一些洞察我们把需要的采集的数据罗列出来,如ppt表格所示

这些数据我们有些事可以从已有打点或者SDK采集到

一些事需要跨部门去和兄弟部门要

另一些是需要去外面买或者通过从网上爬取

数据收集了以后,我们需要通过一些手段把多个渠道收集的数据融合拼接成每个用户每行数据

这边会涉及到OneID、OneEntity方法思路,这里不细讲

数据融合了以后,我们要怎么去用呢

根据前面的洞察,我们需要对数据做各种分析

比如利用好友关系强构建关系网络,

然后利用子图匹配方法找出和正常人群异常的人群

或者寻找,两个弱链接人群,联通人作为异常人群

利用APP流量分布做聚类,寻找异常点

找到异常人群,然后通过正常人群得到的经验规律做匹配
给每个匹配策略不同权重,打分超过一定阈值认为是高风险人群

实验效果风险乐乎识别率可以做到99%以上

另一个例子是通过消费钢舆情的监控分析提前布局产品研发

背景大概是这样:有家做消费钢生产的公司他们想了解现在c端用户对钢生活用品的趋势是什么样
以及现在消费数据显示趋势是如何

他们可以根据这些趋势,提前做好消费钢匹配的研发

可以提前一步在生产者消费趋势到来前,把材料配比研发做好

数据准备如ppt表格

趋势预测用到了:公司历年产品销售数据、三方全网消费钢趋势数据、网络爬取的用户舆情数据

生产相关数据:用到公司材料匹配专业图谱

对用户需求做了转义:比如把坚固耐用、牢固转成产品语言就是这东西需要兼顾,对应就是碳含量要高,要是析晶体、铁碳3..

做完这些工作后,他们发现用户这些趋势是朝:造型、美观、多功能、实用面广走,不在那么强调牢固耐用

意思也就希望:

1.造型多,美观——好加工——不能太硬,要有韧性——碳含量中等就好

2.多功能、实用面广——酸碱、高温、常温、尘多地方都有一定耐受——多晶体、奥氏体、钉扎效应

通过这么分析研发开始明确未来几年产品匹配发现

后面他们除了在匹配上做了文章,还在表面处理涂层做了文章

开发出很多不锈钢搪瓷 卖的很好

经过前面两页PPT数据价值介绍,

相信大家对数据的重要性,数据可以作为地方应该有些感触

那么这页PPT主要是跟大家介绍数据使用经历的4次比较大的变革

大家可以结合目前自己的业务和公司情况看看现在自己是在数据使用的那个阶段

我会从公司战略定位、数据量维度数、数据开发工具、数据组织形态几个方向介绍

数据统计使用阶段:
1.数据维度单一、纯业务驱动、数量少,数据基本是Excel画表统计分析为主

决策支持阶段:

1.数据维度比较丰富、有建立数仓意思、做商业洞察比较多,主要是给决策层使用

数据驱动阶段:

1.数据比较丰富、数据量也很大、开始出现比较体系化的大数据平台,数据开始普惠不只是决策层使用,开始变成公司服务一部分,服务消费者

运营优化阶段:

1.这时候数据已经形成闭环,开始有数据资产的概念,又对数据治理的意识、使用数据中台思维来构建组织数据资产,让数据可以快速、容易的被业务使用,形成数据闭环,让数据越用越多

这也是代表目前数据使用的最高理念阶段,数据中台也是我们现在最完整和先进的数据使用开发要素化的理念

经过前面数据价值的铺垫、数据的4个发展阶段的介绍

我们要介绍下这么课的课程体系结构,

看了ppt的课程脑图,结合我前面讲的内容
相信大家应该也基本知道我为什么要这么架构了
是的数据中台是当下最先进的数据使用、开发的理念、也是当下最完备的数据产品和数据生态

所以我们会通过数据中台的介绍,给大家去讲解当前数据加工的整个流程

通过数据中台各个模块的介绍去跟大家介绍当前数据生产的理念,

这些模块的主要内容以及这些模块产生背后的原因和它的技术理念带来的产品化理念

这部分每个模块都带上实践例子

介绍完数据中台

我们接下来会讲解AI数据产品,这部分可以说是数据产业当前的明珠
也是很多互联网、科技公司得以赢过别人的法宝
所以这部分我们会介绍AI数据产品的开发流程
数据挖掘算法篇会介绍常用饿极大类算法

数据挖掘模型篇会跟大家介绍模型的评估方法
这边我会抽一讲来介绍现在很火的在线业务评价系统

AB测试系统,会讲解AB系统的一些原则,包括哪些模块
也会用实际的例子带代价过一遍实际AB测试是怎么用的

介绍完这部分
我会用一个智能UI系统,来把前面讲的各种模块串起来

看看实际的企业是如何把去构建数据中台、如何去利用数据中台构建AI产品
如果利用AB系统来评估每次实验和迭代的好坏

 

 

 

欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/zaji/5700262.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存