当前位置: 首页 > 编程日记 > 正文

国信优易首席科学家周涛:大数据的商业应用

国信优易首席科学家周涛认为,大数据已经成为一个非常热的概念,但是当一个概念热到一定程度就会存在风险,甚至风险比机会还多。在大数据沙龙中,他和数据从业者们分享了自己所经历的大数据应用。

2dff8bc6894f31fe73f2a3d2df795c4d4642e95e

以下为周涛发言:

大数据的应用创新可以分成4个阶段,我以一些公司为案例来说明。

1、简单的数据集中

我们做过一家企业——数联铭品,它是做企业征信的。我们把工商数据和法律数据(包括法院已经诉讼完和在诉的案件)、纪检、知识产权部门、项目申报、企业招聘数据、企业舆情数据等数据都爬下来。之后我们就可以做出企业的画像,知道一家企业的关联方、诉讼风险、通过招聘的人才可以看到这个企业的发展方向等等。得到这个企业画像之后,我们就可以提供给会计事务所做审计、给贸易公司、政府做背景调查等等。这套东西看起来很简单,但是卖的很好。这家公司成立一年半,已经到了B轮融资。

我们有和别的公司合作进行数据交换,但是绝大部分数据都是从互联网上获得的。这其中没有涉及到数据分析,到目前为止我们只是进行信息的搜集和整理。这是数据应用的第一种模式。但是公司不可能依靠这种模式走的很远,可以达到一亿美元的规模,但是无法达到10亿美元的规模。

在市场中,数据还是很好卖的。

2、数据分析

如果你有很强的分析手段,你就能占据很强的优势。

杭州的迈宁数据专注给金融行业进行数据分析。他们做了一个项目,帮助民生银行找到信贷中的违约客户。

银行在给中小微企业放款过程中,没有办法做长时间精细的背景调查,怎么控制不良贷款成为他们考虑的重要问题。我们和民生银行合作,它开放给我们800多家银行掌握的企业数据,用这些信息帮助银行进行风险评估。

企业是什么类型、在什么地域、平均账户上的钱有多少等等是初级特征,一些企业间社交关系等等是高级特征。之前民生银行用原有方式能从8万用户中找有3百多违规用户,现在我们只用基本特征就能从7千人中找出298个违规用户,用高级特征我们还能提高到97.5%,那样银行就只用对剩下的2.5%进行人工甄别,节省了大量人力和资源,这对银行带来的是翻天覆地的变化。

这种分析有三个特征。一个是数据量大,二是需要自动化,三是分析是非标化的。这不是买一个excel或者SARS软件就可以的,必须要数据工程师在其中工作。

3、数据的外部化。

前面的案例就是用一个企业的数据来解决一个企业的问题,但是进一步,我们怎么样把数据拿出来解决外面的问题,正如Google用搜索数据来预测流感。

我们学校非常关注校园里的抑郁症学生,一般校园里5千—1万人中间发生一起自杀事件,而自杀的学生基本都是因为抑郁症。我们希望减少这种事情的发生,所以我们要找出有抑郁症的学生。

抑郁症有什么特征?这类学生一般比较自闭,他们只有很少的朋友或者没有朋友。我们给每个新生发了量表做调查,但是这个量表效果不佳。

我们于是采用了另一个方法,用数据来分析。

高校有一卡通,可以用于食堂、宿舍、图书馆进出等等。我们计算过,在电子科大早午餐随机两个陌生人前后打卡的概率小于1/300,进图书馆、前后打开水的概率更低。从这个概率就可以看出一个人有没有朋友,有多少亲密同性朋友,有多少亲密异性朋友等等。我们通过甄别出哪些学生是孤僻的,然后和心理咨询记录等做对比,发现孤僻的学生得抑郁症的概率要比普通人高出18、9倍。这样就可以尽早进行干预。

我们纯粹用刷卡记录就能找出孤僻人群,这就是典型的数据外部化。校园卡本来是用来进行消费结算、出入的,但是被我们用来甄别孤僻的学生,我们能用这些数据还能做其他事情。通过这个例子企业家们也可以思考,看一个企业出现了什么问题不一定要看他自己的数据,还可以通过外部的数据来找到,反过来自己企业产生的数据也可能反应出其他问题。

4、数据的集成

把内部外部的数据集成起来,才能产生更高的价值。一方面我们有一个好的生态环境,对数据的质量、隐私、安全等进行管理。另外一方面我们要建立包含从数据采集、存储、分析、论证到可视化的平台。在这方面我们做了几类事情。

一是简单的数据交易。一种是数据交易平台“数据堂”,在平台上进行数据的买卖。二是和发改委合作的数据库。国家做了两个基础数据库。一期是和十一个部委合作(林业部、农业部等),做自然资源基础信息。二期是阿里合作、5个部委参加(央行、工商总局和税务总局等),针对企业和个人征信的数据库。通过这个数据库可以进行数据的交易,这种是数据可控条件下的交易。

二是聚集问题、解决方案和人才的平台。例如国外的kaggle竞赛平台,估值40亿。集聚了近8万数据科学家,大公司在其平台上举办几百万美金的数据比赛。我们也在国内做数据大赛,现在规模比较小。刚结束的全国大学生大数据竞赛吸引了755只队伍,两千多人。为什么他们愿意来参加?奖金是一部分因素,但是通过这个平台可以认识志同道合的朋友一起交流,可以展示自己的才能获得工作甚至是投资。

之前大数据落地没落好实际上是数据、需求、技术和人才是分离的。现在平台可以把它们都聚集到一起。

三是数据创新工场。这是一个构想,汇聚大数据技术人才。现在很多公司希望利用公司数据,但是不懂大数据,招人才也很难。我们想做成标准化的流水线,对企业的数据进行加工,可以做任何文本、图像、视频的识别。

这就是我们在大数据应用方面的成果,大数据在中国的应用市场越来越广阔,也希望企业家们和我们一起交流!

摘自:优易数据

相关文章:

【Python】Radiobutton组件 LabelFrame组件 Entry组件

Radiobutton组件 Radiobutton组件跟Checkbutton组件的用法基本一致,唯一不同的是Radiobutton实现的是“单选”的效果。 要实现这种互斥的效果,同组内的所有Radiobutton只能共享一个variable选项,并且需要设置不同的value选项值。 注释掉的也…

索引与联合索引使用注意

索引和联合索引看似很简单但是往往不一定用的对。 假设数据库2个字段a,b都是查询条件 第一个问题:是建立2个索引还是一个联合索引? 第二个问题:如果建立联合索引那么字段的顺序有什么讲究? 原则: 1.如果需要多个字…

用canvas实现一个vue弹幕组件

看B站时,对弹幕的实现产生了兴趣,一开始想到用css3动画去实现,后来感觉这样性能不是很好,查了下资料,发现可以用canvas实现,于是就摸索着写了一个简单的弹幕。弹幕功能支持动态添加弹幕弹幕不重叠自定义弹幕…

系统架构的过程 浮现式设计

系统架构如果设计之初就设计错了,那么必然是南辕北辙。 很多人做系统设计总是东一下,西一下,杂乱无章,想到那是那,然后系统的边界很大,总会有疏漏。 那么系统架构应该怎么设计呢? 首先来说分…

【Python】Listbox组件 Scrollbar组件 Scale组件

Listbox组件 在选项特别多的时候,Listbox是以列表的形式显示出来,并支持滚动条操作,所以在对于需要提供大量选项的情况下会更适用。 from tkinter import * root Tk() theLB Listbox(root,setgridTrue) theLB.pack() for item in ["…

Hive 按某列的部分排序 以及 删列操作

Hive 按某列的部分排序 以及 删列操作 脑袋果然还是智商不足。 涉及到的小需求: 某个表test 有一列 tc: a字符串b字符串c字符串 拼接组成把test表,按b字符串排序 输出遇到的问题: select 里面必须包含 order by 的列按b字符串排序…

docker 安装 RabbitMQ

1、镜像中国(http://www.docker-cn.com/registry-mirror):直接使用https://hub.docker.com下载镜像比较慢,使用镜像中国加速 使用例子:$ docker pull registry.docker-cn.com/library/rabbitmq:3.6-management 2、拉取…

编程容易犯的错

1.数字 比如分页默认从第0页开始,你不了解,写个1,这样数据也出来,但是就是少了第一条,这种错误比较难发现。 写代码对于数字需要敏感,不懂一定要搞懂。 2.参数 多参数做缓存拼凑一个key,之前…

深圳杯---无线回传拓扑规划

B题-无线回传拓扑规划(3人完成) 背景介绍 在城区建设基站,传输光纤部署最后一公里的成本高,光纤到站率低,全球综合来看低于60%;如果使用微波传输,由于微波只能在LOS(视距&#xff0…

Jmeter脚本 GUI和非GUI启动方式

2019独角兽企业重金招聘Python工程师标准>>> 1.下载Jmeter 地址:http://jmeter.apache.org/download_jmeter.cgi 2.启动jmeter 运行bin/jmeter.bat 3.添加线程组 在TestPlan节点上右键,Add-->Threads(U…

前端效果参考地址

今天项目内容基本完善,没什么事情,就找了一些插件和好用的css动画,下面将一些链接地址分享出来 1、如果需要写阴影、圆角、渐变、弹性盒子等,请参考一下方式: 点击 2、轮播图、全屏滚动等动画: swiper效果 …

随机变量的数字特征(数学期望,方差,协方差与相关系数)

戳这里:概率论思维导图 !!! 数学期望 离散型随机变量的数学期望 (这里要求级数绝对收敛,若不绝对收敛,则E(X)不存在) 如果有绝对收敛,则有 ,其中 连续型…

Spring @bean冲突解决方案

引用2个jar都实现了相同的bean注入,这个是feign的Level Bean public Level feignLoggerLevel() {return Level.FULL; } 这样报错: escription:xxx required a single bean, but 2 were found:- feignLoggerLevel: defined by method feignLoggerLevel in class p…

javascript中实例方法与类方法的区别

在javascript中,类有静态属性和实例属性之分,也有静态方法和实例方法之分 类属性(静态属性):通过类直接访问,不需要声明类的实例来访问 类方法(静态方法):通过类直接访问…

vue 集成富文本tinymce

开发环境 1. vscode开发语言 1. vue 2. javaScript插件安装 1. npm install tinymce -S 2. 可以使用里面的文件, 下载后可以在node_modules 里面查看如下未目录结构3. 可以将整个结构拷在static里面,为了节省打包后的文件大小可以将tinymce.min.js以cdn方…

c语言中如何设计和编写一个应用系统?

C程序中,如何设计和编写一个应用系统?一、 C语言文件的操作1、 文件操作的基本方法:C语言将计算机的输入输出设备都看作是文件。例如,键盘文件、屏幕文件等.向屏幕输出一个信息,例如“Hello”是#include.h>int main(){printf("Hello…

深圳杯---人才吸引力评价模型研究

人才吸引力评价模型研究 在世界各国和全国各地都加大争夺人才的背景下,一个城市要保持其竞争活力和创新力,必须与时俱进地但不盲目地调整相关人才吸引政策。2018年深圳市将加大营商环境改革力度作为一项重要工作,以吸引更多优秀的高新企业和…

不写容易出错的代码

下面2段代码都是完成商品名称的更新,只是第一种情况数据源是list第二种是map 第一代代码是从List里获取第0个 entity.setProduct_name(productList.get(0).getName()); 第二段代码从map里获取键值 entity.setProduct_name(productMap.get(pid).getName())); 如果…

【Vue】IView之table组件化学习(二)

最基本的绑定table是这样的&#xff0c;需要columns和data两个属性。 <template><Card><h4>表格栗子</h4><Table :columns"cols" :data"stuList"></Table></Card> </template><script> export defa…

show-busy-java-threads查找CPU占用高

背景&#xff1a;需要查找线上CPU占用过高的Java线程在做什么。 可以使用top命令找出占CPU高的进程 #top 然后按shiftC 按CPU占比排序 然后把进程中占比高的线程id找出来&#xff0c;这个是常见的套路&#xff0c;但是这样做比较繁琐。 可以使用show-busy-java-threads工具…

了解机器学习的八大专业术语

转自&#xff1a;https://www.sohu.com/a/217453268_178466 1 自然语言处理 自然语言处理对于许多机器学习方法来说是一个常用的概念&#xff0c;它使得计算机理解并使用人所读或所写的语言来执行操作成为了可能。 自然语言处理最重要的最有用的实例&#xff1a; ① 文本分类…

34.TokenInterceptor防止表单重复提交

转自&#xff1a;https://wenku.baidu.com/view/84fa86ae360cba1aa911da02.html 由于某些原因&#xff0c;用户在进行类似表单提交的操作后&#xff0c;以为表单未被提交&#xff0c;会进行多次的重复提交。为了避免用户多次提交给服务器带来负荷。我们会对表单提交这样的操作进…

使用arthas采集火焰图

火焰图是用图形化的方式来展现profiler工具采集的性能数据&#xff0c;对数据进行统计和分析&#xff0c;方便找出性能热点。 现在我们使用arthas采集JVM的火焰图。 1.首先你需要安装arthas 说是安装其实就是下载解压&#xff0c;arthas是不需要安装的。 下载 — Arthas 3.5…

sudo配置文件详解及实战

2019独角兽企业重金招聘Python工程师标准>>> 安装NGINX之后每次都需要切换ROOT用户做配置文件修改和启动&#xff0c;为了加强安全&#xff0c;ROOT用户一般是不允许直接提供给应用开发人员或者运维人员的&#xff0c;所以需要提供一种方法可以一般用户执行ROOT用户…

Centos中文输入法安装以及切换

鼓捣鼓捣&#xff08;我是一只菜鸟&#xff09;&#xff0c;终于在我的Centos上面装上我的大中华输入法了&#xff0c;哈哈哈哈下面就简单描述下安装过程吧&#xff01;&#xff01;&#xff01;centos6.5用yum安装中文输入法打开终端&#xff0c;进入root用户&#xff08;命令…

【MATLAB】矩阵信息的获取

1、矩阵结构 矩阵的结构是指矩阵子元素的排列方式。 函数名称函数功能isempty(A)检测矩阵是否为空isscalar(A)检测矩阵是否是单元素的标量矩阵isvector(A)检测矩阵是否是只具有一行或一列元素的一维向量issparse(A)检测数组是否是系数矩阵 返回1表示该矩阵是某一特定类型的矩…

Android Gradle Plugin 源码解析(上)

一、源码依赖 本文基于: android gradle plugin版本&#xff1a; com.android.tools.build:gradle:2.3.0 gradle 版本&#xff1a;4.1 Gradle源码总共30个G&#xff0c;为简单起见&#xff0c;方便大家看源码&#xff0c;此处通过gradle依赖的形式来查看源码&#xff0c;依赖源…

Guice系列之用户指南(七)

原文地址&#xff1a;https://code.google.com/p/google-guice/wiki/ToConstructorBindings Constructor Bindings&#xff08;构造器绑定&#xff09;&#xff1a;在父类型上绑定子类实现的构造函数。 贴代码&#xff1a; 12345678910111213141516171819202122232425262728293…

Linux系统火焰图

CentOS7.8 安装perf #yum install perf 执行perf 执行perf record 命令&#xff0c;记录该PID的行为 #perf record -a -g -p 14851 -- sleep 30 --30秒后退出 需要注意后面生成svg图片的所有命令要和当前perf在同一目录&#xff0c;不然会报错。 #perf report 安装git …

深圳杯---垃圾焚烧厂的经济补偿问题

垃圾围城是世界性难题&#xff0c;在今天的中国显得尤为突出。2012年全国城市生活垃圾清运量达到1.71亿吨&#xff0c;比2010年增长了1300万吨。数据显示&#xff0c;目前全国三分之二以上的城市面临垃圾围城问题&#xff0c;垃圾堆放累计侵占土地75万亩。因此&#xff0c;垃圾…