数据堂-大数据产业调研及分析报告(编辑修改稿)内容摘要:

此 , 亟 需将大数据的发展提升到战略高度 , 以此为契机 , 通过各种创新 和 探 索 ,推动产业升级和创新、经济转型和民生建设。 我国的 大 数据发 展 不仅是 时 代的需 要 ,更有 着 得天独 厚 的基础 优 势。 我 国 庞大的人口和经济规模为大数据发展提供了肥沃的土壤 , 也 为理念 、 技术和模式的创新提供了无限的可能性。 可见 , 大力发 展 大 数据产 业 ,主动 掌 握新一 代 信息技 术 产业发 展 的主动 权 ,推动 整 个 国 家和社会的良性 、 可持续发展 , 是以大数据为代表的第三次产业 革 命 带给我国的历史契机。 (二)全球大数据产业分析 大数据 涵 盖数据 从 产生到 最 终被分 析 利用的 各 个环节 , 其中所 涉 及的相关技术都可以被称为大数据技术 , 而对数据施加影响的各 方 则 共同构成了大数据产业链。 根据 IDC 的报告显示,全球大数据市场规模年增长率达 40%,在 2017 年将达 530 亿美元。 其中,大数据技术及服务市场复合年增长 率 ( CAGR) 将达 %, 2020 年收入将达 238 亿美元 , 其增速约为信 息通信技术( ICT)市场整体增速的七倍之多。 当前各 界 对大数 据 产业链 的 划分有 诸 多版本 , 其中逻 辑 相对清晰 的刻画来自于彭博发布的研究报告 , 将大数据产业分为六大区块 , 包 括数据源类 、 基础设施类 、 分析类 、 应用类 、 跨基础设施类和开源项 目类。 本报告依据此划分进行阐述 , 但所引述的大数据应用和探 索 案 例并不限于彭博的报告内 容 ,在地域上也不局限于北美地 区。 大数据 的 定义没 有 明确的 限 定和边 界 ,能够 归 入大数 据 范 畴 的案 例数不胜数 , 本文主要以启发性和独创性为主线 , 选择最具典型 意 义 的案例进行描述 , 希望尽可能地从数据源 、 分析方法和价值实现 等 角 度体现出大数据的真正内 涵。 图 .大数据 产 业链分 布 (彭博) 数据 源( Data sources) 本区块 内 的企 业 基 于自身 业 务产 生 或 采集了 大 量数据 , 并通过 租 售等方 式 直接对 外 交付数 据 ,还包 括 纯粹提 供 数据交 易 平台 的 企 业。 判断企业是否属于数据源的关键在于 , 这类企业的客户还需要对 所 获 得的数据进行分析和挖掘才能对决策形成真正的支持。 大数据 与 传统数 据 分析理 念 的一大 区 别就在 于 强 调 数 据 的外部性 , 即数据离开了其产生和消费的传统路径 , 为其他行业或领域所 用。 数 据外部性的典型场景包括 : 电信运营商和政府合作 , 可以在交通运输、 市政规划和人口统计等方面发挥作用 ; 金融数据和电商数据结合 , 可 以用于诸如小微贷款一类的金融产品和服务 ; 物流数据和电商数 据 相 结合 , 可以勾勒出经济领域的宏观和微观运行情况 ; 农业和气象 数 据 应用到金融领域 , 可以为农业保险和理赔提供高价值的信息 ; 遥 感 卫 星数据与耕地抽样数据相结合 , 可以打破传统的统计路径 , 实现 更 为 客 观的粮 食 产量统 计 ;电表 数 据可供 房 地产 行 业 进行空 置 率的估 算。 数据源 类 企业就 是 实现数 据 外部性 的 基础渠 道 ,在对 各 类数据 进 行采集和整合之后 , 提供给各行各业进行目的和方法各不相同的 分 析 和挖掘 , 使 数据的 价 值得以充分实现。 比如 Bluekai 公司收集和 销 售 的用户数据包括: 图 .Bluekai 公司售卖 的 数据 总体而 言 , 数据 源区块内 的 企 业 可 分 为数据 交 易、产 生 、采集 和 聚合几大类:  彭 博 社( Bloomberg) 和路 透 社 ( Thomson Reuters) 采 集 并 整 合 金融相关数据,然后提供给金融机构。  安客诚 ( Acxiom) 通过聚 合 超市、 药 店、专 卖 店等企 业 的 客 户 数 据,经过加工之后转卖给所需的企业。  BlueKai、 Lotame、 RapLeaf 等企业搜集并出售客户的上网行为数 据,主要提供给广告业客户。  AggData 和 Datafiniti 定位为数据的聚合者 , 将来自网络的不同 来源的数据聚合在一起,并提供下 载 服务。  Opera solutions, 本身不拥有数据 , 而是通过购买或搜集用户的 行为信 息 (如征信数据 、 医疗就诊记录等 ) , 再销售给所需的企业。  Factual 定位于各类数据的交易平台,尤其是地理位置相关的数 据 集。  InfoChimps 定位于各类数据的交易平台 , 尤其是地理位置 、 社交 网络、网络信息等方面的数据。  Datamarket 为客户提供国民经济与工业相关的数据集。  Yodlee 聚合并提供私人银行财务数据。  SureScripts 主要采集医院的处方数据。  为提供分享医疗见解的平台,通过收费模式允许医药 公 司访问 数 据。  Moovit 通过众包方式采集公共交通信息 , 包括负载信息和公交车 准点信息。  租车公司 Zipcar 通过车辆内置系统 , 采集乘车人和车辆本身的数 据。  旅游网 站 Tripadvisor,提供平台供用户发布自己对景点、 饭 店 和酒店的评论,形成了一个高价值的旅游相关产业数据源。  Truecaller,通过读取用户手机上的通讯簿,采集全球的电话号 码,并与相应的社交媒体关联,为用户提供联系信息搜索服务。 模式创新 数据银行 在大数 据 时代 , 数 据已经 成 为一种 资 产 ,企 业 、组织 和 个人开 始 普遍认知到自身所拥有数据的外部价值 , 数据价值挖潜的概念在 全 社 会发酵。 与金融资产类似 , 数据资产的供给和需求方分别对数据 资 产 存在着管理和融资的需求 , 因此在大数据产业链的数据源区块 , 孕育 着 一种类似银行性质的产业形态 , 即数据银行。 从融资 角 度看, 数 据银行 的 本质在 于 实现数 据 供需的 对 接,为 数 据所有者找到数据资产价值变现的出口 , 同时使需求方获得自身 业 务 发展所需的数据资源。 与传统银行或交易平台不同的是 , 数据银 行 并 不是简单地对供需进行对接和撮合 : 数据资产类型各异 , 没有统 一 的 形式和度量 , 数据银行必须积极从多个源头引入资源 , 以专业的 知 识 和技能建立原始数据和最终应用之间的通路 , 让数据需求方可以 顺 利 以市场化的手段获得所需的数据资源。 从资产 管 理的角 度 看,数 据 银行的 本 质在于 为 数据资 源 的价值 体 现提供便利。 传统银行所管理的金融资产 , 其形态和内容已经为 资产 供需双方所普遍理解 , 而数据资产尤其是原始数据的价值需要通 过 各 种手段主动挖掘才能体现 , 且不同的需求方对于同一数据的价值 认 知 也存在较大偏差。 因此 , 在数据价值实现和数据资产流通的过程 中 必 须进行数据清洗 、 格式化以及必要的应用场景开发等工 作 , 并且 以 相 应的机制设计和技术实现 , 聚合数据的供给和需 求 , 确保数据资 产 接 入、发布和访问通道的顺畅。 数据的 原 始形态 通 常与应 用 方的需 求 有一定 差 距,因 此 更准确 地 说 , 数 据 资 源必须经过有目的的发掘 和 特定的处理环节 , 才能真 正 实 现资产化。 相对于数据交易平 台 一类的形态 , 数据银行最大的差 异 点 在于需 要 对 数据 的 转化 和 规 整。 数据的质量 直 接与企 业 成本负 相 关 , 据 Gartner 公司估算,数据混杂的 CRM 系统将使企业收入下降 25%, 而 Experian 公 司 则认为不准确的数 据 很可能导 致 公司的收入平均损 失 12%。 通过脱敏 、 去噪和去重处理 , 以及针对文本 、 图像和音 视 频 等海量非结构化数 据 的标注和特征抽取 , 能够将数 据 转化为需求 方 易 于理解和利用的形式 , 降低数据分析和挖掘的难 度。 这一环节是 数据 资产融资和管理的关键 , 是提取和挖掘数据所含高价值信息和知 识 的 前提,是大数据技术发展和应用开拓的核心推动力。 图 .数据银 行 模式 综上所 述 ,数据 银 行的本 质 就在于 实 现了数 据 资源的 商 品化、 标 准化 、 资产化 , 承载着数据资产形成 、 管理和交易的职责。 由 于 欧美 先进国家在数据利用方面有较深传统 , 在多个行业内自发形成了 数 据 流通的渠道 , 数据资源商品化 、 标准化和资产 化 的动作已渗透到 大 数 据产业链的各个环节中 , 全社会对于数据银 行 或综合性数据交易 平 台 的需求并不突出。 但是 , 对 于 信息产业相对落后 、 数据利用意识 比 较 淡薄的国家和地区 , 数据银行形态的培育非常重要 , 从 而 在市场 供 给 和需求之间对数据资源进行深度资产化改造 , 使数据真正成为大 数 据 产业以及其他行业和领域发展的助推器。 众包模式 随着大 数 据的应用扩展和 深 化,社 会 对数据 的 需求日 益 上升, 现 有的数据获取渠道和方式已无法满足科学研究和产业发展的需 求 ,更 为便捷的获取方式 、 更为广泛的覆盖面和更为真实准确 的 数据已 成 为 迫切的需要。 随着互联网 、 移动互联 网 和智能设备的发展 , 每个 人 都 成为一个潜在的数据采集点,导致众包 ( crowdsourcing)模式成为 大数据时代一种极具现实意义的数据采集方式。 众包这一概念由美 国 《连线 》 杂志的记者杰夫 •豪 ( JeffHowe)在 2020 年 6 月明确提出,指把工作任 务 以自由 、 自愿的形式外包 给 大 众的方法 , 通常用于完成那些耗费大量人力的繁重任务。 众包的 思 路 并非新 鲜 事物, 18 世纪 英 国 就通 过 向民间 征 集海洋 经 度的精 确 测 量 方法 , 解决了牛顿 、 惠更斯和哈雷等著名科学家未能解决的问题 , 获 奖者是一位来自于乡村的木匠。 此后的几个世纪中 , 类似的方法 曾经 有力地推动了航空、计算机等行业的发展。 随着互 联 网的出现,众包 的 覆盖范 围 和可参 与 度 都大 大 提 升 , 日 益成为一种可行的商业模式与组织方式。 以当前的技术发展情况而言, 数据的采集 、 标注和清理 等 重复性工 作 还很难完全实现自动化 , 比如 人体特征的采集 、 图片的标注和重复数据的剔除等 , 而这些工作 所 需 耗用的人力随着数据量的剧增而成为企业或组织难以承受的重负。 对 于这些需要大量人力介入才能保证质量的工作 , 众包模式提供了 一 种 成本可控、规模易伸缩的实现途 径。 比较典型的案例有:  Twitter 使用亚马 逊 的众包平台 Mechanical Turk, 来响 应 用户对 热点话题的搜索查询。  《国家地理》曾发动近 万人在蒙古的卫星图像中搜寻成吉思 汗 的墓地。  澳大利 亚 昆士兰 的 公交乘 客 用随身 应 用采集 信 息 ( 比 如 公车到 站 时间等 ) ,提升 市 民的通 勤 效 率 , 2020 年 已 经可以 做 到通知 下一 班车的到站时间。  个人手 工 艺术品 网站 Etsy 发动用 户 来鉴定 新 发布的 手 工 品是 否 存在版权 侵 权的问题。  Foursquare(据报道 , 将被雅虎以 9 亿美元的价格收购 ) 和 Factual 等公司 让 企业用 户 自己提 交 地理位 置 信息的 做 法,也 属 于众包 采 集的范畴。  亚马逊与移动打车应用 Flywheel 合作 , 呼叫小型配送中心附近的 出租车来为用户递送包裹。 在大数 据 时代, 由 于需要 采 集海量 的 底层 原 始 数据, 在 成本可 接 受的范围内 , 很多时候已无法基于现有采集设备来完成任务 , 因 此 众 包 模式在大数据产业中最重要的应用场景就是数据的采集。 同 时 ,海 量数据的加工和标注等任务所需的人力和时间太高 , 使得众包模 式 在 数据处理环节也具有较大的应用空间。 除了采 集 和加工 等 高人力 和 时间消 耗 的任务 之 外,通 过 众包模 式 也可以将需要高智力和技术水平的问题外包给大众 , 通过受众面 的 扩 大来提高任务完成的效率。 比如 , 将原始数据公布于众 , 让公众 积 极 参与到对数据的分析挖掘和应用创新活动中 , 能够有效推动大数 据 技 术和产业的发展。 基础架构 ( Infrastructure) 与传统 IT 基础架构相比 , 大数据基础架构必须应 对 空前规模 的数 据和各类音频 、 图像 、 视频和文。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。