公司名称 | 重庆江北大数据应用发展有限公司 | 成立时间 | 2011年06月27日 |
---|---|---|---|
总部地点 | 重庆市江北区港城东环路6号1幢1-2、2-2、3-2、4-2、5-2、6-2 |
简介:注册号:****所在地:四川省注册资本:6000万法定代表:莫文伟企业类型:其他有限责任公司登记状态:存续登记机关:四川省绵阳市工商行政管理局注册地址:绵阳科创园区创业服务中心所属孵化器D区16...
重庆俊豪地产发展有限公司他们家非常的不错的,地址在重庆市西大街235号(阳光花园A座二楼),他们家主要是从事房地产开发与经营。他们家的实力很强的。
重庆中渝物业发展有限公司成立于1992年6月,为中国房地产开发一级资质企业。重庆中渝物业发展有限公司服务很不错的,位于重庆市渝北区龙溪街道嘉州路99号,途经公交,高唐2路,主要经营房地产开发,在业内小...
智能交通系统的大数据应用
本文拟对于扶贫开发项目管理活动中,通过对于国家扶贫大数据库的有效利用,更好地把握扶贫项目管理中的精准性问题,对于扶贫项目开发管理的政策和计划的制定,提供坚实的现实依据.
大数据时代的数据库是大数据生产工具的重要组成部分。由于大数据本身的特质和大数据应用的需求变化,数据库本身必然要应对新的挑战。相比传统“数据库”,大数据时代“数据库”发生了怎样变化?带着这些疑问,本报记者专访了南京天数信息科技有限公司CEO(首席执行官)李云鹏。
数据价值的最终体现在于数据应用。真正利用好政府数据资源,不是简单的建立数据中心,将数据存放在仓库中,而是利用数据带来实际的应用。
“数据库”不再是“以不变应万变”
记者:大数据时代,与以往相比,“数据库”有哪些新的变化?
李云鹏:数据库行业自Codd的论文算起已经有四十多个年头,已经非常成熟。现阶段的技术发展主要体现在性能的进一步提升和云计算这两个方向。
以甲骨文为例,2008年以来,公司推出了ExaData一体机产品,将计算往存储层渗透,带来了数据库产品的指数级性能提升;另外,甲骨文公司又于2012年推出了数据库12c的多租户版本,为全面走向云计算打下坚实之基础。中国国内的数据库起步相对较晚,然而也取得了很大的成就,产生了一系列数据库产品。
大数据时代的数据库是大数据生产工具的重要组成部分。由于大数据本身的特质和大数据应用的需求变化,数据库本身必然要应对新的挑战,这也为数据库技术和产业的发展带来了新的机遇。
当下数据库已经不再是One Size fits All了,而是根据硬件发展和大数据应用的需求,有相应的产品或者功能。
首先,硬件技术长足进步。新一代NVRAM产品(非易失性存储器)为新一代事务处理型数据库带来根本的改变。新一代NewSQL创新公司,必然带来颠覆性的产品。
其次,分布式计算框架和云计算基础设施逐步完善。数据库产品如何从On-Premise走入云,如何将核心业务带入云计算的同时,去保障数据分析的高可用性、高可靠性和高性能。这是一个无法回避的问题。这也为数据库产业带来了一大批新星,如SnowFlake、RedShift等产品和服务。
再次,面向复杂的数据分析,或者人工智能计算,数据库擅长的结构化存储和计算存在天生的短板;而传统的分析计算工具又缺乏数据库的一些基础功能。
以上这些问题是大数据时代走入人工智能时代后的难题之一,也是我们公司正在努力研发攻破的领域之一。
数据开放目的是促进大数据的应用
记者:怎样理解“政务数据公开”?国外有没有可借鉴的经验?
李云鹏:国家和政府的数据开放需要在两个方面发力。
首先,数据开放不应该是原数据的粗放式开放。
原数据的开放不仅仅涉及安全、隐私等多方面问题,而且在数据价值开拓和数据交易市场持续发展上存在很大的问题。这方面,海外的数据开放上,很多公共数据是完全免费的;然而那些真正产生价值的数据(如交通、金融和人口等)的开放又凤毛麟角。从这个角度来看,我一直认为如果数据的拥有者(如政府、企业等)能够与具备数据技术能力的技术企业合作,在数据交易平台上交易经过预处理数据衍生品,是一条可行之路。类比的来说,原数据如同农产品中的谷子、大米;而数据衍生品有如米粉、面粉等经过初步加工的产品。数据衍生品本身能够将信息安全问题很好地隔离的同时,将价值部分予以呈现。数据的价值在衍生品中由于其更加贴近数据应用,更加明晰,同时也带来可观的增值。
其次,数据开放的目的是大数据应用的百花齐放。
数据价值的最终体现在于数据应用。真正利用好政府的大数据资源,不是简单的建立数据中心将数据存放在仓库中,而是将数据利用带来实际的应用。大数据的应用期待百花齐放,随着政府政务数据开放的进一步发展,有更多的大数据应用企业能够将大数据这个生产力的先进性全面地体现出来。
当人工智能应用领域的技术先锋
记者:“天数”在大数据应用上做了哪些探索?
李云鹏:南京天数信息科技有限公司以“智能计算,创造美好世界”为公司愿景,专注于智能计算领域,致力于成为智能数据处理以及深度学习/人工智能应用领域的技术先锋。
公司采用原创的“Soft Silicon”技术,将软硬件相结合提高计算效率和避免计算资源的浪费,其带来的计算性能指数级提升为智能计算的降门槛提供软件技术保障。
公司基于原创的“Soft Silicon”技术,针对重点服务的数字智能医疗、金融、智能生产制造三大领域推出了新一代智能数据平台整体解决方案。产品主要包括SkyDiscovery高性能大数据智能计算平台和智能计算行业应用SkyIntelligence系列产品。
SkyDiscovery系列产品是专门针对企业在人工智能时代将要面临的全新数据分析和智能应用场景而推出的超高性能机器学习/人工智能分析平台。目前已经被应用于医疗辅助诊断、智能生产制造和金融领域。
SkyIntelligence系列产品涵盖了SkyHealth医疗影像智能诊断系统、SkyFront智能设备健康管理系统以及SkyTrade系列金融模型开发工具。
下一步,公司将把机器学习/人工智能的方法与基因检测、新材料设计、新药研发、智能决策与推理等领域的大数据数据源相结合,共同探索这些应用领域的人工智能基础研究和智能应用。将公司“智能计算,创造美好世界”的愿景转化为实际行动。
大数据应用的安全性方面往往被忽视或者被视为次要的需求。但是,数据的安全性在数据处理过程有着十分巨大的影响。本文将介绍一些保护大数据应用的步骤和工具。
随着大数据在不同的领域蔓延,安全方面受到越来越多的关注。以前,我们使用具有中心控制的安全系统,但这并不足以保护你的应用程序免受入侵。大数据带来了另外一些安全关切问题,与正常的应用程序有很大不同。
在当今世界,安全性相关的探索非常困难,前进方向也难以界定。整个软件系统中实现合适的端至端安全系统是非常昂贵的。总有一个突破安全防护的可能性存在,无论你遵循什么样的政策或制度都是一样。企业进行大数据项目时应制定相应的计划,根据自己的预算和政策,采用最现代化新式安全措施。
在大数据环境中的安全风险
大数据时代出现了数据量,数据速率和数据种类的显着增长,另外云计算模式下,移动应用程序和其他应用程序接连增长。通过不同的系统、应用和环境,数据从一端流向另一端。这种数据爆炸对业务发展洞察力提供了有意义帮助,但它也把商业数据暴露给了各种系统,流程和相关人员。由于庞大的数据量在不同的协作系统进行存储,处理,分析,总会存在安全漏洞。
大数据从不同的源和不同类型的商业智能工具采集出来以用于分析,并获得有意义的信息。该信息被决策者访问和使用。有时候数据也可用于协作。用于协作和处理的工具也有安全性限制。所以,总有暴露敏感数据/内容的概率。一旦大数据的值元素被确定,它就可以被访问,更新或甚至由用户改变。这可能会导致对企业造成严重的安全问题和威胁。
先进的安全措施,可以确保在协作环境中的信息安全。涉及大数据的企业需要在控制和平衡业务需求与数据安全防护之间做到更加精确。以下是关于保护数据的一些建议:
将大数据分割成小数据:以这种方式,系统将能够更好地处理数据的数量,速度和种类。其结果,企业也将能够更快和更准确进行商业决策。
识别信息的适用范围:企业需要识别参与此次合作的员工,合作伙伴,供应商,或任何其他第三方,另外也要识别沟通渠道。这有助于给出关于合作环境和利益相关者的详细思路。
部署数据控制:数据控件都部署在非常重要战略位置。这将确保数据的保护与协作。
在云计算和移动环境的控制部署:云和移动合作是任何应用程序及其部署的重要组成部分,也是风险最高的区域之一。企业需要了解和识别数据是如何在云计算和移动环境中实现共享。
大数据安全工具
在过去几年中,大多数企业采用单一的软件供应商和单个数据库(SAP,Oracle ,PeopleSoft等)为整个企业服务。其结果是,安全性问题更加明显并易于管理。但在目前情况下,我们有大数据,云计算,移动设备等等,系统中的安全漏洞的数量是未知的,并且安全漏洞的可能性要高得多。
在最近的信息安全发展中,也有许多软件包和供应商可用于加强信息安全实践。对于大数据边界安全策略与其他系统类似,所以在这部分中,我们将只讨论’处于网络内部“ 的工具。
监控和记录:监视和记录一切是检测未授权活动的最佳策略。一些日志系统,如系统日志(Linux),事件日志(Windows)可以被有效地利用。SNMP对记录网络事件非常有用。也有可供日志汇总不同的软件包,并将其存储在一个中央位置进行分析。这些被称为安全信息和事件管理软件(SIEM)包。
分析和审计:SIEM包的主要功能是自动检测未经授权的活动,并产生警告。但是,所有SIEM软件需要配置才能正常工作。建议使用预配置SIEM包并时常更新他们,这样能够通过日志分析,找出安全漏洞。最新的SIEM包LogRhythm,Q1实验室(IBM),McAfee的Splunk等
身份管理:身份和访问管理(IAM)对于大数据保护来说是非常重要的,。因为数据是通过使用不同的信道被员工/承包商访问,这些信道包括移动设备,SAAS模式,或其他服务。身份可以确定是谁正在对敏感数据进行访问,考虑“身份”作为新的安全尺度是非常重要的,不应只是专注于敏感数据的物理位置。身份管理是绝对有必要考虑的工具集合,将有助于我们应对周边发生的故障。
掩蔽数据:数据掩蔽是保护数据安全的另一种方式。这些数据可以通过加密或断词被。一些厂商还要求他们的数据工具不遵循加密和标记化,但能够动态地执行整个。
应用安全:最后一步是确保访问敏感信息的大数据应用安全性。这是非常关键的,因为大部分流行工具构建时并没有考虑安全因素。最近,大多数的大数据工具在安全方面有了显着改善。最重要的两个因素是“权限粒度级别’和’数据加密”。Hadoop的最新版本将支持新的安全功能,可能解决这些新出现的问题。
总结
在当今世界,大数据安全是个大问题。正如我们所知道的大数据系统并不像普通单一的供应商系统,因此安全问题的处理更加复杂。没有单一的解决方案/工具/供应商可以保护您的数据,但是你可能需要使用不同的安全工具,这取决于需要保护的区域所处位置。因此,最终的解决办法是继续使用多种有效的工具,随着时间的推移。最后,你应该会具有一个良好的,全面的安全系统。
经历了多年的BI专题应用建设,有幸能在一个传统企业里探索大数据应用的建设过程,发现了很多不一样的地方,获得了不同的感受,在此以一个真实的案例的建设过程来品味其中的不同,也许能获得一些启示。
课题是怎么来的?
大数据应用最大的挑战,就是未来的不确定性,因此,传统公司动辄提前半年进行投资预算规划的方式是不太适合大数据的。
做大数据几年,虽然说现在靠谱的大数据的商业模式也就在广告、金融、公益等方面,但真要下决心干某个大数据应用项目,其突发性、偶然性也非常强,因为对于大数据这个不成熟事物,无论是哪类公司,观望占了很大部分,对大数据的质疑有之,对于大数据安全的惶恐有之,对于合作模式的疑惑有之,更多的是不停的提出想法,不停的被否定。
企业顺应大势成立了大数据团队,最痛苦的是不知道干什么,什么能干,什么不能干,也没啥可借鉴的经验,这跟当前创业公司也类似吧,不知道哪种模式是靠谱的。
大数据几乎无所不能,但真要做起来,其实当前是能者寥寥,虽然趋势不可挡,但这一波搞大数据应用的,似乎大多要死在黎明前,一个概念从提出到最终普世大众,的确路慢慢儿修远兮。
今天要聊的,是个公益课题,电话反欺诈,课题有一定的偶然性,安全部门提到了,问我们能不能做做看,感觉社会意义很大,比如腾讯有反欺诈盒子,360有拦截系统,本来某公司希望来做这个课题,但综合各方面因素,还是决定自己做。
作出这个决策的实际一天不到,所以决定自己做,基于以下几个因素:
一是这个大数据应用是有显著效益的。
二是很好评估,不像很多BI应用产出无法评估,备受质疑。
三是公司大数据平台建立了,提供了基础条件。
四是自主建模团队建立了一年多了,不需要太依赖合作伙伴,因此也无需走那套冗长的招标流程,失败的代价也会小。
团队如何组建?
跟传统的安排不同,抛出这个课题后,主动接受这个挑战的,却是一名从一线刚过来的同事,面对不确定性,想来大多数有资历的员工也会犹豫老半天吧,这个也有一定偶然性。
谷歌讲到了招聘人才,提到了无论多大代价也要找到创意精英,而做大数据,更加需要,需要主动型的创意精英,如果传统企业每个人仍然像传统那样局限在自己一亩三分地,很难有创新突破。
很幸运,我们有一只黑天鹅。
这种自愿组队模式的确有很大的好处,不按计划分配,尊重个人的意愿,更能激发人的主动性,团队组建也非常快,当天组队,第二天就开干,不存在类似项目的繁琐流程。
虽然团队成立有一定的偶然性,但的确与与企业近年来在大数据组织创新、人才引进和人员流动上的努力分不开。
假如没有大数据组织的成立,谁牵头都是个问题;假如不扔掉传统的包袱,很难有人专心做这个;假如没有企业内的人才流动和外部人才的引入,我们也干不了这个事。
那么平台资源如何解决?
在那个传统BI小型机时代,要做一个项目,抛开硬件资源环境的投资立项过程不说,光是一个新项目的集成估计也不止一个月。
而这个项目不同之处是:
一是基于大数据平台的租户能力,资源申请所见即所得,加上流程,一周内全部搞定。
二是提供的组件较为丰富,特别是流处理资源的快速提供,为反欺诈的实时性提供了坚实的基础,换在几年前基本不可能。
三是公司技术团队的保障,使得大多技术问题得以尽快解决,这也有赖于公司在大数据平台上的末雨绸缪。
某人说过,凡是能用钱解决的问题都不是问题,但技术这个东西,虽然用钱的确可能解决,但对于大多数公司,钱都是个大问题,因此技术问题的解决又是何其艰难。
比如我们碰到Kafka的一些问题,长期难解决,大多企业的机制流程恐怕也不允许随便开价100万招个技术专家来解决吧,传统企业的自我技术进步是部血泪史,外面的专家开价开不起,自己的专家起来了,又怕被人家挖。
接下来谈谈开发历程
敏捷开发现在提得很多了,但感觉以前BI的建设就是最大的敏捷,最极致的情况,一个人搞定需求、开发、上线和维护,当然,现在软件工程的确还是要靠分工协作,需要一套方法论来解决显性迭代和维护配合的问题。
大数据创新太特殊了,没必要循规蹈矩,抛开全部的束缚,一切要为速度让步。原因是失败可能性很大,速度越快成本越低,同时既然对于公司原有业务没有影响,因此可以放手去干,什么文档都可以不要,什么既定流程都可以不遵守,反正光脚不怕穿鞋的。
因此,这个课题做的非常快。
第10天,做出一个反欺诈简单模型,包括了案例分析、数据准备、数据建模及验证等,我们的观点是第一个版本可以粗糙一点,希望尽快验证这个事情的可行性,否则一切都是徒劳,因此就是讨论和验证数据。
当时规定两个礼拜如果出不了结果,就会放弃,这类应用失败可能性很高,但船小好调头,以后做一些创新,都建议给创新做个时间止损点。
第25天,生产完成部署,也就是具备系统支撑能力,除了系统部署方案需要专业部门把关,其他基本是能省就省,当时的想法是,这类创新项目最好一个月就能搞上线,起码能测试吧,相对以前BI应用项目动辄半年甚至1年的节奏,的确大不同。
创新,速度始终是王道,因此日报变成刚需,也回忆起了某位离职运营商去创业的一个领导,他说每天凌晨就要看昨天的日报,以便安排当天的工作,我们可能做不到这么疯狂,但日报的节奏是对的。
第30天,一直在外呼现场进行验证迭代,直到36天,获得认可为止,以后就是持续调优,但这个数据已经可以投入生产了。一般电话诈骗很难在事中干预,但这个模型做到了,准确度达到90%以上,通过实时事中干预挽回收入损失超千万。
这个应用就是中国移动的天盾大数据反欺诈系统,它就是这么诞生的,没有什么大汇报,没有什么流程,就是很轻很轻的来了。
现在算法还有很多问题,反欺诈矛与盾的争夺是很艰辛的,面上的风光底下是每天建模师的艰苦卓绝的努力,上了很多新算法,很多很多失败,拉低了成功率,对于这个大家是异常焦虑的,群里总是不停的讨论,大家都知道这个是核心竞争力,路还很长,还需要坚持。
这个应用还难言成功,只是传统企业在大数据应用上的一次不同的尝试,但不管怎样,互联网快速迭代的那套的确是给了很大的启示,自己做了,才知道原来的差距是如此巨大,自己的能力是如此脆弱。
从课题的角度讲,要认识到大数据这个事物的不确定性,选择它具有偶然性,没有规划能预料到这个,当前大数据变现商业模式也并不成熟,不要奢望投资大数据马上有产出,也许能力储备是第一位的。
从组织的角度讲,大数据人才属于稀缺人才,要么打破原有框架,不拘一格外部找人才,要么充分企业内挖潜,让人员能流动起来。流动的人才有一个特点,即至少有一颗骚动的心,主动性对于做成功一件事极为重要。
从能力的角度讲,假如要向大数据转型,则还是要对“没有一个大数据公司,能依靠合作伙伴获得成功”这句话有所敬畏,大数据的核心能力要掌握在自己手里。
从平台的角度讲,如果没有大数据平台的建立,这个项目能够有效果也许是半年以后的事情,但机会稍纵即逝,没人会等你这么久,因此此类基础设施建设不能犹豫,“书到用时方恨少”。
从开发的角度讲,先设定一个小目标,搞他个十万八万的,只要有点看得见的产出就行啊,快速迭代,始终是王道,失败了也没什么大不了,我们缺的就是经验,多头并行也不是不可以,只要有足够的创意精英。
当然说易行难,以上几点对于大多数公司来说是如此不易,也不能以一个应用的成功与否说明任何问题,大数据要成功,就像黑天鹅,有一定偶然性,但如果连准备的勇气都没有,没有一点实质改革的动作,就没有任何成功的可能了。