对大数据的认识(5篇材料)

第一篇:对大数据的认识

       对于大数据的认识和理解

       这学期选修了网络工程这门课程,当时是抱着扫盲的态度选的这门课程,给自己定的目标不高,只需要对一些基础的概念和网络结构有些认识就可以,以免以后在人前谈论的时候不至于成为IT文盲,被一些专业性的技术人员所吓倒。事实证明,态度决定一切,由于自己刚开始设定的目标就比较低,所以注定能够上升到的水平也就不高。

       经过这几周的学习,对计算机网络的基础知识和大致结构有了一个粗浅的认识。由于学生本身这方面的基础不扎实,知识结构在这方面比较薄弱,所以不能在技术方面进行深入的研究,只能对一些理论性的知识做一些了解和认识,建立起大概的知识框架。在学习过程中,魏忠老师所提及的知识中有一点印象最为深刻,关于大数据Big Data方面的提及引起了我很大的兴趣,越是自己私下里做了一些阅读和查询(主要是维克托·迈尔-舍恩伯格的《大数据时代》和网络上查看的一些资料)。最后提交的这篇课程总结就着重报告一下自己在阅读了他人关于大数据的一些理论后自身的认识。

       在这之前,我发现身边很多人都提起过大数据,其中包括老师和同学。可是对于这些热门的新技术、新趋势人们往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少同学能说出一二三来。究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“无知”,因为现在人们普遍都有以一种信息焦虑感,别人知道的东西我不知道,就会感到焦虑,无论这些信息对你有没有用;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。当然我也一样,虽然我希望能有些不一样,但是自己实在欠缺IT这方面的知识,所以也只能查阅一些资料,翻阅了最新的专业书籍,在自己局限的认识下把这些些零散的资料碎片或不同理解论述综合起来做一个类似于文献综述的报告,其实我很真诚的希望进入事物探寻本质。下面就从理论、技术、实践这三个层面写一下大数据的认识

       大数据的一些相关理论:

       最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

       业界(IBM 最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。

       很早就流传着一句话:三分技术,七分数据,得数据者得天下。先不论这句话是谁说得,但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了很多例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,提及最多的

       是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Fare cast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。这里维克托·迈尔-舍恩伯格所认为的大数据思维是:1需要全部数据样本而不是抽样;2关注效率而不是精确度;3关注相关性而不是因果关系。

       大数据是什么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

       大数据的一些相关技术: 1)云技术:

       大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数

       十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。

       云计算思想的起源是麦卡锡在上世纪60年代提出的:把计算能力作为一种像水和电一样的公用事业提供给用户。如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。

       业内是这么形容两者的关系:没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。

       那么大数据到底需要哪些云计算技术呢?

       这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NOSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。

       2)分布式技术:

       分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。

       3)感知技术:

       大数据的采集和感知技术的发展是紧密联系的。以传感器技术,指纹识别技术,RFID技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。

       其实,这些感知被逐渐捕获的过程就是就世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了

       大数据的实践:

       政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个政府部门里面看起来是单一的,静态的。

       但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。

       具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,到2022年底全国开建智慧城市的城市数超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间智慧城市建设拉动的设备投资规模将达1万亿元人民币。大数据为智慧城市的各个领域提供决策支持。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。

       学生在阅读了大数据相关的一些书籍和文章之后,提取出的一些观点和理论,并稍加了自己对大数据的一些认识,写成了这篇课程总结,因为自身的专业性不强,欠缺这方面的知识和技术,所以有些说法可能存在漏洞或者错误,希望老师不要见笑并加以指正。最后感谢老师这两个月来的教导。老师幽默的语言,灵活的教学方式营造了活跃的课堂环境,这些都得到了同学们的广泛好评。最后再次感谢教授!

第二篇:对医疗大数据的认识

       重庆大学研究生文献综述

       对医疗大数据的认识

       姓

       名: 学

       号: 指导教师: 专

       业:

       重庆大学光电工程学院

       二O一六年十一月 医疗大数据产生的背景

       在任何一个初具规模的医院,每天接待上万的患者前来就诊,患者的基本信息、影像信息与其他特殊诊疗信息汇集在一起是一个庞大的数据。据统计,上海市区域医疗信息平台(上海市“医联工程”及县区卫生数据中心)已经积累了覆盖3900万人群、1400TB数据量的电子诊疗与健康档案等医疗卫生数据(涵盖了全市38家三级医院3900万就诊人群的医疗信息,包括患者基本信息、就诊信息、健康档案、检验及影像检查报告、医学影像图像文件、住院相关病历、医保结算等医疗卫生数据,涉及就诊记录2.1亿条,处方记录9.1亿条)。

       日积月累,这个数据量将会持续快速增长,为医院的数据存储、集成、调用等应用带来巨大压力。除了数据规模巨大之外,医疗行业的数据类型和结构极其复杂,如PACS影像、B超、病例分析等业务产生的非结构化数据,这些数据存储复杂,并且对传统的处理方法和技术带来巨大挑战【1】。医疗大数据得到人们的关注,并渴望有一种新的技术可以从这些看似杂乱无章的数据中得到价值。目前,为了提高人们的健康水平以及医疗水平,医疗行业在大数据环境下的各个领域异常活跃[2]。医疗大数据的相关概念

       2.1 医疗大数据的定义

       医疗数据是医生对患者诊疗和治疗过程中产生的数据,包括患者基本数据、入出转数据、电子病历、诊疗数据、医学影像数据、医学管理、经济数据等,以患者为中心,成为医疗信息的主要来源。

       随着医疗卫生信息化建设进程的不断加快,医疗数据的类型和规模正以前所未有的速度快速的增长,以至于无法利用目前主流软件工具,在合理的时间内达到撷取、管理并整合成为能够帮助医院进行更积极目的经营决策的有用信息。规模巨大的临床实验数据、疾病诊断数据以及居民行为健康数据等汇聚在一起形成了医疗大数据。

       2.2 医疗大数据的主要来源

       2.2.1 制药企业、生命科学

       药物研发所产生的数据是相当密集的,对于中小型的企业也在百亿字节(TB)以上的。在生命科学领域,随着计算能力和基因测序能力逐步增加,美国哈弗医学院个人基因组项目负责人詹姆·鲍比就认为,到2022年,将会有5000万人拥有个人基因图谱,而一个基因组序列文件大小约为750MB[3]。

       2.2.2 临床医疗、实验室数据

       临床和实验室数据整合在一起,使得医疗机构面临的数据增长非常快,一张普通CT图像含有大约150MB的数据,一个标准的病理图则接近5GB。如果将这些数据量乘

       以人口数量和平均寿命,仅一个社区医院积累的数据量就可达数万亿字节甚至数千万亿字节(PB)之多。

       2.2.3 费用、医疗保险、利用率

       患者在就医过程中产生的费用信息、报销信息、新农合基金使用情况等。

       2.2.4 健康管理、社交网络

       随着移动设备和移动互联网的飞速发展,便携化的生理设备正在普及,如果个人健康信息都能连入互联网,那么由此产生的数据量将不可估量。

       2.3 医疗数据的基本类型

       2.3.1 医院信息系统(HIS)数据

       HIS是医院的核心系统,是对医院及其所属各部门的人流、物流、财流进行综合管理的系统,围绕着医疗活动的各个阶段产生相关数据,包括各门诊数据及病房数据两大主流数据流。

       2.3.2 检验信息系统(LIS)数据

       LIS是HIS的一个重要组成部分,其主要功能是将实验仪器传出的检验数据经分析后,生成检验报告,通过网络存储在数据库中,使医生能够方便、及时的看到患者的检验结果。

       2.3.3 医学影像存档和传输系统(PACS)数据

       PACS数据主要是将数字化医院影像科室日常核磁、CT、超声、各种X线机、各种红外仪等设备产生的图像存储起来。

       2.3.4 电子病历(EMR)数据

       EMR不同于以医疗机构为中心的门诊或者住院病历,是真正以患者为中心的诊断和其他检验数据的“数据池”,它将患者诊断过程中生成的影像和信号,如X线检查、CT扫描等纳入电子病历中,并以统一的形式组织起来。

       2.4 医疗大数据的特性

       2.4.1 数据规模大(volume)

       例如一个CT图像含有大约150MB的数据,而一个基因组序列文件大小约为750MB,一个标准的病理图则大得多,接近5GB。

       2.4.2 数据结构多样(variety)

       相对于其他行业,医学中的数据类型更加多种多样,如电子病案中关于人口学特征的数据为纯文本型;检验科中有关患者生理、生化指标为数字型;影像科中如B超、CT、MR、X线片等为图像资料。

       医疗数据通常会包含各种结构化表、非(半)结构化文本文档(XML和叙述文本)、医疗影像等多种多样的数据存储形式。

       2.4.3 数据增长快速(velocity)

       一方面,医疗信息服务中包含大量在线或实时数据分析处理,例如,临床决策支持中的诊断和用药建议、流行病分析报表生成、健康指标预警等;另一方面,得益于信息技术的发展,越来越多的医疗信息被数字化,因此在很长一段时间里,医疗卫生领域数据的增长速度将依然会很快。

       2.4.4 数据价值巨大(value)

       毋庸置疑,数据是石油,是资产,是资源,医疗大数据不仅与每个人的个人生活息息相关,对这些数据的有效利用更关系到国家乃至全球的疾病防控、新药品研发和顽疾攻克的能力。

       2.4.5 多态性

       医疗大数据包括纯数据(如体检、化验结果)、信号(如脑电信号、心电信号等)、图像(如B超、X线等)、文字(如主诉、现/往病史、过敏史、检测报告等),以及用以科普、咨询的动画、语音盒视频信息等多种形态的数据,是区别于其他领域数据的最显著特征。

       2.4.6 不完整性

       医疗数据的搜集和处理过程经常相互脱节,这使得医疗数据库不可能对任何疾病信息都能全面反映。大量数据来源于人工记录,导致数据记录的偏差和残缺,许多数据的表达、记录本身也具有不确定性,病例和病案尤为突出,这些都造成了医疗大数据的不完整性

       2.4.7 时间性

       患者的就诊、疾病的发生过程在时间上有一个进度,医学检测的波形、图像都是时间函数,这些都具有一定的时序性。

       2.4.8 冗余性

       医学数据量大,每天都会产生大量信息,其中可能会包含重复、无关紧要甚至是互相矛盾的记录。医疗大数据的主要应用

       根据全球管理咨询公司麦肯锡的一份最新报告显示,医疗保健领域如果能够充分有效地利用大数据资源,医疗机构和消费者便可节省高达4500亿美元的费用[4]。

       3.1 服务居民

       居民健康指导服务系统,提供精准医疗、个性化健康保健指导,使居民能在医院、社区及线上的服务保持持续性。例如,提供心血管、癌症、高血压、糖尿病等慢病干

       预、管理、健康预警及健康宣教(保健方案订阅、推送)。

       医疗机构物联网的建设,包括移动医疗、临床监控、远程患者监控等(例如,充血性心脏的标志之一是由于保水而增加体重,通过远程监控体重发现相关疾病,提醒医生及时采取治疗措施,防止急性状况发生),减少患者住院时间,减少急诊量,提高家庭护理比例和门诊医生预约量。

       3.2 服务医生

       临床决策支持,如用药分析、药品不良反应、疾病并发症、治疗疗效相关性分析、抗生素应用分析;或是制定个性化治疗方案。

       3.3 服务科研

       包括疾病诊断与预测、提高临床试验设计的统计工具和算法、临床实验数据的分析与处理等方面,如针对重大疾病识别疾病易感染基因、极端表型人群;提供最佳治疗路径。

       3.4 服务管理机构

       规范性用药评价、管理绩效分析;流行病、急病等预防干预及措施评价;公众健康监测,付款(或定价)、临床路径的优化等。

       3.5 公众健康服务

       包括危及健康因素的监控与预警、网络平台、社区服务等方面。国内外医疗大数据技术应用现状

       4.1 国外医疗大数据技术应用现状

       美国远程医疗(telemedicine)公司研制成功了一款功能强大的医疗设备“智能心脏”(smartheart),把手机变成了一款功能齐全的医疗工具,用来监测用户可能存在的心脏病问题。智能心脏与智能手机相连,在安装运行了相应的程序后,手机拥有“医疗级”的心脏监测功能,并能够在30s内在手机屏幕上显示用户的心电图。医生可随时对患者的心脏进行监测和分析,提前做好预防措施。智能心脏解决了心脏病预防方面最关键的问题—时间。这在心脏病预防领域是一项重大的突破性技术。目前,“智能心脏”设备已经开始在网上销售。

       意大利电信近期推出了Nuvola It Home Docto 系统,可让在都灵Molinette 医院的慢性病患者通过手机在家中监测自己的生理参数,相关数据将自动的通过手机发送到医疗平台,也可以通过ADSL、WiFi 和卫星网络得到应用。医生通过网页接入这

       个平台,及时获取数据并调整治疗方案。

       4.2 国内医疗大数据技术应用现状

       IBM在上海的部分医院推出了BYOD系统,即员工自费终端,用来提高医生和护士在医院的移动性。通过和开发商合作,推出移动护理应用,将医生和护士的各种移动终端连在同一网络下,便于医生和护士了解患者在医院的位置和健康状况,也提高了医生和护士的移动性。

       在上海,医联工程横向覆盖全市三级医院,纵向连通各区属医疗机构,已覆盖3900万患者,建成国内最大的患者诊疗档案库,拥有8.2亿条医嘱、1.8亿个病案、8100万份检验检查报告和107太字节医学影像数据;医联工程在服务医改、支撑资源整合、分布式影像网络会诊、三级医院诊疗信息社区调阅等方面,大幅度提升了区域卫生服务水平。

       医联工程建成以来,对于患者,就医更方便,“一院办卡,跨院就医”“就医一站式付费”,共发放1300余万张医联卡,每月提供70万专家预约号源,人均节约就诊时间60min、排队时间45min;对于医生,服务看诊、提高医疗质量,支持每日5000人次实时诊疗档案调阅、1.25万人次重复医疗智能提醒,节约大量医疗费用;对于管理者,实现精细化管理,建成集医疗管理、绩效考核和统计分析为一体的整合平台,为医院管理提供决策支持。医疗大数据安全

       5.1 人的安全

       医疗大数据安全中“人”的安全,涉及的是数据隐私保护问题。在医疗过程中,患者的个人隐私主要有:在体检、诊断、治疗、疾病控制、医学研究过程中涉及的个人肌体特征、健康状况、人际接触、遗传基因、病史病历等[5]。这些内容还能被分为显性与隐性,显性一般是医嘱、诊断书、X线片、检查结果、报告单、病历、病案、住院患者床头卡等数据;隐性则是指蕴藏在这些数据历的信息,如患者血液组织所蕴含着的基因信息,患者罹患疾病所反应出的生活方式或者折射出的家族遗传历史等。

       5.2 数据安全

       一是易成为网络攻击的显著目标,在网络空间中,医疗大数据的关注高,其中含有的敏感数据会吸引潜在的攻击者;二是对现有存储或者安全防范措施提出挑战,特别是数据大集中后复杂多样的数据存放在一起,常规的安全扫描手段无法满足安全要求。这些问题将表现在数据资源共享、数据资产界定和盘活,以及数据真实性判断等各个方面。医疗大数据的未来展望

       6.1 社会化医学

       曾任美国克利夫兰医学中心(Cleveland Clinic)心血管科主任的美国心脏病学家埃里克·托普(Eric Topol),新近出版了一本名为《颠覆医疗》[6]的书,在此书中他认为:互联网的沉浸式和参与式文化培育了消费者,“每10个美国人中就有超过8位在网络上查询与健康相关的问题”,甚至有的“患者会自带着一系列摘自网络的医学问题”去访问医生,对自身病情、疾病和药物的知悉程度较过去高出很多,与此同时,医生的权威性大幅度降低。由此可见,这就是未来的趋势—社会化医学。

       6.2 个性化医学

       个性化医疗,是指以个人基因组数据位基础,结合蛋白质组和代谢组等相关内环境数据,考察遗传变异、对特定疾病的易感性和对特殊药物的反应的关系,为患者量身设计出最佳治疗方案,以期达到治疗效果最大化和副作用最小化的定制医疗模式。实施个性化医疗,首先针对特定疾病亚群进行分类,然后根据这些亚群的特异性发病机制进行药物开发,最终对这些亚群患者进行针对性治疗。这些涉及医学、生物、环境、社会和心理等诸多因素,传统的数据分析技术会遭遇瓶颈,很难以开展针对性研究,故而引发了大数据技术的介入。在现有研究中,通过对医疗大数据的分析和利用,可以完善个性化医疗。较著名的是德国默克公司正与Regenstrief研究院一起实施的个性化医疗项目。考察遗传变异、对特定疾病的易感染性和对特殊药物的反应三者之间的关系,然后在药物研发和用药过程中考虑个人的遗传变异因素。针对不同的患者采取不同的治疗方案,或者根据患者的实际情况调整药物剂量,可以减少副作用。总结

       根据国际数据公司(International Data Corporation,IDC)的预测,中国的大数据市场在2022~2022年将增长5倍,其中最多份额将集中在政府、银行、医疗卫生、电信等四大行业【7】。医疗行业的数据已进入大数据时代,使用大数据库作为工具,将会辅助产生更有效、更加经济的医疗政策,更好的产品和服务[8]医疗大数据为我国带来了机遇的同时也带来了挑战,虽然只是刚刚起步,但是前景还是值得期待的。

       参考文献

       [1](于广军 杨佳泓主编 医疗大数据 上海科学技术出版社P14)

       [2](Kayyali B,Knott D,Van Kuilen S.The big-data revolution in US health care: Accelerating value and innovation[J].Mc Kinsey & Company,2022)[3](David Marco,John Wiley.Building and managing the meta data repository: a full lifecycle guide[M].New York: John Wiley & Sons Inc,2000)

       [4](Kayyali B,Knott D,Van Kuilen S.The big-data revolution in US health care: Accelerating value and innovation[J].Mc Kinsey & Company,2022)[5](汤啸天.个人健康医疗信息和隐私权保护[J].同济大学学报:社会科学版,2022,17(3):117-123)

       [6](http://)

       [7](Inmon W.Building the data warehouse[M].3rd ed.New York: John Wiley & Sons Inc,2022)

       [8](郭晓科主编 《大数据》 清华大学出版社 p22)

第三篇:大数据认识

       大数据认识

       班级:B202216电商本科2 姓名:陈家玮 学号:20221624

       一

       大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

       大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

       层面

       第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

       第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

       第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

       价值

       1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销 2)做小而美模式的中小微企业可以利用大数据做服务转型

       3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值 趋势

       趋势一:数据的资源化

       何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。

       趋势二:与云计算的深度结合

       大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2022年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。趋势三:科学理论的突破

       随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。

       趋势四:数据科学和数据联盟的成立

       未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。

       趋势五:数据泄露泛滥

       未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。

       趋势六:数据管理成为核心竞争力

       数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。

       趋势七:数据质量是BI(商业智能)成功的关键

       采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。

       趋势八:数据生态系统复合化程度加强

       大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。

       二

       Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

       优点

       高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

       高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

       高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

       高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

       低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

       hadoop大数据处理的意义

       Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。

       大数据精髓

       A.不是随机样本,而是全体数据:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(随机采样,以前我们通常把这看成是理所应当的限制,但高性能的数字技术让我们意识到,这其实是一种人为限制)B.不是精确性,而是混杂性:研究数据如此之多,以至于我们不再热衷于追求精确度;之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,随着规模的扩大,对精确度的痴迷将减弱;拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力

       C.不是因果关系,而是相关关系:我们不再热衷于找因果关系,寻找因果关系是人类长久以来的习惯,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。

       开源大数据生态圈:

       1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。

       2、.Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。

       3、NoSQL,membase、MongoDb 商用大数据生态圈:

       1、一体机数据库/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。

       2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica 等等。

       3、数据集市:QlikView、Tableau、以及国内的Yonghong Data Mart。大数据分析

       Analytic Visualizations(可视化分析)

       不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。

       Data Mining Algorithms(数据挖掘算法)

       可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。

       Predictive Analytic Capabilities(预测性分析能力)

       数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

       Semantic Engines(语义引擎)

       我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

       Data Quality and Master Data Management(数据质量和数据管理)

       数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

       假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。

       数据存储,数据仓库

       数据仓库是为了便于多维分析和多角度展示数据按特定模式进行存储所建立起来的关系型数据库。在商业智能系统的设计中,数据仓库的构建是关键,是商业智能系统的基础,承担对业务系统数据整合的任务,为商业智能系统提供数据抽取、转换和加载(ETL),并按主题对数据进行查询和访问,为联机数据分析和数据挖掘提供数据平台。

第四篇:大数据本科专业申报及认识

       大数据本科专业申报及认识

       摘要:从产业发展、数据科学的学科特征、大数据专业与其他相关专业的不同等3个方面,阐述增设大数据本科专业的合理性和必要性;以对外经济贸易大学专业建设为例,指出大数据专业人才应该能够围绕互联网平台上经济金融数据的商业价值进行挖掘并揭示数据间关系。

       关键词:数据科学;大数据技术;大数据科学与应用

       引言

       互联网、云计算、移动计算等新兴技术拓展了人类创造和利用信息的范围和模式。联合国在2022年发布的大数据白皮书《大数据促发展:挑战与机遇》中指出,大数据时代已经到来,大数据的出现将会对社会各个领域产生深刻影响。2022年被称为中国大数据元年,各行各业开始高度关注大数据的研究和应用。在云计算技术、非结构化数据存储技术的助力下,大数据已经成为当前学术界、工业界的热点和焦点。从公司战略到产业生态,从学术研究到生产实践,从城镇管理乃至国家治理,都将发生本质的变换,大数据将成为时代变革的力量。“用数据来说话、用数据来管理、用数据来决策、用数据来创新”的文化氛围与时代特征愈发鲜明。大数据时代新特征要求设计和构建相应的管理决策分析模型与方法,有效地将信息科学和商业应用相结合。因此,掌握大数据核心技术且同时拥有“经管”专业知识的人才储备将成为国家大数据战略布局的重中之重。

       1产业发展需要大数据人才

       与大数据概念知名度和企业热情形成对比的是,大数据正面临全球性的人才荒。企业对新型大数据分析和预测技术人才的热情和需求正在超过传统的商业智能和信息管理人才。

       根据麦肯锡报告,仅仅在美国市场,2022年大数据人才(包括高级数据分析专家)缺口将高达19万。此外美国企业还需要150万能够提出正确问题并运用大数据分析结果的大数据相关管理人才。商业数据分析是现在全美增长最迅速的领域,据New Vantage Partners公司对美国《财富》500强公司调查显示:85%的500强企业已经或正在筹划推出大数据项目,未来几年这些企业在数据分析上的投资将平均上涨36%。《哈佛商业评论》的一篇文章将数据分析称作“21世纪最热门的职业”。人力资源公司Kforce的调研报告预测2022年全球大数据相关的八大职业平均年薪将达到11.75万~14.06万美元。中国是人才大国,但掌握和应用大数据技术的创新人才仍是稀缺资源,培养大数据相关人才成为最为紧迫的问题。在这样的形势下,对外经济贸易大学于2022年7月向教育部申报开设“大数据科学与应用(目录外)”本科专业。

       2.“数据科学”的时代性、科学性与合理性分析

       “大数据”已经成为全球科技界和企业界关注的热点。数据为王的时代已经到来,企业关注的重点从追求计算机的计算速度转变为大数据处理能力,从以软件编程为主转变为以数据为中心。2022年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志,这对未来的科技与经济发展必将带来深远影响。

       大数据研究的热潮激励基础研究的科研人员开始考虑“数据科学”问题。目前大数据的工程技术研究已走在科学研究的前面。美国政府6个部门启动的大数据研究计划中,国家科学基金会的研究内容提到要“形成一个包括数学、统计基础和计算机算法的独特学科”。图灵奖得主吉姆?格雷描绘了数据密集型科研第四范式的愿景,将大数据科研从第三范式(计算机模拟)中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数学模型的传统研究方式。

       大数据研究能成为一门科学的前提是,在一个领域发现的数据相互关系和规律具有可推广到其他领域的普适性。提炼“大数据”的共性还需要一段时间的实践积累才会逐步清晰明朗。将大量多元异构、交互性和时效性强并包含大量噪声的数据作为研究对象的专门学科,依然具备了鲜明的学科特征。

       3大数据专业与其他相关专业的异质性分析

       由于大数据专业主要支撑技术来源于信息技术,所以在专业申报中应将该专业所属学科门类及专业类推荐设在计算机科学与技术学科下,大数据专业与计算机学科下所属专业的关系及区分度可以概括如下几点。

       (1)研究对象的侧重点不同。“大数据科学与应用”专业研究的核心对象是“大数据”,既不是硬件、软件理论研究,也不是计算机技术在某个领域的应用研究或者某一特定计算机技术的理论和应用研究,并且“大数据”引发的研究不可能在短时间完成,“大数据”问题研究具备了跨行业、跨领域的普适性。除去该专业所需的计算机学科之外的专业知识,就计算机学科内部而言,该专业所需知识在计算机学科的其他专业都有涉及,但又不被完全包含,所以不便将其归人现有专业之中。

       (2)大数据科学素养要求高。该专业对学生在“大数据科学素养”方面有更高的要求,在理论上,强调学生有很好的数理统计基础、扎实的数据结构和算法的基本功,能够很好地理解和掌握各种机器学习和数据挖掘算法;在实践上,强调学生具备海量数据获取、数据组织与存储、数据清洗、数据预处理、数据分析以及数据可视化的工程实践能力,掌握数据处理各个环节的基本技能;在理论与实践结合方面,强调学生掌握处理“大数据”的先进技术和理论,即掌握与云计算相关的大数据处理平台及其生态系统,强调与数据来源紧密相关的新技术的融合与互动,即理解和掌握物联网、移动互联网相关理论和技术。

       (3)专业具备前所未有的复合性特征。对大数据而言,技术走在科学前面。目前的局面是各个学科(如生物、医疗、金融等)的科学家都以自己为主处理本领域的海量数据,各领域的科学问题还掌握在各学科的科学家手里。本专业的设置希望从一开始就以培养复合型人才为目标,以大数据为核心研究对象,强调学生对专业领域(经济、金融、电子商务)数据的理解能力,深刻体现技术为数据服务的思想。

       (4)与统计学专业的区别。本专业与统计学专业的最大区别来自于对IT技术的理解和掌握,强调数据在获取、清洗、存储、处理和展示等各个环节与IT技术的深度融合,而不仅仅是将IT技术作为辅助手段;就数据处理的种类而言,更重视对非结构化和半结构化数据(统计学专业处理的数据一般为结构化数据)的处理。

       (5)与信息管理专业的区别。本专业与信息管理专业的区别主要体现在看待数据和信息的角度。信息管理主要强调在理解数据和业务流程的基础上,通过科学的分析和设计方法,实现管理信息系统,强调利用计算机技术介入、改造和升级原有的业务系统。“大数据”相关理论和技术更侧重对数据本身的洞察与理解,相对而言更加独立于原有的业务系统,更专注对海量、复杂、多元数据的深度分析和处理能力,更依赖于大数据处理平台和技术,也更好地支撑了物联网、移动互联网的应用和发展。

       4国内外大数据相关专业发展情况及就业前景分析

       4.1大数据相关专业发展情况

       由于市场对大数据人才的需求日益激烈,国外很多大学开始专门开设数据分析类专业。美国US News排名Top50院校中的哈佛大学、哥伦比亚大学、斯坦福大学、芝加哥大学、麻省理工学院、卡内基梅隆大学等15所高校均开设了大数据相关专业。另外,由于大数据在2022-2022年开始兴起,人才市场无法迅速培养出大量符合企业期望的人才,美国一些公司采取了更现实的做法:和大学合作,长期培养大数据专业人才以及开展相关研究,比如英特尔就和数据学专业排名靠前的麻省理工学院合作,建立了大数据科学技术中心。

       目前,国内大数据相关专业主要开设在研究生层次。2022年中国科学院大学开设首个“大数据技术与应用”专业方向,该专业面向科研发展及产业实践,培养信息技术与行业需求结合的复合型的大数据人才;2022年清华大学成立数据科学研究院,推出多学科交叉培养的大数据硕士项目;中国人民大学也设立了大数据应用与云管理、大数据与应用统计、大数据应用方向以及大数据与云计算研究方向;北京航空航天学院软件学院开设了大数据和云计算研究方向,并已经有毕业生;另外,上海交通大学、浙江大学、天津大学、厦门大学等也在研究生层次建立大数据专业。

       许多高校同时也在筹建本科的大数据相关专业,西安交通大学、北京交通大学等与IBM公司合作启动了大数据本科专业的建设或者改造现有相关专业。针对当前中国市场急剧扩大的大数据与分析技能需求和人才缺口,IBM投入1亿美元在中国大学推行大数据教育,并推出“IBMU-100”合作计划,在100所高校设立大数据与分析技术中心,在其中30所高校开设本科和硕士课程,在5所大学设立“卓越中心”。

       4.2复合型人才就业前景

       Glassdoor公司2022年1月发布的“美国最好的工作”排名中,数据科学家位居第一,底薪为11.6万美元。通过分析大数据人才市场需求、与大数据公司研讨以及对业界的调研,我们认为对外经济贸易大学开设大数据专业及就业方向主要有如下三个方面:

       (1)贸易金融方向大数据分析师:主要就业岗位在供应链融资公司、P2P信贷征信平台、商业银行等。

       (2)网络营销方向大数据分析师:主要就业岗位在互联网广告、020营销公司、大型网络媒体等。

       (3)物流与电子商务方向大数据分析师。主要就业岗位在电子商务公司、现代物流公司、第三方支付公司等。

       学生职业生涯成长目标为首席数据官(CDO),如图1所示。

       5对外经济贸易大学开设大数据分析专业的基础及对大数据专业的认识

       5.1财经学校背景优势支撑大数据专业申报

       对外经济贸易大学在经贸、金融、管理、法律等专业拥有得天独厚的条件。秉承创新“商业大数据人才”的培养方略,建立适合财经类院校的商务大数据专业,为国家产业转型与行业发展需求贡献合格的人才,支撑国家大数据战略的实现,是我们申报开设大数据专业的出发点。从社会发展需求出发,建设以国际化、精品化、金融与商务相结合为特色的大数据专业是我们进行专业建设的指导思想。

       5.2师资队伍建设与储备

       大数据专业申报所依托的信息学院近年来引进了多名优秀的具有海内外大数据分析背景的人才充实到教学科研队伍中。师资队伍多元化教育背景和工作经历是学院的巨大财富,也为该专业的创建提供了先决条件。同时2022年信息学院先后两次派教师参加大数据核心课程培训,为新专业申报进行了专业师资的储备。

       5.3成立产学结合的大数据专业建设小组并开展专业研讨

       信息学院为建设大数据专业,多次召开专业建设研讨会,特别邀请承担2022CCTV两会大数据制作的专业大数据公司技术总监来学院介绍大数据的采集、处理、展示等全过程;邀请新浪微博大数据中心建设人员就大数据专业人才需求、专业定位进行研讨。组建了有大数据企业参加的专业申报筹备小组,亿赞普大数据公司技术总监作为专业建设成员参与专业建设和课程体系设计与实施。

       5.4与大数据企业和大数据产业协会联系紧密

       信息学院大数据专业筹备组成员与中国信息化协会大数据分会、一线大数据联盟、中国大数据产业规划联盟、中国物流大数据产业合作联盟等产业协会建立了紧密的合作关系;与91金融超市建立了科学研究和实习基地;与京翰数据技术公司就物流大数据研发建立并签署了科研合作协议;2022年与京东物流大数据创新部进行合作接洽。

       5.5人才培养方案及实践教学环境建设

       目前大数据人才培养方案还处于探索阶段,鉴于大数据是一个交叉专业,业界的共识是在计算机科学技术相关专业基础上融合机器学习、数据挖掘的数据分析技术。针对业界共识与对外经济贸易大学学科背景实际,我们设计了具有对外经济贸易大学特色的人才培养方案,其主线是“大数据分析 信息技术 经济贸易应用”。

       大数据是应用性、实践性很强的专业,信息学院拥有国家级实验教学示范中心,为大数据人才培养提供了可行的实践教学环境。

       5.6对大数据专业的认识

       IBM公司赋予大数据“领悟数据,提升见识,洞察秋毫,驱动优化”四个内涵,这也构成了本专业的基本特点:侧重于大数据技术的应用,强调大数据间相关性的发现,其核心能力是“大数据中的价值发现和应用”。“大数据科学与应用”专业设置具有显著的跨学科特点,学生不仅要掌握统计学、计算机科学、信息管理等专业的基础知识,还要具备其他专业领域较深的知识背景(如经济贸易或金融专业领域知识),最重要的是要有依托数据创造价值的能力。

       在专业筹备和申报过程中,我们认为大数据专业的技术核心应围绕大数据采集、组织与存储、分析与处理、结果呈现而进行,而大数据的数据源及内容应该来源于经济贸易、金融交易、物流与电子商务等商务与管理应用领域。所以我们将该专业的培养目标界定为:旨在培养具备大数据科学素养,掌握经济管理、网络金融、电子商务等领域知识的专业人才,为以大数据技术为支撑的相关行业培养国际化、复合型的高素质人才;人才要具备将领域知识与计算机技术和大数据技术融合、创新的能力,能够从数据工程的视角从事经济、金融、电子商务等领域的大数据采集、组织、管理、分析以及应用的工作。

       6结语

       时代发展呼吁建立大数据专业人才培养体系,对外经济贸易大学“大数据科学与技术”专业申报经历了通讯评审、网上公示、专家委员会会审等系列程序。教育部学科发展与专业设置专家委员会评议后建议将专业名称统一规范为“数据科学与大数据技术”。我们认为这样更能体现工学学士学位特征。专业申报只是我们迈出的第一步,建设有对外经济贸易大学特色的大数据专业,培养受社会欢迎的、高质量的大数据人才,我们深感任重而道远。

第五篇:关爱地球联盟:青少年对水资源的认识调查数据

       CFE RDC 关爱地球联盟调查与数据中心数据

       调查问题1:了解世界水日的日期吗?(A了解B不了解)

       数据结果:A了解:66%B不了解:32%

       调查问题2:知道全球的水只有3%是淡水,其余均不可食用?(A知道B不知道)

       数据结果:A知道:75%B不知道:25%

       调查问题3:思考过关于水的问题,并履行节约用水的义务?(A是B不是)

       数据结果:A是:92%B不是:8%

       调查问题4:家里洗米或菜等的水不直接倒掉而是二次利用?(A是B不是)

       数据结果:A是:69%B不是:31%

       调查报告:

       对于这份关于人们对水的意识调查,我们可以发现,超过九成的人都思考过关于水的问题,并履行节约用水的义务,这是非常值得欣慰的。不过,就近三成的人却不知道全球的水只有3%是淡水,其余均不可食用的问题,这样的节水背景应当人人所知,但仍有25%的人不知道这样的事实,不得不说是一个遗憾。在了解世界水日日期方面,结果比我们预料的要好——近70%的人知道。而水的二次利用方面,也有31%的人没有这样做,同时另外做到二次利用的人也有相当一部分仅在有时进行,离全民彻底开始节水运动,水的二次利用还有相当的距离。

       同时我们将继续让更多的人明白节约用水,二次利用水资源的重要性。同时本调查有70%的人为五六年级的小学生,调查反映这个整体对节水的认识远不及大众平均水平,让青少年重视环境、水资源,教育青少年提高环境意识已经亟不可待!

       活动属性:

       名称:南京青少年环保组织关爱地球联盟走进水南京时间:2022年

       地点:南京市三叉河地区;南京市阅江楼小学六年级、五年级数量:77份有效问卷

       声明:CFERDC允许本调查结果非盈利性的自由传播,不受版权限制,但必须标注CFE或CFERDC及关爱地球联盟的中文标注