大数据,但不仅仅是大数据 作者:蒋鲁宁

大数据技术风起云涌,深刻地影响甚至冲击着各个领域,大数据从三个V,即数量大(Volume)、产生快(Velocity)和形态多(Variety)这些自身特征的考虑也发展到更多的“V”,即更多地从应用视角对大数据加以关注,其中最重要的一个V就是价值。为了从大数据中析取价值,需要依托大数据的语境为大数据的解读提供基础、依据和语义,这些语境相关信息尽管本身并不是大数据但绝不能缺失,否则或者从效果上或者从语义上都会对大数据应用大打折扣。

对于企业网络的大数据安全解析也同样如此。大数据安全解析所依赖的数据是解析相关对象的行为数据,即反映关注对象行为的数据,如物理空间中人员的地理活动轨迹,网络空间中用户的系统登录日志等。在企业网络中,典型的行为的对象包括网络设备、安全设备、操作系统、应用系统、客户端设备、用户等。这些对象在网络环境的行为从类别上归纳归纳包括了执行请求、访问控制、功能执行、事务管理、数据传输与存储等。形成安全解析的大数据的正是反映这些行为的数据,其中包括全包数据、协议流数据、执行日志、事件日志等。

在中大规模的企业网中,每天仅协议流数据就可能达到T级规模,对这些数据进行安全解析是个很大的挑战,但若缺失这些网络行为数据的关联信息,大数据安全解析不仅难有奏效,还很有可能演变为一种“灾难”。试想在安全解析过程中若没有完整的企业私有IP地址分配信息的系统支撑,当面对几十亿条协议流数据中几十万个IP时,凭借人工来解读那些IP是正常,完全不可能,即使通过数据解析出一组疑似IP,进一步的确认在这种条件下,恐怕也将是个极其辛苦且几乎难以为继的工作,一个典型的实例就是Dark IP的识别。所谓Dark IP是在企业私有地址范围内尚未被分配的IP地址,但在网络流中出现。若作为源地址出现,那么相应的网络对象需要追查,若作为目的地址出现,不会是正常的业务应用而可能是诸如扫描等值得怀疑的行为。在这种场合下解析,如果企业IP地址分配信息没有融合到大数据安全解析平台中,快速、准确地识别dark IP的功能无从考虑。反之则可通过企业IP分配信息库,采用流解析等技术可以实时或近乎实时的对出现的dark IP报警。

企业网大数据安全解析所涉及的网络行为关联信息远不止企业IP分配信息,还包括了诸如企业网络拓扑相关信息、IT资产相关信息、企业组织相关信息和用户身份等相关信息。若企业网业务应用还涉及到了外部合作伙伴、供应商和互联网,也需要这些外部对象相关的信息,例如在互联网中企业与合作伙伴的对接IP等信息。知道这些信息,可以较容易地基于二者之间交互的行为数据建立起相应的行为模式,然后根据建立的行为模式来检测异常,例如识别可能通过攻击合作伙伴网络来攻击企业网的行为。

基于上述分析可以看到企业网对象的关联信息具有不可忽视的作用,是企业网大数据安全解析产生价值的重要因素之一。因此实践中自然会将相应的关联信息库作为企业大数据安全解析系统的一个有机组成部分加以构建,并需要对关联信息库中的关联信息的整个生命周期的进行管控,其中包括关联信息需求的分析、关联信息源的识别、关联信息的摄取、关联信息的处理、关联信息的存储、关联信息的应用支持以及关联信息有效性以及价值的维护。

大数据安全解析依托的不仅仅是大数据,也不仅仅是拓展大数据的关联信息。大数据安全解析的应用需要通过相应的元数据来加以解读,通过关联的信息来加以丰富化,通过相关的知识来提供杠杆。

2016-04-01 20:31
来源:中国信息安全杂志(2016.03)
热门推荐更多
热点新闻更多