来源 | 金科创新社
项目背景:
随着监管要求不断提升和我社业务的快速发展业务规模不断发展扩大,应用系统每时每刻产生海量日志数据,日志种类繁杂、格式多样、用途不同,散落在生产系统各个角落。在管理方面,无统一的管理,往往只有系统出现问题是才被查找,查找难度大,效率比较低;在安全性方面,日志分散,很容易被无意删除或篡改;在告警方面,事后处理,等出错后在查找问题原因,问题定位,没有做到有效监控,事前预警过程。除此之外,日志大部分都被设置了清理策略,暂存一段时间后将被永久删除,未得到充分应用,而随着大数据的兴起,日志中隐藏的数据价值尚未被挖掘。
经上分析日志数据主要面临问题及困境如下:
数据分散无统一管理
应用系统的日志数据多为分散存储,形式多样,日志数据有记录在种类繁多有的记录在数据库中,有的是半结构化、有的是非结构化数据,系统日志在不同的平台上更是有不同的存储路径和格式,各类日志散落在不同的地点,缺乏统一收集和管理。
监控管理方式多样化
监控管理方式多样化,监控告警杂乱无章监控方式存在各种不足,问题发生时无法及时告知运维责任人。
日志数据庞大,管理难度大
日志量产生数据量庞大,应用系统日志,主机日志、网络日志数量每天应该TB计算,管理日志数据难度大。
业务数据多样化无统一规范
信息化系统建设主要通过应用厂商系统、自主研发系统、二次开发组成,复杂的系统构成加上日志格式未明确的书写规范,导致各类日志的记录格式多样且不规范。
排查问题复杂
排查问题时间长,在发生问题后无法快速准确的定位问题原因;
业务日志数据缺乏价值数据提取
项目目标:
针对现状日志数据面临的种种问题,基于AI智能算法的应用日志大数据分析平台,从实际解决问题角度出发,产品目标设计目标分为三个阶段:
第一阶段:实现日志数据实时采集、统一保存、统一管理、快速日志检索,问题精准定位,及时告警;
第二阶段:实现日志数据与大数据平台整合工作,利用大数据平台存储、计算技术,结合AI智能数据算法模型针对选取特例重保类系统进行试点,实现日志数据关联分析,业务日志数据流程串联分析,关键指标分析,充分挖掘日志潜在价值;
第三阶段:实现数据中心重保、一类系统业务日志数据关联分析,日志数据关联分析,业务日志数据流程串联分析,关键指标分析,充分挖掘日志数据价值,最终实现数据可视化展示。
项目方案
平台架构
基于AI智能算法的应用日志大数据分析平台的总体架构设计是基于数据采集,规则引擎、大数据、机器学习、AI智能算法等应用与实践,项目满足我行未来数年的发展需要。系统架构满足稳定性、高可用、可横向扩展,并与其它系统灵活对接的需求。实现数据中心对底层基础数据采集、与大数据平台灵活对接,利用大数据平台的存储能力、计算能力结合AI机器学习算法对采集数据进行智能化、数据模型化,指标化进行分析,最后以可视化的方式展示。从而实现从数据采集、智能化分析、可视化展示的信息化平台。
系统架构图(1)
平台架构从业务逻辑上划分,分为日志采集、数据汇聚、业务服务处理、智能化日志检索与分析、数据可视化展示。
日志采集
平台采用高可用、高可靠、分布式的海量日志采集、聚合和传输,支持在日志系统中定制各类数据发送方,用于收集数据;同时提供对数据进行简单处理,并写到各种数据接受方。高可靠性保障日志能够被传送到其他节点上而不会丢失。采用端到模式来保障可靠性:收到数据agent将日志信息发送到后端消息队列,如果数据发送失败,将日志信息写到磁盘上,重新发送。
数据汇聚
平台提供丰富的构件来实现多种协调数据结构和协议。
平台本身累计的日志泛化知识库,如cisco等通用日志泛化规则、银行常用系统数据解析规则等。系统支持自定义规则,对未知日志进行配置正则泛化解析。
业务服务处理
平台采用流式处理引擎,构建的高性能、分布式日志处理架构可以每秒钟分析10万条日志,每天可以处理TB级的日志量,而且处理延时非常短,可以让用户搜索、分析几秒钟之前产生的日志。业务流式处理特点体现。1)轻量级快速处理:流式处理引擎中的应用程序在内存中以100倍的速度运行,它们将中间处理数据全部放到了内存中。2)无数据丢失:系统需要保证无数据丢失;3)无数据重复:为了保证数据不重复,在数据可能丢失的时候重试,通过日志存储引擎来去掉重复数据;4)容错透明:系统会自动处理容错,调度并且管理资源,而这些行为对于运行于其上的应用来说都是透明的。
智能化日志检索与分析
平台支持已有日志业务场景化展示知识库,如IT资源数据分析、安全分析、业务监控、自动化分析和故障分析。平台还支持利用接口API定制开发的高级分析应用场景知识库如文本日志异常检测,采用交互式所见即所得的AI异常检测和趋势预测算法,可随时调整参数和实际情况进行对比,提升准确性。再交易分析子系统是通过采集应用系统日志数据,通过kafka推送到大数据平台,利用Flink流式计算方法,应用系统业务运营指标数据。
智能数据分析图(2)
数据可视化展示
实现对应用日志中产生的异常进行检测分析、对告警信息、自身Agent存活状态、资产设备异常情况实时监控。报表设计器和仪表盘设计器,可以设计大屏展示、领导视图等数据可视化功能。
创新点
基于AI智能算法的应用日志大数据分析平台主要创新点:
日志实时采集、统一保存、统一处理
通过对日志实时采集,将分散在各个应用系统的应用日志,中间件日志,主机日志,网络安全设备日志,满足日志时效性,对日志数据采用非结构化数据进行统一保存、统一处理、实现庞大数据量日志的统一管理;
集中搜索、集中查看、问题精准定位、高效排查问题
日志数据分布式存储设计,将日志数据进行存档,建立索引,提供快速查询和分析服务,通过关键字、时间段查询实现数据快速检索,精准定位问题,以每秒百万级的数据处理速度返回结果。平台能够实现1秒内接收处理200万条以上日志数据,查询1000亿条数据仅需要不到60秒,并支持横向扩展,在日志量增加的情况下不会导致速度降低。
监控告警,实时告知
通过日志数据的集中管理,会对日志数据进行分析,并设置告警规则和策略,采取人工手动配置和动态基线自动监控管理,为第三方产品提供接口推送告警信息,实时告知相关责任人。
可编程统计分析
通过高级搜索模式可直接在搜索框输入语言命令,实现日志关联、字段数值统计、较为复杂的日志分析,支持图表、表格统计分析,系统还支持提供上百种统计分析常规函数,一条语句即可连接图表、报表分析场景与分析模型,且支持自定义分析结果的告警逻辑。
可视化报表
用户只需点击鼠标就能实现数据到可视化图表的转换,提供包括平滑序列图、仪表盘、趋势图、循序图、堆叠图、地理位置热力图等多种常用展示效果,可自定义仪表盘及图表样式,且支持图表关联钻取。
数据价值挖掘
基于AI算法分析实现端到端的性能实时数据采集,自动识别各种日志类型,自动抽取关键字段,将非结构化日志转化为结构化数据;对不同来源的日志做关联分析,使业务流程关联分析,充分挖掘日志潜在价值。
技术实现特点
基于AI智能算法的应用日志大数据分析平台技术从实现角度来说,采用前后端分离技术、整套系统采用的后端技术主要采用的java/c/python/为主要开发语言。在采集层主要Agent对日志源层实现日志的采集工作,通过端口监听Nginx负载实现在Axlog采集主程序工作;在数据存储层主要采用elasticsearch集群部署(可支持横向扩展)进行日志数据存储;在业务逻辑处理层主要采用自研engine进行业务逻辑处理,并涉及机器学习算法到分词算法、数据转化器算法、字段选择器算法的应用;在可视化层主要采用React、Umi、Dva、Antd、echarts、d3等技术为前端展示技术。
技术架构图(3)
项目实施及过程管理
该项目为我社2017年立项建设项目,具体建设情况如下:
1.立项阶段:2017年03月至2017年06月,该阶段完成项目立项前的可行性分析和项目立项。
2.准备阶段:2017年07月至2017年10月,该阶段进行平台的技术研究、调研及分析工作,并对平台的功能进行规划。
3.需求分析阶段:2017年11月至2018年12月,该阶段对平台的功能、非功能等需求进行分析和讨论。
4.设计开发阶段:2018年01月至2018年05月,该阶段进行平台的概要设计、详细设计和编码开发及功能测试。
5. 测试阶段:2018年06月至2018年07月,该阶段对平台进行功能测试、非功能测试并进行测试材料的编写。
6.投产及试运行阶段:2018年08月至10月,该阶段完成平台投产,试运行期间平台运行稳定。
7、二期项目建设准备阶段:2018年11月至2019年1月,该阶段基于平台一期实现的功能、运行情况等进行二期项目建设的技术调研、功能规划。
8、二期项目需求分析阶段:2019年2月至2019年4月,该阶段进行平台二期建设的功能、非功能、信息安全保障等方面的需求分析。
9、二期项目设计开发阶段:2019年5月至2019年8月,该阶段进行平台的概要设计、详细设计和编码开发及功能测试。
10、二期项目测试段:2019年9月至2019年11月,该阶段进行平台功能测试、非功能测试、相关测试报告的编写以及投产演练等工作。
11、二期项目投产和试运行阶段:2019年12月至2020年1月,该阶段完成平台的投产和试运行。
运营情况
基于AI智能算法的应用日志大数据分析平台整体规划是运维分中心从数据采集,数据存储,数据分析,数据可视化为一体的智能化的分析决策系统。自一期2018年8月上线运行,共接入重保类、一级类系统、网络设备、安全设备、主机linx/Aix/windwos syslog日志800G/天数量的采集,成功的完成数据采集、统一管理、统一保存、检索的规划。二期实现试点业务系统业务日志数据交易模型数据关联分析,成功分析交易类运营指标、性能运行指标数据等重要信息,为保证数据中心整体运营情况提供了稳定、安全的保障,成功完成试点项目的数据分析规划。未来我社将会将所有重保类、一级交易系统全面实现交易数据智能化分析,实现数据中心从数据采集,数据存储、数据分析、数据可视化展示最终规划目标。
项目成效
基于AI智能算法的应用日志大数据分析平台为我社数据中心重点数据监控、数据分析系统。从监控监管的角度来说,该系统既满足了监管部门的要求,又为数据中心解决了日志分散不集中,定位繁琐,定位难的问题,大大提高故障定位的时间效率。从数据价值角度来说,该系统与大数据平台的无缝结合,充分分析出产品性能、运行状况等主要指标数据,为数据中心的稳定运行提供了可靠的支撑保障;通过实时采集、统一管理,定制专项数据分析,挖掘数据潜在价值,为更好发展业务提供信息。
基于AI智能算法的应用日志大数据分析平台的建设帮助我社从传统运维进入新阶段,降低了运维工作的难度,改变了过去人工为主,依赖经验的运维模式;改善了传统运维技术需要大量人工操作,排查一个问题需要花费一个有经验运维技术人员数小时精力的状况,依靠大数据日志分析运维技术,实现了数据实时检索,定制化告警秒级延时,同时还建立了事前预警、事中告警、事后定位三环连动告警机制,实现了快速运维工作的需求,减轻了运维人员的压力,也极大提升了用户体验。
经验总结
基于AI智能算法的应用日志大数据分析平台的建设解决我我社对日志数据分散、无统一管理、统一存储、处理问题定位难和排查复杂、无法事前预警等问题。在业务分析方面,利用大数据算法模型分析集中采集的日志数据,做到对业务交易量、成功率,响应时间、响应率等进行分析,为我社业务发展规划和决策提供数据支持。
基于AI智能算法的应用日志大数据分析平台建设也暴露了我社对日志规范要求的不足,导致日常运维工作效率的降低;此外,在数据价值发掘上也不够重视,浪费了大量有价值的数据。在今后的工作中,会加强日志的管理,合理利用日志数据,提高运维效率和决策水平。
版权声明及安全提醒:本文转自网络平台金科创新社,文章仅代表作者观点,不代表「金融文库」立场。相关版权归原作者所有,「金融文库」仅提供免费交流与学习,相关内容与材料请勿用于商业。我们感谢每一位原创作者的辛苦付出与创作,如本转载内容涉及版权及侵权问题,请及时联系我们客服处理(微信号:JRwenku8),谢谢!