忘记密码
免费注册
全部
课程
文章
帖子
用户
快捷导航
徽章
好友
帖子
收藏
道具
任务
充值
提现
课程
奖学金
抵价券
企业
学习中心
|- 我的课程
|- 我的专才计划
|- 我的普班
|- 我的快班
|- 我的关注
|- 我的专业
|- 我的求职
|- 我的招聘
|- 我的云实验室
首页
业界
培训
专才计划
特训营
课程
专业
企业服务
入职特训
创想基地
论坛
产品廊
大数据
商业智能
专家团
关于我们
入职特训计划
黄校长前沿人才培养计划
王文峰计算机视觉精英培训计划
郭一军“新DBA”精英培养计划
葛一鸣JAVA精英培养计划
人工智能专业
数据分析师专业
大数据攻城狮专业
Hadoop大数据攻城狮专业
Python数据分析师专业
全栈程序猿专业
DBA专业
企业菁英小团队培养计划
企业内训
炼数成金
›
大数据
›
运维
订阅
运维
如何打造一个经常宕机的业务系统?
删库跑路专家、宕机行为艺术家、肥胖版吴彦祖--老K,曾经说过:“打造一个偶尔宕机的系统并不难,难的是经常宕机,一辈子宕机,从来没有稳定过的系统,这才是最难的。”但是,作为一个有追求的技术人,我们要迎男而 ...
快速搭建容器化Elasticsearch集群环境
随着云原生技术的蓬勃发展,为各种分布式集群环境的实施提供了非常便利的条件。Elastic Stack是一种非常优秀的分布式搜索解决方案,但是由于其组件较多且有很多配置,因此在搭建集群时存在一定难度。这里我们提供一 ...
Rsync 秒杀一切备份工具,你能手动屏蔽某些目录吗?
Rsync 是一种快速且通用的命令行实用程序,可通过远程shell在两个位置之间同步文件和文件夹。使用 Rsync,可以镜像数据,创建增量备份,并在系统之间复制文件。复制数据时,你可能要根据文件名或位置排除一个或多个 ...
报警的哲学
审核和编写报警规则时,需要考虑以下的这些原则:报警的(电话,短信)触达应当是紧急的,重要的,可行动的,真实的。规则应当表示是你的服务处于过程中或者即将发生的问题。为了保持报警项的精确,有效;宁可过度移 ...
基于 Prometheus 的监控系统实践
监控作为底层基础设施的一环,是保障生产环境服务稳定性不可或缺的一部分,线上问题从发现到定位再到解决,通过监控和告警手段可以有效地覆盖了「发现」和「定位」,甚至可以通过故障自愈等手段实现解决,服务开发和 ...
时序数据异常检测做到这种段位,还怕什么告警风暴
AIOps,最初的定义是Algorithm IT Operations,是利用运维算法来实现运维的自动化,最终走向无人化运维。随着技术成熟,逐步确定为Artificial Intelligence for IT Operations——智能运维,将人工智能应用于运维领 ...
使用Prometheus和Grafana构建Redis实时监控平台
Redis作为缓存系统,在整个后端体系中是较为重要的一环,需要实时监控运行状态。现在有各种各样的工具都可以对Redis进行监控,例如:redis-stat、RedisLive等,在使用过各种各样的监控工具后,个人感觉redis_exporte ...
一篇文章全面了解监控知识体系
监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省时省力、效率最高的方案 ...
Netflix是怎样做系统监控的?
监控系统某个指标超过阈值,触发告警。大半夜里,你被紧急召唤。半睁着眼,你满脸疑惑:“系统真出问题了吗,还是仅仅需要调整下告警?上一次有人调整我们的告警阈值是在什么时候?有没有可能是上游或者下游的服务出 ...
30 个高可用 Prometheus 架构实践中的踩坑集锦
监控是基础设施,目的是为了解决问题,不要只朝着大而全去做,尤其是不必要的指标采集,浪费人力和存储资源(To B商业产品例外)。需要处理的告警才发出来,发出来的告警必须得到处理。简单的架构就是最好的架构,业 ...
助力技术中台数字化转型,探索农行 DevOps 实践之路
DevOps 持续交付通过组合运营和开发团队,促进研发运营一体化融合,缩短开发周期,频繁发布迅速交付,减少出错可能性,提高企业工程效率,降低成本。DevOps 建设工程是助力农业银行数字化转型的重点工作,通过规范建 ...
Prometheus 踩坑集锦
监控系统的历史悠久,是一个很成熟的方向,而 Prometheus 作为新生代的开源监控系统,慢慢成为了云原生体系的事实标准,也证明了其设计很受欢迎。本文主要分享在 Prometheus 实践中遇到的一些问题和思考,如果你对 K ...
Prometheus Metrics 设计的最佳实践和应用实例
Prometheus 是一个开源的监控解决方案,部署简单易使用,难点在于如何设计符合特定需求的 Metrics 去全面高效地反映系统实时状态,以助力故障问题的发现与定位。本文即基于最佳实践的 Metrics 设计方法,结合具体的 ...
手把手教你用 Gitlab 和 Jenkins 构建持续集成环境
最近用到持续集成顺便总结在这里,都是用的最新版。搭建过程中还有一个demo,提交代码到 gitlab 自动触发 jenkins 任务,自动编译代码和 docker 镜像并上传。gitlab 国内安装很麻烦,用官方的源装不了,因为在国外, ...
详解数据服务共享发布
通过资源目录提供技术元数据、业务元数据、服务元数据视图,使资源更容易发现,提供分区、分节点的体系化资源目录管理,保护数据安全,快速查找数据。通过自动化采集与解析手段获取元数据信息,建立技术、业务、服务 ...
1
2
3
/ 3 页
下一页
热门频道
大数据
商业智能
量化投资
科学探索
创业
即将开课
•
Hadoop集群原理与运维实践(第13期)
•
OpenAI强化学习实战(第12期)
•
Oracle SQL Tuning(DSI系列Ⅲ)(第11期)
•
基于Flink流处理的动态实时亿级电商全端用户画像系统(第一期)
•
python网络爬虫应用实战(第15期)
•
Web全栈开发理论与实践(第11期)
•
Spark企业级大数据项目实战(第17期)
•
Python3入门到精通实战特训(第13期)
•
金融的人工智能革命(第17期)
•
计算机视觉:从入门到精通,极限剖析图像识别学习算法(第12期)
•
Java落地方案之构建亿级微服务秒杀系统(开发+测试+部署)(第二期)
•
Python数据处理实战:基于真实场景的数据(第五期)
•
深入浅出Git(第13期)
•
快速成为深度学习全栈工程师(第七期)
•
企业级大中台从设计到实现(第三期)
•
Python机器学习Kaggle案例实战(第19期)
•
高并发高可用的亿级微服务电商平台全实现(第六期)
•
跟Py sir一起学Excel(第二期)
•
Qt编程快速入门(第十期)
•
Architecting on AWS架构与实践(第六期)
•
并行化计算与CUDA编程(第三期)
•
企业级大中台从设计到实现(下)(第二期)
•
反内卷神器之RPA特训(第一期)
热门文章
•
一文搞懂 PyTorch 内部机制
•
如何打造一个经常宕机的业务系统?
社区热帖
GMT+8, 2021-1-22 02:12
, Processed in 0.105088 second(s), 16 queries .
关于我们
新手指南
企业合作
联系我们
订阅号
服务号
关于我们
教育模式
企业会员
电话:4008-010-006
讲师招募
选课流程
内训合作
邮箱:kefu@dataguru.cn
校园大使
学费返还
媒体合作
客服QQ:
版权声明
奖学金激励
代理合作
售后QQ:
关于我们
手机版
友情链接
站点统计
文本模式
小游戏