炼数成金 大数据运维
订阅

运维

如何打造一个经常宕机的业务系统?
如何打造一个经常宕机的业务系统?
删库跑路专家、宕机行为艺术家、肥胖版吴彦祖--老K,曾经说过:“打造一个偶尔宕机的系统并不难,难的是经常宕机,一辈子宕机,从来没有稳定过的系统,这才是最难的。”但是,作为一个有追求的技术人,我们要迎男而 ...
快速搭建容器化Elasticsearch集群环境
快速搭建容器化Elasticsearch集群环境
随着云原生技术的蓬勃发展,为各种分布式集群环境的实施提供了非常便利的条件。Elastic Stack是一种非常优秀的分布式搜索解决方案,但是由于其组件较多且有很多配置,因此在搭建集群时存在一定难度。这里我们提供一 ...
Rsync 秒杀一切备份工具,你能手动屏蔽某些目录吗?
Rsync 秒杀一切备份工具,你能手动屏蔽某些目录吗?
Rsync 是一种快速且通用的命令行实用程序,可通过远程shell在两个位置之间同步文件和文件夹。使用 Rsync,可以镜像数据,创建增量备份,并在系统之间复制文件。复制数据时,你可能要根据文件名或位置排除一个或多个 ...
报警的哲学
报警的哲学
审核和编写报警规则时,需要考虑以下的这些原则:报警的(电话,短信)触达应当是紧急的,重要的,可行动的,真实的。规则应当表示是你的服务处于过程中或者即将发生的问题。为了保持报警项的精确,有效;宁可过度移 ...
基于 Prometheus 的监控系统实践
基于 Prometheus 的监控系统实践
监控作为底层基础设施的一环,是保障生产环境服务稳定性不可或缺的一部分,线上问题从发现到定位再到解决,通过监控和告警手段可以有效地覆盖了「发现」和「定位」,甚至可以通过故障自愈等手段实现解决,服务开发和 ...
时序数据异常检测做到这种段位,还怕什么告警风暴
时序数据异常检测做到这种段位,还怕什么告警风暴
AIOps,最初的定义是Algorithm IT Operations,是利用运维算法来实现运维的自动化,最终走向无人化运维。随着技术成熟,逐步确定为Artificial Intelligence for IT Operations——智能运维,将人工智能应用于运维领 ...
使用Prometheus和Grafana构建Redis实时监控平台
使用Prometheus和Grafana构建Redis实时监控平台
Redis作为缓存系统,在整个后端体系中是较为重要的一环,需要实时监控运行状态。现在有各种各样的工具都可以对Redis进行监控,例如:redis-stat、RedisLive等,在使用过各种各样的监控工具后,个人感觉redis_exporte ...
一篇文章全面了解监控知识体系
一篇文章全面了解监控知识体系
监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省时省力、效率最高的方案 ...
Netflix是怎样做系统监控的?
Netflix是怎样做系统监控的?
监控系统某个指标超过阈值,触发告警。大半夜里,你被紧急召唤。半睁着眼,你满脸疑惑:“系统真出问题了吗,还是仅仅需要调整下告警?上一次有人调整我们的告警阈值是在什么时候?有没有可能是上游或者下游的服务出 ...
30 个高可用 Prometheus 架构实践中的踩坑集锦
30 个高可用 Prometheus 架构实践中的踩坑集锦
监控是基础设施,目的是为了解决问题,不要只朝着大而全去做,尤其是不必要的指标采集,浪费人力和存储资源(To B商业产品例外)。需要处理的告警才发出来,发出来的告警必须得到处理。简单的架构就是最好的架构,业 ...
助力技术中台数字化转型,探索农行 DevOps 实践之路
助力技术中台数字化转型,探索农行 DevOps 实践之路
DevOps 持续交付通过组合运营和开发团队,促进研发运营一体化融合,缩短开发周期,频繁发布迅速交付,减少出错可能性,提高企业工程效率,降低成本。DevOps 建设工程是助力农业银行数字化转型的重点工作,通过规范建 ...
Prometheus 踩坑集锦
Prometheus 踩坑集锦
监控系统的历史悠久,是一个很成熟的方向,而 Prometheus 作为新生代的开源监控系统,慢慢成为了云原生体系的事实标准,也证明了其设计很受欢迎。本文主要分享在 Prometheus 实践中遇到的一些问题和思考,如果你对 K ...
Prometheus Metrics 设计的最佳实践和应用实例
Prometheus Metrics 设计的最佳实践和应用实例
Prometheus 是一个开源的监控解决方案,部署简单易使用,难点在于如何设计符合特定需求的 Metrics 去全面高效地反映系统实时状态,以助力故障问题的发现与定位。本文即基于最佳实践的 Metrics 设计方法,结合具体的 ...
手把手教你用 Gitlab 和 Jenkins 构建持续集成环境
手把手教你用 Gitlab 和 Jenkins 构建持续集成环境
最近用到持续集成顺便总结在这里,都是用的最新版。搭建过程中还有一个demo,提交代码到 gitlab 自动触发 jenkins 任务,自动编译代码和 docker 镜像并上传。gitlab 国内安装很麻烦,用官方的源装不了,因为在国外, ...
详解数据服务共享发布
详解数据服务共享发布
通过资源目录提供技术元数据、业务元数据、服务元数据视图,使资源更容易发现,提供分区、分节点的体系化资源目录管理,保护数据安全,快速查找数据。通过自动化采集与解析手段获取元数据信息,建立技术、业务、服务 ...
123下一页

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

社区热帖

     

    GMT+8, 2021-1-22 02:12 , Processed in 0.105088 second(s), 16 queries .