背景
故障注入
故障注入技术最初是在航空航天领域中开发的,用于模拟和测试飞机、导弹等复杂系统的可靠性。后来,这项技术逐渐被应用到其他领域,包括计算机软件、汽车、医疗设备等。
随着互联网和软件系统的快速发展,复杂度和规模不断扩大。因此,系统中的故障和异常在所难免。为了确保系统在遇到故障时能够保持稳定运行并尽快恢复,开发人员和运维团队需要提前预测和处理潜在的故障。故障注入慢慢地在计算机软件中得到应用。
故障注入的重要性在于它可以帮助开发人员更好地理解系统的行为,并确定哪些部分可能存在缺陷。通过模拟各种可能的故障情况,开发人员可以评估系统在不同条件下的响应能力,并将这些信息用于改进软件设计和实现。
故障注入的功能
? 使开发和测试人员方便地进行可靠性测试,发现潜在的问题并优化系统设计,进而提升系统的健壮性。
? 帮助验证系统的异常和故障处理机制是否有效,确保系统在遇到故障时能够正确地执行故障处理策略。
? 服务降级是在系统发生故障时,暂时关闭部分功能以确保整体的可用性。故障注入可用于评估服务降级策略,通过模拟故障场景检验服务降级的实际表现。
服务网格
服务网格是一种架构模式,用于处理分布式系统中的服务间通信和服务治理问题。服务网格通常由一组网络代理和服务间通信协议组成,用于管理和控制服务之间的通信。服务网格可以提供诸如服务发现、负载均衡、安全认证、流量控制、故障恢复等功能,以帮助开发人员和运维人员管理分布式系统的复杂性和可靠性。
Flomesh 服务网格
Flomesh 服务网格使用可编程代理 Pipy[1] 为核心提供东西、南北向的流量管理和丰富的服务治理能力。通过基于 L7 的流量管理能力,突破计算环境间的网络隔离,建立一个虚拟的平面网络,使不同计算环境中应用可以互相通信,实现覆盖多集群的“大网格”。
故障注入与服务网格
服务网格中的代理对服务的流量进行拦截,可以实现流量的控制。拦截到服务流量时,可以通过注入故障或者异常来测试服务的容错性和健壮性。比如可以通过服务网格来模拟服务的延迟、错误响应等等。
当我们使用传统的故障注入时,通常需要在应用程序中嵌入特定的代码或者 SDK 来实现对应用程序行为的修改和控制,比如 Chaos Monkey[2]。而由于服务网格的网络代理与应用本身的天然解耦合,可以实现无侵入的故障注入。这种无侵入的故障注入不仅可以减少对应用程序的影响,还可以提高故障注入的灵活性和可靠性。
今天就为大家来介绍如何使用 Flomesh 服务网格的故障注入功能。
Flomesh 服务网格的故障注入
Flomesh 服务网格秉持着简单、易用的设计原则,提供满足用户的最小功能集。故障注入功能并未包含在其中,但通过灵活的 插件扩展功能[3] 可以轻松地为服务网格扩展新的功能,这个在之前的文章 使用插件扩展服务网格 中也有过详细介绍。
这下面的演示中,我们将使用 故障注入插件[4] 实现对目标服务的故障注入。首先我们看一下可注入的故障类型:
? 延迟响应:在服务调用时,为一定比例的响应人为地加入的延迟,模拟目标服务的不稳定来测试服务的容错能力、优化负载均衡策略等。
? 终止响应:模拟服务响应异常终止的情况,从而测试系统的容错性和健壮性。比如验证重试机制、降级能力等等。
功能配置
?
config
故障类型及配置?
httpStatus
:终止响应时的响应状态码,比如400
、501
、503
?
percentage.value
:终止的百分比,0.5
表示对50%
的响应会被终止?
fixedDelay
:设置延迟的时长,1s
表示为响应假如 1 秒钟的延迟?
percentage.value
:延迟的百分比,0.5
表示对50%
的响应注入延迟?
delay
延迟?
abort
终止?
plugin:
表示这个配置是插件http-fault-injection
的配置?
destinationRefs
: 表示配置生效的负载。比如命名空间pipy
下的 Servicepipy-ok
kind: PluginConfig
apiVersion: plugin.flomesh.io/v1alpha1
metadata:
name: http-fault-injection-config
namespace: pipy
spec:
config:
delay:
percentage:
value: 0.5
fixedDelay: 1s
abort:
percentage:
value: 0.5
httpStatus: 400
plugin: http-fault-injection
destinationRefs:
- kind: Service
name: pipy-ok
namespace: pipy
演示
创建集群
export INSTALL_K3S_VERSION=v1.23.8+k3s2
curl -sfL https://get.k3s.io | sh -s - --disable traefik --disable servicelb --write-kubeconfig-mode 644 --write-kubeconfig ~/.kube/config
安装服务网格
下载 CLI。
system=$(uname -s | tr [:upper:] [:lower:])
arch=$(dpkg --print-architecture)
release=v1.3.3
curl -L https://github.com/flomesh-io/osm-edge/releases/download/${release}/osm-edge-${release}-${system}-${arch}.tar.gz | tar -vxzf -
./${system}-${arch}/osm version
cp ./${system}-${arch}/osm /usr/local/bin/
安装服务网格。
osm install
部署示例应用
kubectl create namespace curl
osm namespace add curl
kubectl apply -n curl -f https://raw.githubusercontent.com/flomesh-io/osm-edge-docs/release-v1.3/manifests/samples/plugins/curl.yaml
kubectl create namespace pipy
osm namespace add pipy
kubectl apply -n pipy -f https://raw.githubusercontent.com/flomesh-io/osm-edge-docs/release-v1.3/manifests/samples/plugins/pipy-ok.pipy.yaml
# Wait for pods to be up and ready
sleep 2
kubectl wait --for=condition=ready pod -n curl -l app=curl --timeout=180s
kubectl wait --for=condition=ready pod -n pipy -l app=pipy-ok -l version=v1 --timeout=180s
kubectl wait --for=condition=ready pod -n pipy -l app=pipy-ok -l version=v2 --timeout=180s
验证服务访问。
curl_client="$(kubectl get pod -n curl -l app=curl -o jsonpath='{.items[0].metadata.name}')"
kubectl exec ${curl_client} -n curl -c curl -- curl -ksi http://pipy-ok.pipy:8080 ; echo "";
你将会看到如下的响应,多次请求可以发现 v1 和 v2 版本的服务轮流响应。
HTTP/1.1 200 OK
content-length: 20
connection: keep-alive
Hi, I am PIPY-OK v1!
启用插件特性
默认情况下,服务网格是没有开启插件特性的。可以通过下面的命令开启:
kubectl patch meshconfig osm-mesh-config -n osm-system -p '{"spec":{"featureFlags":{"enablePluginPolicy":true}}}' --type=merge
故障注入插件
插件的应用包含了两个部分:
? 声明插件:也就是创建插件的过程。插件声明后,才可以被其他资源引用。
? 配置插件链:服务治理的功能分布于流量处理的各个阶段,比如 4 层的处理、7 层的路由、负载均衡等等。插件链则是对插件进行编排,指定其工作的阶段以及作用的资源。
声明插件
执行下面的声明插件。插件是使用 PipyJS[5] 开发的,对故障注入插件感兴趣的同学可以访问 Github 浏览 源码[6]。
kubectl apply -f https://raw.githubusercontent.com/flomesh-io/osm-edge-docs/release-v1.3/manifests/samples/plugins/fault-injection.yaml
配置插件链
插件链 http-fault-injection-chain
:
?
metadata.name
:插件链资源名称http-fault-injection-chain
?
spec.chains
?
name
:所处的插件链名称,4 个插件链之一,这里是inbound-http
也就是出站流量的 HTTP 协议处理阶段。?
plugins
:要插入到插件链的插件列表,这里将http-fault-injection
插入到插件链中。?
spec.selectors
:插件链作用的目标,使用的是 Kubernetes 标签选择器[7] 方案。?
podSelector
:pod 选择器,选择标签app=pipy-ok
的 pod。?
namespaceSelector
:命名空间选择器,选择命名空间被网格纳管的命名空间,即openservicemesh.io/monitored-by=osm
kubectl apply -f - <<EOF
kind: PluginChain
apiVersion: plugin.flomesh.io/v1alpha1
metadata:
name: http-fault-injection-chain
namespace: pipy
spec:
chains:
- name: inbound-http
plugins:
- http-fault-injection
selectors:
podSelector:
matchLabels:
app: pipy-ok
matchExpressions:
- key: app
operator: In
values: ["pipy-ok"]
namespaceSelector:
matchExpressions:
- key: openservicemesh.io/monitored-by
operator: In
values: ["osm"]
EOF
此时,我们执行前面命令进行验证,可以发现服务扔可正常访问。这是因为还缺少故障注入的配置。
配置注入故障
注入延迟
这里我们配置为 50%
的响应加上 2s
的延迟。
kubectl apply -n pipy -f - <<EOF
kind: PluginConfig
apiVersion: plugin.flomesh.io/v1alpha1
metadata:
name: http-fault-injection-config
namespace: pipy
spec:
config:
delay:
percentage:
value: 0.5
fixedDelay: 2s
plugin: http-fault-injection
destinationRefs:
- kind: Service
name: pipy-ok
namespace: pipy
EOF
为了方便看到效果请求前后我们打印下当前的时间。多次请求后可以发现一半的请求响应时间超过 5s。
date; kubectl exec ${curl_client} -n curl -c curl -- curl -ksi http://pipy-ok.pipy:8080 ; echo ""; date
Mon Apr 3 11:21:58 UTC 2023
HTTP/1.1 200 OK
content-length: 20
connection: keep-alive
Hi, I am PIPY-OK v1!
Mon Apr 3 11:22:00 UTC 2023
终结响应
接下来我们修改插件配置,去掉 delay
的配置,为 abort
添加配置:50% 的情况下返回 500
的响应。
kubectl apply -n pipy -f - <<EOF
kind: PluginConfig
apiVersion: plugin.flomesh.io/v1alpha1
metadata:
name: http-fault-injection-config
namespace: pipy
spec:
config:
abort:
percentage:
value: 0.5
httpStatus: 500
plugin: http-fault-injection
destinationRefs:
- kind: Service
name: pipy-ok
namespace: pipy
EOF
经过验证,50% 的响应会返回状态码 500
。
HTTP/1.1 500 Internal Server Error
content-length: 0
connection: keep-alive
总结
故障注入技术作为一种重要的测试方法,在软件工程中已经得到广泛的应用。随着云计算和微服务架构的普及,故障注入在分布式系统和服务网格中的应用也越来越受到重视。结合服务网格技术,故障注入可以做到更加的自动化和智能化,良好兼容更多的应用场景。
通过扩展故障注入功能,我们再一次体验了可扩展服务网络的灵活性。功能可扩展的服务网格通过更强的可定制性、更好更灵活的扩展性,可以满足用户多元的需求、复杂的场景。
引用链接
[1]
Pipy: https://github.com/flomesh-io/pipy[2]
Chaos Monkey: https://github.com/Netflix/chaosmonkey[3]
插件扩展功能: https://osm-edge-docs.flomesh.io/docs/guides/operating/plugins/[4]
故障注入插件: https://raw.githubusercontent.com/flomesh-io/osm-edge-docs/release-v1.3/manifests/samples/plugins/fault-injection.yaml[5]
PipyJS: https://flomesh.io/pipy/docs/en/reference/pjs[6]
源码: https://raw.githubusercontent.com/flomesh-io/osm-edge-docs/release-v1.3/manifests/samples/plugins/fault-injection.yaml[7]
Kubernetes 标签选择器: https://kubernetes.io/docs/concepts/overview/working-with-objects/labels/