一、企业容器云网络:为什么是核心痛点?
传统物理网络 / 虚拟化网络面向静态 IP、固定拓扑、稳态业务设计;而容器云具有动态调度、弹性伸缩、秒级启停、东西向流量暴增等特征,对网络提出全新要求:
- 统一平面:Pod 跨节点互通、固定 Service 访问、集群内外无缝连通
- 高性能低延迟:微服务调用密集,网络开销直接影响业务 RT
- 安全隔离:多租户、环境隔离、流量权限、防横向渗透
- 可观测可排障:动态环境下快速定位丢包、延迟、策略失效
- 兼容存量:对接物理网络、负载均衡、防火墙、专线与云资源
在企业落地中,网络选型错误、策略配置不当、连通性设计缺陷,是容器化失败 / 稳定性事故的 Top3 原因。
二、Kubernetes 网络核心模型与标准
K8s 网络遵循三大基本原则,是所有方案的基础:
- Pod-per-IP:每个 Pod 拥有独立 IP,无需端口映射
- 扁平互通:所有 Node 上 Pod 可直接通信,无需 NAT
- Service 稳定访问:通过 ClusterIP/NodePort/LoadBalancer/Ingress 提供固定入口
2.1 核心组件与流量路径
- CNI:容器网络接口,负责 Pod 网络创建、IP 分配、路由配置
- Service:服务发现与负载均衡,kube-proxy 实现规则(iptables/IPVS/eBPF)
- Ingress:七层入口网关,统一 HTTP/HTTPS 路由、证书、限流
- 网络策略:Pod 级流量 ACL,控制进出方向与目标
流量分为两类:
- 东西向:Pod↔Pod、服务间调用(占比 70%+)
- 南北向:集群内外、用户访问、对接第三方系统
三、主流 CNI 插件深度对比与企业选型
CNI 是容器网络的灵魂,企业生产常用Flannel、Calico、Cilium,以下是可直接用于选型的结论:
3.1 Flannel:简单稳定,入门首选
- 模式:VXLAN/host-gw/IPIP,Overlay 为主
- 优点:部署极简、稳定、无学习成本
- 缺点:无网络策略、性能一般、大规模扩展性有限
- 适用:测试 / 小规模集群、无强隔离需求
3.2 Calico:企业标准,均衡之选
- 模式:纯 BGP 路由(Underlay)、IPIP、VXLAN
- 优点:高性能、完整 NetworkPolicy、BGP 对接物理网络、支持 eBPF
- 缺点:配置略复杂,需路由 / ACL 规划
- 适用:中大规模生产、多租户、金融 / 政企
3.3 Cilium:下一代 eBPF 架构,高性能安全
- 模式:eBPF 内核加速,L3-L7 策略、服务网格无感集成
- 优点:超低延迟、L7 策略、可观测强、安全能力强
- 缺点:内核版本要求高、运维门槛高
- 适用:高性能业务、安全合规要求高、云原生新集群
3.4 企业选型一句话建议
- 小规模 / 非核心:Flannel
- 通用生产 / 多租户:Calico(BGP+eBPF)
- 高性能 / 安全合规:Cilium
四、企业容器云网络架构设计(生产可用)
4.1 网络平面划分(安全与高可用基础)
- 管理平面:etcd、apiserver、控制面组件,独立 VLAN / 子网,严格 ACL
- 业务平面:Pod 网络、Service 网络,支持策略隔离
- 存储平面:CSI/Ceph/ 对象存储,低延迟、独立 QoS
- 入口平面:Ingress-nginx/Traefik、LB、WAF,统一流量入口
4.2 高可用设计
- 控制面高可用:3+master、etcd 集群、多可用区
- CNI 高可用:Calico/kube-proxy DaemonSet,节点自愈
- 入口高可用:Ingress 集群 + 云 LB / 硬件 LB,健康检查 + 自动扩容
- 路由高可用:BGP ECMP、等价路由、避免单点
4.3 与物理网络对接
- Underlay 方案:Calico+BGP,Pod 路由直接注入物理网络,性能最优
- Overlay 方案:VXLAN 隔离,对物理网络无侵入,兼容老旧网络
- 出口规划:统一 NAT 网关、固定出口 IP、对接防火墙 / 安全组
五、企业级安全:零信任与网络策略落地
容器环境东西向流量开放,默认互通 = 巨大风险,必须落地最小权限。
5.1 网络策略最佳实践
- 原则:默认拒绝,显式允许
- 层级:Namespace 级、应用级、环境级(dev/test/prod)
- 示例:仅允许同应用访问数据库、禁止跨租户通信、限制出口公网
5.2 Calico eBPF 策略加速
eBPF 绕过 iptables 长链,策略匹配延迟降低 80%+,支持:
- 内核级策略执行
- 连接跟踪与流量可视化
- 防 DDoS、异常流量检测
5.3 零信任能力
- Service mTLS(Istio+Calico)
- 工作负载身份、SPIFFE/SPIRE
- OPA 策略引擎,合规与权限统一管控
六、可观测与排障:生产必备能力
动态环境下,看不见 = 排不动,必须构建全链路可观测。
6.1 监控体系
- 指标:Pod 带宽、PPS、延迟、丢包、策略命中、连接数
- 工具:Prometheus+Grafana、Calico Enterprise/Cilium Dashboard
- 告警:端口耗尽、策略拒绝、异常流量、节点网络异常
6.2 排障工具链
kubectl get/describe networkpolicycalicoctl/ciliumCLItcpdump/wireshark、ip route/neigh- eBPF 工具:bpftool、cilium monitor
6.3 常见问题快速定位
- Pod 不通:路由、CNI、策略、节点防火墙
- Service 不通:kube-proxy 规则、Endpoints、DNS
- 延迟高:Overlay 封装、节点带宽、连接数满
- 策略失效:顺序、命名空间选择器、方向错误
七、企业落地踩坑总结(避坑指南)
- IP 规划不足:Pod/Service/Node 网段冲突,提前规划无重叠 CIDR
- 策略过严 / 过松:上线前灰度、先允许后收紧、审计日志留存
- kube-proxy 模式选错:大规模集群用 IPVS/eBPF,避免 iptables 性能瓶颈
- 忽略 MTU:VXLAN 默认 1450,与物理网络不一致导致丢包
- DNS 性能:CoreDNS 水平扩容、缓存优化、避免解析超时
- 出口混乱:多出口导致 IP 不固定,影响第三方风控 / 白名单
- 升级风险:CNI 版本兼容、eBPF 依赖内核、滚动更新不中断
八、总结与演进方向
企业容器云网络不是简单部署 CNI,而是架构、安全、运维、合规的一体化工程。核心结论:
- 优先选择Calico/BGP作为通用生产方案,平衡性能与安全
- 坚持默认拒绝 + 最小权限,落地零信任
- 网络可观测前置,监控与排障一体化
- 面向未来:eBPF、服务网格、多云统一网络、云边协同
容器网络是云原生的 “毛细血管”,只有稳定、安全、高效,才能支撑企业业务真正云原生化、弹性化、智能化。