虚拟机常见问题

虚拟机常见问题,第1张

NSX虚拟网络故障分析经验分享

今天的问题是关于NSX虚拟网络常见故障的分析,疑难问题准确定位的经验分享。严格来说不属于终端产品用户测量的范畴,但是终端产品用户测量和软件定义的互联网已经有了越来越紧密的联系。越来越多的客户刚刚开始使用NSX构建EUC产品的独特网络空,比如为VDI的云计算服务器池分配独特的网络环境,参考之前的博客,使用NSX构建独特的子网。

最近,边肖还建立了一套基于NSX虚拟网络的EUC试验自然环境。根据应用NSX呈现的逻辑网络的工作能力,可以自由设置自己的互联网、数据共享、互联网微分段、分布式系统服务器防火墙。没有必要给企业的网络工程师带来不便。这真的是我的网站。也就是底盘本身就是主人。自然,有问题就要自己拿下,不能给网管带来不便。在这里,我也和大家分享一下我最近遇到的一个网络问题。整个查题过程还是挺有意思的。期待给大家展示一些处理虚拟网络问题的思路,可以举一反三。

首先,我的实验自然环境的网络结构类似下图。

图1

实验自然环境由五台网络服务器组成,包括三个集群,每个集群都有自己的与EUC相关的商品部件。

由于是实验性的自然环境,所以有两个集群管理集群,而网络集群只包含一个网络服务器。在自然工作环境中,一个集群必须包括至少两台网络服务器,以确保高可用性。

图二

来说说我遇到的问题吧。有一天中午,我正在自己的实验自然环境中正常工作。例如,我可以从位于内部网192.168.100.0/24上的vm1访问外部网192.168.99.0/24。晚上来的时候发现都在内网192.168.100。

突然有事情发生,就会有神怪。第一反应是南北方向网络通道上的路由器很可能被破坏。因为这个自然环境中的其他朋友已经做了其他实验,所以让其他朋友先停止在这个自然环境中的实际 *** 作,排除其他因素的影响。然后我整理了一下分布式逻辑路由器及其边缘网关上的各种设置,没有发现异常的地方。

没什么复杂的。我只是按照http://www.virtualationblog.com/nsx-step-by-step-part-16-configuring-static-route/,在相同的硬件配置上搭建了一个类似的网络空。在这个新的网络中空

使用ping、tracert等专用工具,发现内网的每台虚拟机都可以浏览内网网关ip192.168.100.1,或者过渡互联网上的下行端口号10.10.2,但是不能浏览过渡互联网上的上行和下行端口号10.10.10.1。这种情况还是让我觉得南北向的路由器有问题。我试图准确定位路由器,它在那里断开,但仍然没有什么复杂的。

花了半天时间,我又试着看了一下东方的网络通讯。我发现一个内网192.168.100.0/24上的虚拟机有的可以互相通信,有的不能,这让我怀疑NSX搭建的虚拟网络可能有问题。比如VXLAN隧道端点的公共IP被别人占用,检查后很有可能清除这个。刚开始看官网https://pubs.VMware.com/nsx-62/topic/com.VMware.ICbase/pdf/nsx_62_troubleshooting.pdf的解题指南,很大的一个。没有彻底完成,没有按照里面的流程准确定位。想了想这个文本文档,还是挺有效果的。按照里面的方法,逐个检查各个系统。自下而上,你应该能找到常见故障的原因。

转了一圈,刚开始看从西到东的交流。我想从一些虚拟机可以互相通信,一些虚拟机不能互相通信的情况中找到一些规律。结果发现了一个规律:位于管理集群和工作负载集群的内网192.168.100.0/24上的虚拟机可以相互通信,但都不能与位于网络集群的内网192.168.100.0/24上的虚拟机通信。如图1所示,VM1、VM3、VM4和VM5可以相互通信,但不能与vm2通信。由于南北方向的所有节点组件都位于vm2所属的物理服务器上,似乎所有位于ESXi网络服务器192.168.99.12上的虚拟机都成了互联网的孤岛。从这种情况来看,起初,有效地怀疑设备的互联网端口有问题。


我的实验自然环境中的每台网络服务器都有四个网络端口,其中第一个网络端口是ESXi的vmkernel端口。毫无疑问这个网口没坏,不然我根本没法浏览基于vCenter的vm2。

图3


NSX的虚拟网络全部基于vSphere的分布式系统网络交换机。分布式系统网络交换机可以为加入其中的每个物理服务器分配不同的物理网络端口,作为上行和下行套接字。虚拟网络192.168.100.0/24应用第二物理网络端口NIC2作为Vm2所属的物理服务器上的上行和下行套接字。


图4

合理怀疑之后,还得有客观事实的证实。Luke和同学讨论了一个反方向验证的方法:配备vm2所属的物理服务器上ESXi管理的物理网口。默认配置为NIC1,网络端口依次更改为NIC2、NIC3和NIC4。然后,观察vCenter中ESXi服务器的连接状态。如果物理服务器显示信息在vCenter中丢失,说明物理网口有问题。

图5

经过一些确认工作,确认网络服务器上的三个网络端口NIC2、NIC3和NIC4都有问题。三个网口的硬件配置都有问题,奇怪的事情都要发生在我身上。看看能不能买到XXX。但不得不承认,vmware的手机软件还是可靠的,一个网络服务器上的硬件配置坏了,遍布其他网络服务器的虚拟网络还是正常工作的。

剩下的工作很容易。我拿起电话让IT技术工程师拆换网口。难题解决后,我就又开始在我的地盘瞎折腾了。

期待分析、检查、处理常见故障的全过程思考,能对大家有所帮助。

创建者:SamZhao,解决方案的业务经理。他在软件开发、测试、项目风险管理、客户项目实施、技术营销等方面从事IT工作十五年,已经颁发了七项专利和一本由他联合编写的书。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://www.outofmemory.cn/zz/777670.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-03
下一篇 2022-05-03

发表评论

登录后才能评论

评论列表(0条)

保存