如何计算服务器可用性指标(SAI)?_服务器

参照此表，您可以估算出服务器在繁忙时段的平均扩展系数，并且还可以为 Server_Transinfo_Range 设定合理的数值，以此得到一个比较理想的服务器可用性指标。以下内容节选自 Domino Administrator 651 帮助文档。集群中的每个服务器都定期判断自己的工作负载，判断将基于服务器最近处理请求的响应时间作出。系统用 0 到 100 之间的数字表示工作负载，其中 0 表示服务器负载过重;100 表示服务器负载很轻。这个数值称为服务器的可用性指标。随响应时间增加，服务器可用性指标减小。服务器的可用性指标约等于仍然可用的总服务器容量百分比。例如，如果服务器的可用性指标为 65，则仍然有 65% 的服务器容量可用。尽管企业中的服务器功率和资源可能不同，但每台服务器上的服务器可用性指标都代表同一件事 -- 仍然可用的服务器容量。服务器可用性指标基于扩展系数生成，用于指示服务器上的当前工作负载。扩展系数是由特定类型事件的响应时间与服务器曾经完成此类事务的最短时间之比决定的。例如，如果服务器当前执行“打开数据库”事务的平均时间为 12 毫秒，而服务器曾经执行“打开数据库”事务的最短时间为 3 毫秒，则“打开数据库”事务的扩展系数为 4（当前时间 12 毫秒除以最快时间 3 毫秒）。换言之，扩展系数决定完成当前事务所花的时间是在最佳条件下所花时间的多少倍。IBM(R) Domino(TM) 将每种事务的最短时间存储在内存和 LOADMONNCF 文件中，服务器每次启动时都会读取该时间。服务器关机时，Domino 会用最新信息更新 LOADMONNCF 文件。为确定当前的扩展系数，Domino 会在指定的时间段内跟踪最常用的几种 Domino 事务类型。缺省情况下，Domino 会在 5 个时间段内跟踪这些事务，每段时间为 15 秒。然后，Domino 就可以确定完成每种事务平均要花的时间，并用该时间除以它曾经完成每种同类事务所花的最短时间。这样就可确定每种事件的扩展系数。为确定整个服务器的扩展系数，Domino 会取所有类型事务的扩展系数的平均值，并对最常用的事务类型给予较大的加权数。当服务器繁忙时，对服务器添加更多负载会显著地影响服务器的性能和可用性。因此，向繁忙的服务器中添加负载也比向不繁忙的服务器中添加负载要更快地增大扩展系数。因为各个服务器的速度、容量和处理能力各不相同，能够处理的工作负载也不尽相同。所以，两个不同服务器的扩展系数相同并不一定意味着二者能够承担相当的工作负载。例如，对于一个在空闲状态下执行事务都需要花费很长时间的小型服务器来说，扩展系数 40 可能表示用户需要等待若干秒才能得到响应。而对于一个处理速度非常快的超大型服务器来说，扩展系数 400 可能表示用户只需等待不到一秒的时间就能得到响应。注意：下表中的值是根据扩展系数 64 生成的，该值表示服务器处于满负载状态。扩展系数可用性指标 1<nozeros> 100<nozeros> 2<nozeros> 83<nozeros> 4<nozeros> 67<nozeros> 8<nozeros> 50<nozeros> 16<nozeros> 33<nozeros> 32<nozeros> 17<nozeros> 64<nozeros> 0<nozeros> 注意：扩展系数和可用性指标仅用于度量服务器响应时间，该时间通常只是客户机经历的响应时间的一小部分。例如，客户机和服务器之间的网络响应时间通常占客户机经历的响应时间的很大部分。更改表示服务器处于满负载状态的扩展系数值要有效利用 Domino 工作负载平衡，必须调整扩展系数与可用性指标之间的关系，以便服务器在达到预期的故障转移工作负载时进行故障转移。通过指定表示服务器处于满负载状态的扩展系数值，可以实现此目的。Domino 中的缺省值为 64。当扩展系数达到该值时，便可将服务器视为负载已满，可用性指标降为 0（零）。如果服务器的功能特别强大，处理速度特别快，则可提高表示服务器处于满负载状态的扩展系数值。对于一些处理速度极快的服务器来说，该值可以提高到几百或更高。如果服务器的处理速度特别慢，则可降低该值。要更改表示满负载服务器的扩展系数值，请将下面的设置添加到 NOTESINI 文件，然后重新启动服务器。SERVER_TRANSINFO_RANGE= n 其中，值 n 表示服务器处于满负载状态的扩展系数值等于 2 的 n 次幂。 n 的缺省值为 6，这说明扩展系数值为 64，因为 2 的 6 次幂为 64;如果将 SERVER_TRANSINFO_RANGE 设为 7，则满负载时的扩展系数值为 128;如果将 SERVER_TRANSINFO_RANGE 设为 8，则该值为 256。要确定 SERVER_TRANSINFO_RANGE 的最优值，请执行下列 *** 作：1 在服务器负载过重的期间内，监控服务器的扩展系数。可以使用控制台命令“show stat serverexpansionfactor”来执行此任务。另外，还可以在这些期间内监控性能统计信息。记录有关此类期间的足够多的扩展系数值，以便确定使用哪个扩展系数值来表示服务器处于满负载状态。 2 为 SERVER_TRANSINFO_RANGE 确定一个值，以 2 为底数, 该值为指数计算而得的值，即为在步骤 1 中选择的扩展系数值。如果更改了表示服务器处于满负载状态的扩展系数值，扩展系数与可用性指标之间的关系就会发生变化。下表列出了当 SERVER_TRANSINFO_RANGE 值为 8 时的一些扩展系数以及由之转换而来的可用性指标。因为 2 的 8 次幂为 256，所以本例中的最大扩展系数为 256。扩展系数可用性指标1<nozeros>100<nozeros>2<nozeros>88<nozeros>4<nozeros>75<nozeros>8<nozeros>63<nozeros>16<nozeros>50<nozeros>32<nozeros>38<nozeros>64<nozeros>25<nozeros>128<nozeros>13<nozeros>256<nozeros>0<nozeros>更改用于计算扩展系数的数据量尽管不是必需的 *** 作，但还是可以使用下列 NOTESINI 设置来更改 Domino 收集用以配置扩展系数的数据量。要更改 Domino 使用的数据收集时间段数，请使用 NOTESINI 的 Server_Transinfo_Max=x 设置，其中 x 是您希望 Domino 使用的收集时段数量。要更改每个数据收集时间段的时间长度，请使用 NOTESINI 的 Server_Transinfo_Update_Interval=x 设置，其中 x 是每个时间段的长度（秒）。

1、一个50人的公司所需的服务器的配制标准，还要看你公司网络准备构建的形式，如果是采用“服务器/工作站”的形式架构，对服务器的要求并不太高，如果是采取“服务器/终端”的形式运行，则对服务器的要求更高些。
如果采取服务器/工作站的形式，每台客户端工作站都有较好配制的CPU，有硬盘，则服务器配制可以是：
CPU：1颗至强32G（2M二级缓存），内存：1G/ECC
硬盘：160G，建议选用DELL服务器，这种档次的服务器，从网上订构，dell送货上门，只要8000元人民币。
如果采取服务器/终端的形式运行，客户机上无盘，都使用服务器上的资源，建议使用双至强CPU，2G的内存，320G的硬盘。这要10000多元。
2、选择一台服务器要参考的性能指标有：运行的稳定性和可靠性、运行速度、内存大小、硬盘存储量。
3、中小企业选用服务器的特点和选构原则：适用性，必须能满足公司需要。可靠性，服务器运行必须稳定可靠，否则会影响公司运转。前瞻性，必须考虑到形势的发展，未来5年设置不会被淘汰，且能适应企业发展的需要，但不能为了追求时髦购买过高档次的服务器，这会导致浪费，再过几年，会有性价比更好的服务器出产。经济性，在考虑性价比时，选择最优最惠产品。

你问的是智搜系统默认设置五要素是什么吗？五要素包括：性能；可用性；扩展性；伸缩性；安全性。
性能其实可以分为用户眼里的性能和工程师眼里的性能，用户眼里的性能是广义上的性能：从点击到响应的所有时间，一切影响因素的综合；而工程师关注的性能主要是比较狭义，单指网站架构性能这一块，暂时忽略了例如网络波动、设备性能等因素。即网站的可用（可正常提供服务）时间，一般要求达到四个9以上（9999%）。不同于伸缩性关注集群的服务器增加的影响，扩展性关注的是网站架构在支持新业务开发方面的性能指标，即网站是否可以快速响应需求变化及时修改/增加新业务。
伸缩性——指可以通过不断向集群中加入服务器的手段来缓解用户访问压力和数据增长需求，具体分为以下两个指标：是否可以用多台服务器构建集群；是否容易向集群中添加新的服务器；加入后是否可以提供和原来的服务器无差别的服务；集群中可容纳的服务器数量是否有限制。根据不同功能的集群，会有不同的原则添加服务器。其主要标准在于在网站增加新的业务产品时，是否可以实现对现有产品透明无影响，只需要很少改动甚至不需要改动既有业务功能就可以上线新产品。
安全性一般体现为：可抵御外界的恶意攻击和恶意访问；保护用户数据安全。具体表现为针对现存和潜在的各种攻击和窃密手段，是否有可靠的应对策略。

集群（Cluster）是由两台或多台节点机（服务器）构成的一种松散耦合的计算节点集合，为用户提

供网络服务或应用程序(包括数据库、Web服务和文件服务等)的单一客户视图，同时提供接近容错机的故

障恢复能力。集群系统一般通过两台或多台节点服务器系统通过相应的硬件及软件互连，每个群集节点都

是运行其自己进程的独立服务器。这些进程可以彼此通信，对网络客户机来说就像是形成了一个单一系统，协同起来向用户提供应用程序、系统资源和数据。除了作为单一系统提供服务，集群系统还具有恢复服务

器级故障的能力。集群系统还可通过在集群中继续增加服务器的方式，从内部增加服务器的处理能力，并

通过系统级的冗余提供固有的可靠性和可用性。

二、集群的分类：

1、高性能计算科学集群：

以解决复杂的科学计算问题为目的的IA集群系统。是并行计算的基础，它可以不使用专门的由十至

上万个独立处理器组成的并行超级计算机，而是采用通过高速连接来链接的一组1/2/4CPU的IA服务器，并且在公共消息传递层上进行通信以运行并行应用程序。这样的计算集群，其处理能力与真正超级并行

机相等，并且具有优良的性价比。

2、负载均衡集群：

负载均衡集群为企业需求提供更实用的系统。该系统使各节点的负载流量可以在服务器集群中尽可

能平均合理地分摊处理。该负载需要均衡计算的应用程序处理端口负载或网络流量负载。这样的系统非

常适合于运行同一组应用程序的大量用户。每个节点都可以处理一部分负载，并且可以在节点之间动态

分配负载，以实现平衡。对于网络流量也如此。通常，网络服务器应用程序接受了大量入网流量，无法

迅速处理，这就需要将流量发送给在其它节点。负载均衡算法还可以根据每个节点不同的可用资源或网

络的特殊环境来进行优化。

负载(load)是linux机器的一个重要指标，直观了反应了机器当前的状态。
来看下负载的定义是怎样的：
In UNIX computing, the system load is a measure of the amount of computational work that a computer system performs The load average represents the average system load over a period of time It conventionally appears in the form of three numbers which represent the system load during the last one-, five-, and fifteen-minute periods（wikipedia）
Unix refers to this as the run-queue length: the sum of the number of processes that are currently running plus the number that are waiting (queued) to run

Free memory is the amount of memory which is currently not used for anything This number should be small, because memory which is not used is simply wasted
Available memory is the amount of memory which is available for allocation to a new process or to existing processes。

df
查看磁盘使用情况，通常看磁盘大小和inode使用率：
磁盘性能分析
r/s 和 w/s：每秒磁盘读写的次数。这两个值相加就是 tps。
rkB/s 和 wkB/s：每秒磁盘读写的数据量。
avgrq-sz：平均每次读写磁盘扇区的大小。
avgqu-sze：平均 IO 队列长度。队列长度越短越好。
await：平均每次磁盘读写的等待时间（ms）。
svctm：平均每次磁盘读写的服务时间（ms）。
%util：一秒钟有百分之多少的时间用于磁盘读写 *** 作。

1）%util：衡量 IO 的繁忙程度
这个值越大，说明产生的 IO 请求较多，IO 压力较大，
我们可以结合 %idle 参数来看，如果 %idle < 70% 就说明 IO 比较繁忙了。
2）await：衡量 IO 的响应速度
通俗理解，await 就像我们去医院看病排队等待的时间，
这个值和医生的服务速度（svctm）和你前面排队的人数（avgqu-size）有关。
如果 svctm 和 await 接近，说明磁盘 IO 响应时间较快，排队较少，
如果 await 远大于 svctm，说明此时队列太长，响应较慢，
这时可以考虑换性能更好的磁盘。

带宽：表示链路的最大传输速率，单位通常为 b/s （比特 / 秒）
延时：表示从网络请求发出后，一直到收到远端响应，所需要的时间延迟
在不同场景中，这一指标可能会有不同含义
比如，它可以表示，建立连接需要的时间（比如 TCP握手延时）
或一个数据包往返所需的时间（比如 RTT）
PPS：是 Packet Per Second（包 / 秒）的缩写，表示以网络包为单位的传输速率�丢包率：丢包百分比
重传率：重新传输的网络包比例
连接数状态：TCP 各状态连接数量
TIME_WAIT状态存在有两个原因。
第一个是防止来自一个连接的延迟段被误解为后续连接的一部分。
连接处于2MSL等待状态时到达的所有流量都将被丢弃。
该TIME_WAIT状态的第二个原因是
可靠地实现TCP的全双工连接终止。
如果最后的ACK被丢弃，那么端点2将重新发送最后的FIN

单机最大连接数理论限制

系统用一个4四元组来唯一标识一个TCP连接： �{local ip, local port, remote ip, remote port}。 �
因此本地端口个数最大只有65536，端口0有特殊含义，不能使用，
这样可用端口最多只有65535，

所以在全部作为client端的情况下，
最大tcp连接数为65535，这些连接可以连到不同的server ip

1、系统最大打开文件数
sysfsfilesmax //系统最大文件句柄数
/proc/sys/fs/file-max

2、单进程最大文件描述符
echo 2000000 > /proc/sys/fs/nr_open
sysctl -w fsnr_open=100000000

3、某个用户下的某个进程的文件打开数
ulimit –n [num]
ulimit -n unlimited

/etc/security/limitsconf
worker soft nofile 102400
worker hard nofile 409600

linux内核通过进程标识值(process identification value)-PID来标示进程，
PID是一个数，类型位pid_t, 实际上就是int类型

查看
可以使用cat /proc/sys/kernel/pid_max来查看系统中可创建的进程数实际值
修改
1、ulimit -u 65535
2、我们在Linux还需要设置内核参数kernelpid_maxsysctl -w kernelpid_max=65535

百度词条里的解释是：负载均衡，英文叫Load Balance，意思就是将请求或者数据分摊到多个 *** 作单元上进行执行，共同完成工作任务。
它的目的就通过调度集群，达到最佳化资源使用，最大化吞吐率，最小化响应时间，避免单点过载的问题。

负载均衡可以根据网络协议的层数进行分类，我们这里以ISO模型为准，从下到上分为：
物理层，数据链路层，网络层，传输层，会话层，表示层，应用层。
当客户端发起请求，会经过层层的封装，发给服务器，服务器收到请求后经过层层的解析，获取到对应的内容。

二层负债均衡是基于数据链路层的负债均衡，即让负债均衡服务器和业务服务器绑定同一个虚拟IP（即VIP），客户端直接通过这个VIP进行请求，那么如何区分相同IP下的不同机器呢？没错，通过MAC物理地址，每台机器的MAC物理地址都不一样，当负载均衡服务器接收到请求之后，通过改写>

欢迎分享，转载请注明来源：内存溢出

原文地址: http://www.outofmemory.cn/zz/13372996.html

如何计算服务器可用性指标(SAI)?

发表评论

评论列表（0条）