第八条:理解"对象同等性"这一概念

2017/7/3 posted in  第二章 对象,消息,运行期

根据“等同性”(equality)来比较对象是一个非常有用的功能。不过,按照==操作符比较出来的结果未必是我们想要的,因为该操作比较的是两个指针本身,而不是其所指的对象。应该使用NSObject协议中声明的“isEqual”:方法来判断两个对象的等同性。一般来说,两个类型不同的对象总是不相等的(unequal)。某些对象提供了特殊的“等同性判定方法”(equality-checking method),如果已经知道两个受测对象都属于同一个类,那么就可以使用这种方法。以下述代码为例:


NSString *foo = @"Badger 123";
NSString *bar = [NSStringstringWithFormat: @fTBadger %i", 123】;
BOOL equalA = (foo == bar); //< equal A - NO
BOOL equalB = [foo isEqual: bar ] ; //< equalB = YES
BOOL equalC = [foo isEqualToString:bar]; //< equalC = YES

上面可以看到==与等同性判断方法之间的差别。NSString类实现了一个自己独有的等同性判断方法,名叫“isEqualToString:”。传递给该方法的对象必须是NSString,否则结果未定义(undefined)。调用该方法比调用“isEqual”方法快,后者还要执行额外的步骤,因为它不知道受测对象的类型(前者指使用NSString所以快些)。

NSObject协议中有两个用于判断等同性的关键方法:


- (BOOL) isEqual: (id) object;
- (NSUInteger) hash;

NSObject类对这两个方法的默认实现是:当且仅当其“指针值"(pointer value)(内存地址)完全相等时,这两个对象才相等。若想在自定义的对象中正确覆写这些方法,就必须先理解其约定
(contract)。如果“isEqual:”方法判定两个对象相等,那么其hash方法也必须返回同一个值。但是,如果两个对象的hash方法返回同一个值,那么“isEqual:”方法未必会认为两者相等。

比如有下面这个类:


@interface EOCPerson : NSObject
@property (nonatomic, copy) NSString *firstName;
@property (nonatomic, copy) NSString *lastName;
@property (nonatomic, assign) NSUInteger age;
@end

我们认为,如果两个EOCPerson的所有字段均相等,那么这两个对象就相等。于是“isEqual:”方法可以写成:


-(BOOL)isEqual:(id)object {
    if (self == object) return YES;
    if ( [self class] != [object class]) return NO;
    EOCPerson ^otherPerson = (EOCPerson*)object;
    if (! [_firstName isEqualToString:otherPerson.firstName))
    return NO;
    if (![_lastName isEqualToString:otherPerson.lastName])
    return NO;
    if (_age != otherPerson.age)
    return NO;
    return YES;
}

首先,直接判断两个指针是否相等。若相等,则其均指向同一对象,所以受测的对象也必定相等。接下来,比较两对象所属的类。若不属于同一个类,则两对象不相等。EOCPerson对象当然不可能与EOCDog对象相等。不过,有时我们可能认为:一个EOCPerson实例可以与其子类(比如EOCSmithPerson)实例相等。在继承体系(inheritance hierarchy)中判断等同属性时,经常遭遇此类问题.所以实现"isEqual:"方法时要考虑到这种情况。最后,检测每个属性是否相等。只要其中有不相等的属性,就判定两对象不等,否则两对象相等。

接下来,我们实现hash方法.回想一下,根据等同性约定:若两对象相等,则其哈希码(hash)也相等,但是两个哈希码相同的对象却未必相等。这是能否正确覆写“isEqual”方法的关键所在。下面这种写法完全可行:


-(NSUInteger)hash {
    return 1337;
}

collection中使用这种对象将产生性能问题,因为collection在检索哈希表(hash table)时,会用对象的哈希码做索引。假如某个collection是用set实现的,那么set可能会根据哈希码把对象分装到不同的数组中。在向set中添加新对象时,要根据其哈希码找到与之相关的那个数组,依次检査其中各个元素,看数组中已有的对象是否和将要添加的新对象相等。如果相等,那就说明要添加的对象已经在set里面了。如果令每个对象都返回相同的哈希码,那么在set中已有1000000个对象的情况下,若是继续向其中添加对象,则需将这1 000000个对象全部扫描一遍。

我们看另一种计算哈希码的方法:


-(NSUInteger)hash {
    NSUInteger firstNameHash = [_firstName hash];
    NSUInteger lastNameHash = [_lastName hash];
    NSUInteger ageHash = _age;
    return firstNameHash ^ lastNameHash ^ ageHash;
}

这种做法既能保持较高效率,又能使生成的哈希码至少位于一定范围之内,而不会过于频繁地重复。当然,此算法生成的哈希码还是会碰撞(collision),不过至少可以保证哈希码有多种可能的取值.编写hash方法时,应该用当前的对象做做实验,以便在减少碰撞频度与降低运算复杂程度之间取舍。

特定类所具有的等同性判定方法

除了刚才提到的NSString之外,NSArrayNSDictionary类也具有特殊的等同性判定方法,前者名为“isEqualToArray:”,后者名为“isEqualToDictionary:”。如果和其相比较的对象不是数组或字典,那么这两个方法会各自抛出异常。由于Objective-C在编译期不做强类型检査(strong type checking),这样容易不小心传入类型错误的对象,因此开发者应该保证所传对象的类型是正确的。

如果我们觉得提供的判断方法不好用,可以自己来写一个,令代码看上
去更美观、更易读,使自己编写的判定方法更容易读懂,而且不用再检査两个受测对象的类型了。

在编写判定方法时,也应一并覆写“isEqual:”方法。后者的常见实现方式为:如果受测的参数与接收该消息的对象都属于同一个类,那么就调用自已编写的判定方法,否则就交由超类来判断。

例如:


- (BOOL)isEqualToPerson:(EOCPerson*)otherPerson {
if (self == object) return YES;
    if (! [_firstName isEqualToString:otherPerson.firstName])
        return NO;
    if (![_lastName isEqualToString:otherPerson.lastName])
        return NO;
    if (_age != otherPerson.age)
        return NO;
    return YES;
}

-(BOOL)isEqual:(id)object {
    if ([self class] == [object class]) {
        return [self isEqualToPerson:(EOCPerson*)object];
    } else {
        return [super isEqual:object】;

等同性判定的执行深度

创建等同性判定方法时,需要决定是根据整个对象来判断等同性,还是仅根据其中几个字段来判断。NSArray的检测方式为先看两个数组所含对象个数是否相同,若相同,则在每个对应位置的两个对象身上调用其“isEqual”方法。如果对应位置上的对象均相等,那么这两个数组就相等,这叫做“深度等同性判定”(deep equality)。不过有时候无须将所有数据
逐个比较,只根据其中部分数据即可判明二者是否等同。

比方说,我们假设EOCPerson类的实例是根据数据库里的数据创建而来,那么其中就可能会含有另外一个属性,此属性是“唯一标识符"(unique identifier),在数据库中用作“主键”


@property NSUInteger identifier;

在这种情况下,我们也许只会根据标识符来判断等同性,尤其是在此属性声明为readonly时更应该如此。因为只要两者标识符相同,就肯定表示同一个对象,因而必然相等。
这样的话,无须逐个比较EOCPerson对象的每条数据,只要标识符相同,就说明这两个对象就是由同一个数据源所创建的,据此我们能够断定,其余数据也必然相同。

容器中可变类的等同性

还有一种情况一定要注意,就是在容器中放入可变类对象的时候。把某个对象放入collection之后,就不应再改变其哈希码了。前面解释过,collection会把各个对象按照其哈希码分装到不同的“箱子数组”中。如果某对象在放入“箱子”之后哈希码又变了,那么其现在所处的这个箱子对它来说就是“错误”的。要想解决这个问题,需要确保哈希码不是根据对象的“可变部分”(mutable portion)计算出来的,或是保证放入collection之后就不再改变对象内容了。之后将在第18条中解释为何要将对象做成“不可变的"(immutable)。

要点:

  • 若想检测对象的等同性,请提供“isEqual:”hash方法。
  • 相同的对象必须具有相同的哈希码,但是两个哈希码相同的对象却未必相同。
  • 不要盲目地逐个检测每条属性,而是应该依照具体需求来制定检测方案。
  • 编写hash方法时,应该使用计算速度快而且哈希码碰撞几率低的箅法。