046、dataclass 好用但有坑：field、__post_init__、可变默认值的教训-创锋一号

046、dataclass 好用但有坑：field、post_init、可变默认值的教训

上周五晚上十一点，我盯着屏幕上一段不到三十行的dataclass代码，头皮发麻。业务逻辑跑出来的结果总是莫名其妙地“串数据”——同一个订单号下，不同用户的备注信息居然混在一起。排查了半小时，最后发现罪魁祸首是一个list默认值。那一刻我恨不得穿越回去，把写这段代码的自己拎起来摇醒。

一个list引发的血案

先看这个“经典错误”：

fromdataclassesimportdataclass@dataclassclassOrder:order_id:stritems:list=[]# 别这样写！这里踩过坑

这段代码看起来人畜无害，但如果你创建两个Order实例：

order1=Order("A001")order2=Order("A002")order1.items.append("苹果")order2.items.append("香蕉")print(order1.items)# 输出 ['苹果', '香蕉'] —— 见鬼了print(order2.items)# 输出 ['苹果', '香蕉']

两个订单的items居然共享了同一个列表。原因很简单：Python的默认参数在函数定义时就被求值，所有没有显式传入items的Order实例，都指向同一个list对象。dataclass只是把这种“经典陷阱”包装得更优雅了，但坑还是那个坑。

field函数：救星还是新坑？

解决可变默认值问题的标准做法是用field函数配合default_factory：

fromdataclassesimportdataclass,fieldfromtypingimportList@dataclassclassOrder:order_id:stritems:List[str]=field(default_factory=list)# 每次调用都新建一个list

这样每个实例都有自己的items列表，问题解决。但field能做的事情远不止于此。

field的参数里有个init，控制这个字段是否出现在__init__的参数中。我见过有人这样用：

@dataclassclassUser:name:strcreated_at:datetime=field(init=False)# 不暴露给外部

然后手动在__post_init__里赋值。这个模式本身没问题，但如果你忘了在__post_init__里赋值，访问created_at就会报AttributeError——因为dataclass不会自动帮你初始化init=False的字段。

还有repr参数，控制字段是否出现在__repr__输出里。敏感信息比如密码哈希值，设成repr=False是个好习惯。但要注意，这不会影响__str__方法，如果你自己重写了__str__，该暴露的还是暴露。

post_init：初始化后的钩子，但别滥用

__post_init__是dataclass提供的一个钩子方法，在__init__执行完毕后自动调用。这个设计很巧妙，适合做字段校验、派生字段计算等。

我常用的场景是字段校验：

@dataclassclassTemperature:celsius:floatdef__post_init__(self):ifself.celsius<-273.15:raiseValueError(f"温度不能低于绝对零度:{self.celsius}")

另一个常见用法是计算派生字段：

@dataclassclassRectangle:width:floatheight:floatarea:float=field(init=False)def__post_init__(self):self.area=self.width*self.height

但这里有个坑：如果你在__post_init__里修改了某个字段的值，而这个字段又参与了其他字段的计算，顺序就很重要。dataclass的字段定义顺序决定了__init__的参数顺序，但__post_init__里没有“顺序保护”，全靠你自己控制。

更隐蔽的问题是继承。如果父类和子类都有__post_init__，子类的__post_init__会覆盖父类的。正确的做法是在子类的__post_init__里显式调用父类的版本：

@dataclassclassBase:x:intdef__post_init__(self):self.x*=2@dataclassclassDerived(Base):y:intdef__post_init__(self):super().__post_init__()# 别忘了这行self.y+=self.x

我见过有人忘了调用super().__post_init__()，结果父类的初始化逻辑完全没执行，排查了半天才发现。

可变默认值的更多教训

除了list，dict、set、自定义类实例都是可变对象，都可能踩坑。但有一种情况容易被忽略：嵌套的dataclass。

@dataclassclassAddress:city:strstreet:str@dataclassclassPerson:name:straddress:Address=Address("北京","长安街")# 这也是可变默认值！

这个Address实例在类定义时只创建一次，所有使用默认address的Person实例都共享同一个Address对象。修改一个人的地址，其他人的也跟着变。

正确的做法还是用default_factory：

@dataclassclassPerson:name:straddress:Address=field(default_factory=lambda:Address("北京","长安街"))

或者更简洁地，如果Address本身是不可变的（比如用frozen=True），那共享就没问题。但大多数情况下，dataclass默认是可变的。

实战中的经验教训

所有可变类型默认值，一律用default_factory。这是铁律，没有例外。哪怕你现在觉得“这个列表肯定不会改”，三个月后的你或者接手你代码的同事，未必这么想。
__post_init__里做校验，但别做太重的逻辑。我见过有人在__post_init__里发HTTP请求、查数据库，结果实例化一个对象慢得像在加载页面。__post_init__应该轻量、快速、无副作用。
继承时小心__post_init__的覆盖问题。如果父类和子类都有初始化后逻辑，记得用super()串联起来。更好的做法是尽量少用继承，用组合代替。
frozen=True不是银弹。把dataclass设为不可变可以避免很多坑，但代价是灵活性降低。如果你需要修改字段，就得用dataclasses.replace()创建新实例，性能开销和代码复杂度都会增加。
slots=True（Python 3.10+）能省内存。如果你的dataclass实例数量很大（比如百万级），加上slots=True可以显著减少内存占用。但要注意，slots会限制一些动态特性，比如不能随意添加新属性。
调试时善用__repr__的自定义。默认的__repr__输出所有字段，对于包含大量数据的字段（比如日志内容、长文本），可以设成repr=False，避免调试输出刷屏。
别在field的default参数里放可变对象。这个错误太常见了，以至于我建议团队在代码审查时，看到field(default=[])直接打回，必须改成field(default_factory=list)。

最后说一句：dataclass是好东西，但它不是万能的。如果你的类逻辑复杂、有大量继承关系、或者需要精细控制初始化过程，老老实实用普通的__init__可能更清晰。工具是为人服务的，别为了用而用。

企业官网建设流程全解析