数据标注员,困在大模型里

数据标注员,困在大模型里

2023-09-26 10:38Newseeders 合作伙伴
人工智能的进步离不开数据标注,但是很少有标注员会觉得,正是自己的劳动创造了AI。

在一家互联网大厂做数据标注的小颜,时常在公司感到一种隔绝。

小颜的工位,跟产品经理、程序员们挨在一起,他们能享受相同的福利:同样的工牌、苹果电脑;随时可以去健身房,或去太空舱睡一觉。

但小颜能察觉到,作为数据标注员的她和其他同事,分属于“两个世界”。

尽管大家是一个团队,但每天的早会,没人会喊上标注员,小颜只能偷偷摸摸在门外看。有一回,有人推来一车台灯,是团队正在做的AI产品样机,程序员们围了上去,很兴奋,拿在手里把玩。标注员们则坐在工位忙自己的事,毫无波澜。“他们不知道那个产品,就是靠标注的数据做出来的。”

入职时,小颜所在的公司正在开发一款教育类AI产品,需要标注大量数据以训练AI。公司买来堆积如山的中小学习题册,小颜的工作是拍下每一道题,然后在电脑上对这些题目拉框,做标注。

同样是为AI工作,程序员清楚地意识到自己的工作价值,享受着算法不断进步带来的快感,但几乎没有标注员会觉得,正是自己的劳动创造了AI。

人工智能的进步离不开数据标注。近几年自动驾驶的发展,带动了数据标注的市场。据德勤的报告显示,2022年自动驾驶领域的标注需求占整个AI下游应用的38%,预计到2027年,比例将上涨到52%。

今年大模型兴起,给数据标注行业再添一把火,大量基于大模型训练场景的订单朝数据标注公司飞去,看上去,数据标注这个枯燥的生意,再次注入活力。

一些技术公司走得更前列,正在尝试使用AI自动合成数据,供AI训练。合成数据是基于少量真实数据,用AI无限生成、无需标注的数据,而不再依赖人工标注。在自动驾驶领域,合成数据可以覆盖一些极端路况,比如行人突然闯入马路等。

在他们的畅想中,今后合成数据将取代人工标注。没有技术、只靠人力的标注公司将被逐步淘汰。一项数据显示,国外用于人工智能的基础数据中,已有70%是合成数据,这条路正在被验证。

对数量庞大的数据标注员来说,上述内容并不是好消息。然而36氪接触的一些标注员,还不清楚ChatGPT到底是什么,他们的反应像是*次听说这个名词。

小颜说,标注员是一个随时可以被切掉的尾巴。*的悬念是,这一刀何时彻底落下。

训练机器的标注员们,觉得自己更像机器

小河的专业是英语系,大四那年在一家大厂实习。*天上班,办公室在一栋写字楼里,宽敞、干净,完全符合她对互联网公司的想象。没多久她意识到,面试所了解的工作内容——“整理、分类公司语音数据”,其实就是数据标注。

后来小河承认,如果知道那是给AI打工的起始,她会立即走人。

组里有6个实习生,都是名校外语系的同学。一个女组长每天分派任务。有时是一堆英语音标,小河的任务是区分出英音和美音;有时是一份Excel,点开,满眼都是数据,往下拉,足足有一万多条。

“感觉像爬一座山。”小河说。

做过最多的“项目”,是中学生的口语标注。标注员习惯把工作说成项目,一个项目接着一个项目。小河一天要听200条带浓重口音的录音,每条两分钟。听到一般疑问句,打1分;听到特殊疑问句,打2分;都没听到就是0分。为了防止泄密,只能用办公室的有线耳机,小河听得耳朵酸胀,“不由自主的烦躁”。

她经常听到录音出现脏话。有的小孩口语没讲几句,就开始飙国骂。还有一次做地图导航的项目,有人不由分说,在录音里谩骂。“我不知道为什么有人会有那么大的怒气。”

小河说,你不能太当回事,只能给这条录音打个标“无意义”,然后翻篇,继续听下一条。

“像个机器一样”,几乎每个标注员都会这样形容自己。标注不费脑子,一位山东的标注员说,做过最困难的项目是指纹标注。她拿到一堆不知道是谁的指纹图(有些还很模糊),需要沿着指纹的边缘一点点拉框。“那天回家后,闭眼都是指纹。”

许多项目要求标注员严格保密,但标注员也不关心项目用途是什么。上班期间,标注员被要求交出手机,放在墙上的挂袋里。只有接到电话时,才允许他们取回手机。

多数标注员经历过从生疏到熟练,从新鲜到乏味的过程。项目的前期是最有趣的,那时标注规则还不完善,他们经常碰到争议地方,就会互相讨论甚至争论,气氛很热闹。到了中后期,规则差不多定型,就只剩下重复的、机械的劳动,人就会陷入无意义感。

一位标注员说,这是一份“没有头脑的工作”。

上海大学教授贾文娟做过数据标注的田野调查,她认为数据标注不是脑力劳动,也不是体力劳动,而是认知劳动,“人出售的是自己的认知”。黑色幽默的地方是,我们想让机器变得更像人,同时却把人变得像机器。换句话说,抛开人的常识,像机器人那样思考。

而一旦标注员开始思考“我为什么要做这个”,就意味着他离辞职不远了。

郑委是一家数据标注公司的老板,他直言,留不住人。公司*的光景,也不到20人。新员工经常只能坚持半个月,不少人*天来上班,第二天就跑了。他只好不停降低招人要求,到最后,他感到“不是我在选人,而是人家在选我”。

他不知道怎么挽留那些要走的人,“你留在这儿会越来越好,这种话其实我自己都不太相信。”郑委告诉36氪。员工流失最终压垮了公司,只剩下两名标注员的时候,他决心解散团队。没过多久,ChatGPT掀起了新一轮AI浪潮。

大模型兴起,对数据标注本是利好,然而也加剧了标注团队的内卷。

提起接活,小代说,现在市场上80-90%的标注项目,单价被压得非常低,“因为中间的转包商太多了”,“都想赚差价,不想真的干活”。他在众包平台做过两年标注员,今年创业,组建自己的标注团队。

数据标注的利润不高。以自动驾驶的2D拉框来说,大公司的派单价格是一毛一个,接活的标注团队是8分一个。“现在降到5、6分。”小代说。他算了一笔账,如果低于8分,他只能亏本。

△自动驾驶标注;图源:appen官网

为了生存,小代大部分时间都在找项目, 混迹于各种平台、贴吧。项目真真假假,不靠谱的居多,小代吃过亏,有一个项目的钱,等了8个月还没到账。

后来,他先当兼职标注员,试标、结账没问题,才会让团队接活。有回听说平台半夜3点会放一批项目,他提前定闹钟去抢单。

人员流失、单价压低、回款不稳定,像肿瘤一样,拖垮了这行业里的多数小公司。

没有一个标注员不嫌弃这份工作,他们挣不到钱,更看不到晋升空间和发展机会,陷入漫长的沮丧和失落。

就在写这篇稿子的过程中,36氪接触的标注员大多都离职了。一个女孩说,她一共做了两个月,到手工资,只有不到三千块。

内卷的标注员:本科率100%

过去,数据标注的门槛较低。在山东、山西、河南、贵州等地,许多数据标注公司招募了大量廉价劳动力。最常见的包括宝妈、残疾人、职校学生,只要掌握电脑的基本操作,就能进入这个行业。

来到大模型时代,一场关于数据标注的洗牌和淘汰,正在候选人中悄然进行。

研究人员发现,训练数据的质量对模型性能有非常大的影响。比起数据量,拥有更高的数据质量,模型的改善效果就更明显。为了把控数据质量,一些AI公司组建了自己的标注团队,*步就是提高入行门槛。

最明显的,标注员的学历开始卷起来。

今年四月,一家头部大模型厂商建立了数据标注基地,招募的*批标注员,本科率达到100%。公司负责人解释,大模型数据涉及的知识面广,评判标准复杂,非常考验标注师的语言理解能力和逻辑推理能力。

王刚从大学毕业,回老家找工作时,偶然刷到这个数据标注基地的招聘。于是他参加了面试,顺利通过。基地给他发来一份长达30万字的培训材料,只有通过培训考试,才能正式上岗。

标注员每天都在做题。新人一天40道题,熟练工则是70-80道。后台系统给每个人发放题目,大多数是真实用户和大模型的对话记录。用户的问题囊括四海,甚至千奇百怪:这三款手机哪个更好?鸡蛋好吃还是扭蛋好吃?成功人士的标准是什么?林黛玉为什么要打白骨精?

大模型会有好多个回答,而小王的工作就是阅读每一个回答,挑出错误,并按照质量逐一打分,5分是满分,1分*,而3分以下的答案,还需要划分错误类型。答非所问,直接给*分,要是碰到敏感问题,则不打分,判为“其他”。

排序、打分、评估,这些略显复杂的标注环节,正是所谓的RLHF(Reinforcement Learning from Human Feedbach,即从人类反馈中强化学习),目的是为了让大模型与人类价值观、思维方式不断对齐,更加可用。OpenAI训练ChatGPT的过程中采用了RLHF,取得了显著的效果。

和过去的数据标注相比,大模型的标注规则更加主观。一位算法工程师在面试标注员时,会问对方这样的问题:“如果你是企业领导,面对孙悟空、猪八戒、唐僧、沙僧这四类员工,你会更倾向于录用谁?”

没有标准答案,他说。这类问题是为了考察标注员有没有逻辑思维能力。

行业对人才的需求变得迫切。一家名叫恺望数据的初创公司,正在与高校合作,培训大批高校学生标注员。CEO于旭说,公司去年打造了“恺望数据学院”,已培训50所学校,超过1500名学生从事数据标注。

当小王给大模型的回答打分时,他经常需要做一些事实核查,工作量全凭运气。有一回碰到一个题目:宝马3系和奔驰C系哪个比较好?大模型分别罗列了两款车的40个参数,每个参数都需要小王查验。那道题他足足花了半小时。

做标注有一段时间,小王发现他打的分很少超过3分,“AI的回复还没有到能让我觉得很满意或者很出彩的程度”。他记得有道题是“蓝牙耳机坏了,是去看牙医还是看耳机厂商”,显然是钓鱼问题,但AI的回答让他眼前一亮,“它说是去修理,而不是去医院”。

小王对这份工作感到满意。他每月的底薪是1800元,全勤奖200元,房补200元,算上绩效,一个月可以拿到4000元。他说,在当地这个收入算中上水平。他还拉上了自己的发小,两人坐在相邻的工位。

与小王同期培训的大学生大约20多人,没两天就跑得差不多,只剩两三人。

但我们不必为公司担心,这里永远不缺大学生。一个CTO向36氪吐露了真相:你去看看现在大学生的就业状况嘛。

最想淘汰人工标注的,不是AI

必须承认,关于数据标注的报道有很多,人们达成的共识包括,这份工作是“互联网的流水线”,很难长期做下去,以及人工标注最终会被AI取代。

过去一个月,我们花了大量时间和算法工程师、AI公司交流。虽然没有刷新上述共识,但能隐隐感到,最想淘汰人工的或许不是AI。在AI真正动手之前,那些掌握*进技术的人已经举起镰刀。

在技术世界,数据的重要性不言而喻。算法工程师小段说,如果一个AI业务没有标注过的数据,他们写出再好的算法,也会是一盘散沙。标注数据越多越好。薅尽标注员羊毛,是一件稳赚不赔的买卖。

有时,标注员们花四五天做完的数据,算法一小时就能跑完。小段供职于一家互联网大厂,部门预算充足,养了几名全职标注员。“我们尽量不想让标注员闲着。”他说,“领导会看周报,如果觉得任务不多,就让我们多投放一些任务给他们。”

一位标注员告诉36氪,虽然共事的程序员嘴上会说,每个工种都有存在的价值,但仍会不经意间流露出一丝轻视。“当然了,这群人本身就是技术至上。”标注员自我安慰道。

技术的进步速度远超所有人预期,来到大模型时代,数据质量将直接影响到模型的性能。弄明白这一点,一些AI公司毫不犹豫地告别了数据标注外包商。

“拿回来的数据质量太差,基本没法用。”一家AI公司的CTO说。他们的核心业务是做AI生成视频,为此自研了一款模型,能够无限量生成电商产品视频。为了训练模型,他们特意招了50名大学生做数据标注。

如果涉及医疗、金融、计算机等专业领域,大学生也很难被信任。国内一家互联网大厂除了自建标注基地,还会花钱请专业人士来标注。尽管专业人士在标注行业的占比仍然很小,但作用相当明显。比如,一个关于社保断缴的问题,交给熟悉政府文件的专业人士,最让人放心。

一个公开的秘密是,早在ChatGPT走红前,OpenAI就组建十几位博士生来“打标”。八年时间,OpenAI光是训练模型就花了10亿美元。

今年五月,美国一家数据公司开始招聘特定领域的专业人士。这些高级标注员的报酬不再是白菜价,比如法律数据的标注时薪是45美元,诗歌则是25美元。

不过,做标注的无论是蓝领还是白领,在一些AI公司的眼里,都是想要节省的成本。和这些公司交流时,36氪频繁听到一个词:降本增效。

最常见的办法是,利用AI进行自动化标注。一家数据公司表示,自动化标注的比例已经达到70%以上。

而算法工程师小李和同事正在做更加前沿的尝试:只要以一小部分的真实数据为蓝本,通过生成式AI技术和一系列算法,就能合成高质量的、可供训练的数据。换句话说,完全不需要人了。

“我们合成数据的售价比人工标注的要便宜一点。”小李说。

合成数据目前主要用在自动驾驶和机器人领域。小李说,当ChatGPT出来后,他便意识到标注数据可能走不通了,最后都要用合成数据。OpenAI创始人Sam Altman也有类似的看法:“合成数据是解决大模型数据短缺的最有效办法”。

初创公司光轮智能主要做自动驾驶和机器人领域的合成数据。“自动化标注的终局就是没有标注,”CEO谢晨说,“大部分标注公司没有看到那么长远。”

谢晨向36氪提到,团队有名同事,此前在一家主机厂做自动化标注,攻克了更复杂的4D-BEV标注。这是业界*的标注工具,在3D空间中以时间为第四个纬度进行标注,提升自动驾驶系统性能。今年他决心放弃自动化标注,主动找到谢晨,最后入职了光轮智能。

这名同事就是小李。他表示,生成式AI的出现一度让他非常焦虑,但看到合成数据后,他重新兴奋起来。

他的工作目标之一就是“取代(标注)这行业的人”,但又不好意思把话说绝,“很可能就在短期内,可能一两年。”

最后,让我们回到标注员的世界。这里几乎感受不到由技术飞快发展而产生的焦虑。这里只有琐碎、重复的烦躁,还有一些天真的幻想。

大学生小王仍然在老家训练大模型。我们最近一次聊天,他说,这份工作是一个进入人工智能领域的机会。公司为他们设定的晋升途径是,标注员到质检员、培训师,再到主管,最后是项目经理。小王的目标是当上主管,然后跳槽去一个离AI更近的岗位。具体是什么,他还不知道。

与有雄心的小王相比,多数标注员对AI没有什么兴趣。有个女孩给出解释,“不太关注高科技。”她做了两年标注,已经是资深员工,不久前晋升为质检员。对她来说,标注工作简单、稳定,“没有精神内耗”,偶尔还能摸鱼。AI搅动科技圈的这一年,她的日子平静如水。

为数不多的变化是,公司提供的标注工具中多了一个对话机器人。公司告诉大家,在标注时碰到不懂的问题,直接向机器人提问就行,节省时间。效率提升很快,她告诉36氪,之前拉框,一天最多做完五六百个,现在能做七百多。

“多亏了那个机器人。”她说。还没人告诉她,那叫ChatGPT。

「应受访者要求,文中部分人物为化名。36氪作者邓咏仪对文章亦有贡献。」

*本文作者林炜鑫,由新芽NewSeed合作伙伴36氪授权发布,转载请联系原出处。如内容、图片有任何版权问题,请联系新芽NewSeed处理。