服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

ChatGPT背后的打工人,月薪3000

日期: 来源:深燃收集编辑:徐倩影
新周刊(new-weekly)原创
作者 | 徐倩影


2023年第一季度,国内多家互联网企业相继推出类ChatGPT产品。

复旦大学邱锡鹏教授团队发布国内第一个对话式大型语言模型MOSS,邀公众参与内测;百度推出类ChatGPT产品“文心一言”;秘塔科技自研LLM大模型“对话写作猫”已正式上线……且不说产品的体验感如何,它们均提醒了中国AI企业必须加速推进。

当一众互联网大佬纷纷表示要在ChatGPT风口寻求新的机会时,作为人工智能下游的数据标注行业从业者,杨科琪明显感受到公司业务量出现了短期增长。但这种增长量是否会持续?他无法判断,至少到目前为止,国内做AI的公司有很多,但能够盈利的却少之又少。

早在2017年,伴随无人驾驶与阿尔法围棋(AlphaGo)带来的AI浪潮,数据标注行业逐渐进入大众视野。同年,国务院发布《新一代人工智能发展规划》,明确新一代人工智能发展三步走战略目标,人工智能上升为国家战略层面。

2019年,即人工智能训练师被纳入国家职业分类目录的前一年,杨科琪和朋友在中国西北的一个小县城开启了AI数据服务生意。杨科琪说:“实际上,职业培训与做业务是两回事,在数据标注公司,聪明、用功的人学习一周就能上手。”在他看来,数据标注是一份门槛低且又有些枯燥的工作,但这并不影响其成为时下中国部分县城流行的职业之一。

2020年,杨科琪离开了初创公司,进入一家专业AI数据服务提供商企业。在他看来,数据标注行业必定要走向专业化与职业化的发展方向。

以下为杨科琪的自述。


是安逸还是无趣?

1000个工位,1000台电脑,目前有800位人工智能训练师,他们每天坐在电脑前画框、放大画面、调整框线、提交审核……这里有空调、有网络,每个人有不到2平方米的办公区域。

目前,我们最大的业务是无人驾驶项目,标注员根据系统给出的方框,用鼠标细化一辆车的大体轮廓,然后将图片放至最大,细心调整车辆边缘的框线,再勾选屏幕左上角的车辆属性。

所谓人工智能训练师就是让汽车在行驶过程中自动识别马路。如果只是将视频传给计算机,计算机是无法识别的,需要大量的标注员将视频中的道路框出,再交给计算机,计算机多次接收此类信息后,才能逐渐学会在视频和照片中识别出道路。

今年3月,德勤中国发布的《人工智能基础数据服务白皮书》显示,人工智能基础数据服务下游应用占比中自动驾驶占到52%。随着自动驾驶AI算法的升级迭代及模型训练数据量的指数级增长,技术迭代带来数据需求“大爆发”。相比其他项目,自动驾驶业务的持续性更好,而且服务周期也比较长。

人工智能的三大基石是数据、算力与算法。我们数过羊、数过木头,还数过铁块,涉及的行业有医学类、安防类、现在的自动驾驶等,还接过看手相的一个项目,甲方要求我们给手掌上的各种手纹进行标注,很多员工都开始研究手相,挺好玩的。一般而言,视觉类的内容要做到机器准确识别,至少需要10万张图片。对于AI产品,数量越多、质量越高的数据,往往越能够训练出更“聪明”的模型。

标注员一天的工作内容就是画框线,根据项目的难易程度,一个框3—8分钱,工作日8小时要画2000个框以上,人均月收入在3000—4000元。

以我们公司为例,人员流动率在30%—40%,因为工作比较简单,每天8小时坐在电脑前,做着重复性工作,对于有的人而言是一份还算安逸的工作,但对另一些人而言就显得非常枯燥和无趣。

一个AI产品的诞生一般需要经历数据准备、模型训练与优化、模型管理、推理应用等4个模块,在国内已经形成了非常成熟的全产业链。目前,我所在的公司在做的就是数据准备,包括数据生产、数据清洗、数据标注三大方面。像我们这种布局在县城的数据标注公司,一般主要负责数据清洗和数据标注。清除模糊的图片、噪声太多的语音、错误的文本内容后,我们再进行画框线和数据标注,根据甲方的不同需求进行操作。


技能等级认定中的初级工

根据《人工智能训练师国家职业技能标准(2021年版)》的定义,人工智能训练师是使用智能训练软件,在人工智能产品使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员。

在我看来,虽然标注员也被称为人工智能训练师,但如果按照去年发布的《关于开展新职业技能等级认定工作的通知》的内容,标注行业内的人工智能训练师在技能等级认定中应该属于初级工,在其之上还有4个更高的职业技能等级。

其实,拿证和做业务真是两回事。考取职业证书,按照职业教育的要求需要上满 60 个课时,课程中会系统学习人工智能的概念、未来的发展方向,以及相对完整的知识构架逻辑。但是在标注行业,在数据标注公司,聪明、用功的人学习一周就能上手,只要会使用标注工具就能胜任。

标注行业作为劳动密集型产业,运作模式主要有两种。一种是专业AI数据服务提供商自己雇人自己做;另一种是他们接到业务后发包出去,使用更具性价比的人员或公司。我所在的公司也属于后者,“层层发包”在标注行业比较常见。

数据标注发展初期,就是由“众包”模式而兴起,当时有很多众包平台,需求方项目要求有大量兼职人员接单,和目前的美团模式差不多。当年,我们的初创公司也是利用信息差,从数据标注平台接单,在市场上找更便宜的人力资源完成任务,但随着数据标注从野蛮生长阶段进入规范化发展阶段,市场上的兼职人员正在减少。越来越多的兼职业务正在被像我们这样的县城标注公司替代。

2019年,我刚刚创业时,知道数据标注的人不多,这行属于刚刚兴起。现在,这行的入门门槛变高了,参与的人也越来越多,市场压价现象很普遍,与刚入行时相比,价格下降了30%左右,我个人觉得数据标注市场已经有点“红海”了。

目前,大部分互联网企业都在自建基地,比如百度、阿里巴巴、京东等互联网大厂在全国都建立了基地,从而获得政策扶持、租金减免等条件。


人工智能的下一站是县城

人工智能训练师流行于县城?我觉得很正常。目前,国内标注行业的价格战愈演愈烈,在质量、效率不断提高的情况下,各大公司拼的无疑就是价格。随着行业的发展,甲方需要不断寻求价格更低的生产力区域,所以各大AI数据服务企业转战县城非常正常。

在县城办公,房租、人力成本相对较低,同时互联网企业确实可以解决一部分人的就业和收入问题。目前,百度拥有行业内最大的自建标注团队,在山东济南、山西临汾、重庆奉节、四川达州、甘肃酒泉、江西新余等10个地区有自建标注基地。

除此之外,政府补贴也是相关企业选择县城的主要原因。2023年1月,贵阳市人民政府网发布的《贵阳鼓励企业吸纳就业政策》中提到,贵阳市符合条件的小微企业、民营经济组织和社会组织吸纳高校毕业生就业的,给予800元/人的一次性吸纳就业补贴及一定额度的创业担保贷款。

数据标注作为劳动密集型产业,当企业更多地选在三四线城市落地,当地政府看重的则是产业化的基地建成后,带动当地就业、促进当地经济发展。智研咨询发布的《2022—2028年中国数据标注与审核行业投资策略探讨及市场规模预测报告》中提到,随着人工智能成为国家发展战略,其势头锐不可当,预计2028年我国数据标注与审核行业市场规模将达262.74亿元。

不久前,Meta发布了史上首个图像分割基础模型——SAM(Segment Anything Model)。有人认为,这代表着计算机视觉领域的GPT-3时刻已经到来。有人说这一模型会替代大量的标注员,我个人认为在数据处理的精度方面,人类无法被替代,至少目前不会,毕竟对于AI产品而言,数据越精准,模型才会越精准。

ChatGPT在社交媒体上引起了巨大的话题度后,国内多家互联网企业相继推出类ChatGPT产品。对我们而言,短期内AI企业对数据标注的需求量还会增加,毕竟数据标注在整个前期产品开发的过程中时间占比可能在全周期的20%—30%之间,目前这一块的数据确实需要大量的人去做。但是,随着平台标注自动化和预识别的发展,未来一部分标注员可能会被淘汰。

未来,数据标注这行一定会向着规范化和职业化发展,因为需求方的类型和要求会增多,也会涉及各个领域的专业性方面。比如医疗,如果没有医学常识很难做好标注;金融数据也是如此,看不懂财报,就没办法做标注。

*题图来源于视觉中国。应受访者要求,文中杨科琪为化名。
你看好数据标注行业吗?
*欢迎留下你的观点。
*原创文章转载、进读者获取一手资讯和每日福利,请扫码添加“深燃小助手”

相关阅读

  • 淄博火了,锦州急了

  • 半熟财经(Banshu-Caijing)原创作者 | 李莹 朱烜知编辑 | 余乐这个“五一”小长假,全国最火的城市无疑是淄博。这座传统的工业城市在短短两个月时间里凭借烧烤火出圈,一跃成为全
  • 中信建投|IP系列研究专题

  • ‍重要提示:通过本订阅号发布的观点和信息仅供中信建投证券股份有限公司(下称“中信建投”)客户中符合《证券期货投资者适当性管理办法》规定的机构类专业投资者参考。因本订阅
  • 当一天“人体修理工”,是什么体验?

  • ▲新京报我们视频出品(ID:wevideo)如果能有神奇的一天,你想不想体验另一种人生?互联网售前工程师胖达频繁出差导致腰肌劳损,体验过76个城市的推拿服务。这次他来到了北京中医药大
  • 江苏滨海:举办“数字检察青年说”主题演说会

  • 为传承和弘扬“五四”精神,深化检察大数据战略实施,培育和激发干警的数字检察思维,引导干警更新观念、开拓视野,推动数字检察工作破难题、开新局。近日,江苏省滨海县检察院举办“
  • 参数与非参数检验:理解差异并正确使用

  • 来源:Deephub Imba本文约1700字,建议阅读5分钟本文我们将探讨参数与非参数检验之间的区别,提供示例以更好地理解它们的用例,并总结关键要点。
    数据科学是一个快速发展的领域,它在
  • 逆转好戏!张之臻再次上演

  • 澎湃新闻记者 胡杰属于张之臻的破纪录之旅还在延续。2日凌晨,2023年ATP1000马德里大师赛男单第三轮,中国球员张之臻在与11号种子诺里的对决中再度上演逆转好戏,最终用时2小时09
  • 青海省社会救助核对工作提档升级更便民

  • 4月25日,记者从青海省民政厅了解到,青海省围绕推动全省社会救助核对工作提档升级、全面发展,在构建综合格局、信息比对范围、核对业务拓展、核对工作时效、简化佐证资料共5个方
  • 债券和ABS项目招标信息(0429)

  • ,点击上方蓝字关注我前言本合集每周更新债券主承销商、ABS相关主体(主承销商、计划管理人等)招标信息,且以Excel形式统计并分享至知识星球,如有需求,欢迎加入知识星球下载。01主承
  • 聊几个暴利基因的市场

  • 直播的时候有几个人问我如何看待chatgpt,说实话,我对gpt的看待目前是保留观望态度!如果是从做星球社群的角度,chatgpt今年养活了一大堆人。因为我的浅薄,我不敢贸然否认其市场价

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四
  • 美国对华2000亿关税清单,到底影响有多大?

  • 1 今天A股大跌,上证最大跌幅超过2%。直接导火索是美国证实计划对华2000亿美元产品加征25%关税。 听起来,2000亿美元数目巨大,我们来算笔账。 2000亿美元,按现在人民币汇率

最新文章

  • 千亿PD-1药物市场再添新军

  • 近日,奥赛康发布公告称ASKG915获得NMPA临床试验批准,拟用于晚期恶性肿瘤的治疗。早于去年12月ASKG915已获得FDA批准开展临床研究。ASKG915是全球首个进入临床阶段的PD-1抗体/I
  • ChatGPT背后的打工人,月薪3000

  • 新周刊(new-weekly)原创作者 | 徐倩影2023年第一季度,国内多家互联网企业相继推出类ChatGPT产品。复旦大学邱锡鹏教授团队发布国内第一个对话式大型语言模型MOSS,邀公众参与内测
  • 淄博火了,锦州急了

  • 半熟财经(Banshu-Caijing)原创作者 | 李莹 朱烜知编辑 | 余乐这个“五一”小长假,全国最火的城市无疑是淄博。这座传统的工业城市在短短两个月时间里凭借烧烤火出圈,一跃成为全
  • 耗材集采来了,寻找“水分洼地”,扩围无禁区

  • 2023年耗材集采走向新的维度,一品一策之下尽是革新。0119类耗材集采,这些企业参加近日,河北省医用药品器械集中采购中心发布《关于开展19种集中带量采购医用耗材报价工作的通知
  • 国家药监局:10种处方药转为非处方药

  • 据4月28日国家药监局发布通告,地氯雷他定分散片、氯雷他定颗粒、盐酸氨溴索口腔崩解片、萘普生钠片由处方药转换为非处方药。据人民日报健康客户端统计,今年以来,经国家药品监