当前位置:主页 > AI智能 > 月订单千万元,这家人工智能产业供应商的新玩

AI智能:月订单千万元,这家人工智能产业供应商的新玩
作者:妫恺乐  发布日期:2018-08-30   浏览:144

人工智能,这个词放在今天来说已经变成了一个热门词汇。自 2015 年人工智能贸易化的大浪潮以来,越多越多的企业需要人工智能技巧来赋能于传统业务,其中最范例的就是自动驾驶

人工智能,这个词放在今天来说已经变成了一个热门词汇。自 2015 年人工智能贸易化的大浪潮以来,越多越多的企业需要人工智能技巧来赋能于传统业务,其中最范例的就是自动驾驶、人脸辨认等等。

但是人工智能并没有想象中那么好开发,其算法是一方面,更重要的是所有人工智能都需要一个特定的练习平台,来对其进行练习以及评价。通过不断重复这个循环,人工智能才能得以实现各种各样的功效。而驱动练习平台的,则是数据。

世界经济论坛 2012 年的报告中,数据被称作是世界的新财富,价值堪比石油。麦肯锡咨询报告以为,数据是一种生产资料,大数据是下一个创新、竞争、生产力进步的前沿。这些大数据的生产者,也就因此冠上了“人工智能原料供应商”的名号。

今天的主角正是这么一家供应商,龙猫数据。

月订单千万元,这家人工智能产业供应商的新玩

龙猫数据是一家怎样的公司?

和往常的采访不同,DT 君是在周六的上午来到龙猫数据。根据该企业创始人昝智的说法,龙猫数据采用双周休的工作制度,即单周周六正常上班,双周周末休息。

龙猫数据的业务可以被分为两层,对企业的业务为数据供给服务。顾名思义,该企业是为拥有人工智能练习平台的企业供给练惯用的数据。这项业务一共分为四大类:图片类、视频类、文本类、语音类。也就意味着,现在大多数人工智能相关的企业都能成为其客户。

固然说向企业出售数据是龙猫数据的主要营业手段,但是昝智告诉 DT 君,对于龙猫数据,还有一项业务更为重要,那就是采集数据的过程。

采集数据可以被懂得为发掘石油,石油公司的主营业务是将石油销售给其他企业,可是石油公司的中心并不是怎么销售石油,而是怎么才能以更低廉的价位发掘更好的石油。龙猫数据也是一样的,,该企业在数据发掘方面采用了一种众包平台的方法。

众包平台又分为两个层面:采集和标注。在采集方面,龙猫数据在接到客户递交的任务以后,会向该企业的 APP 分发这些任务,比如照片、录音等等。用户完成任务以后都会得到奖励,并且根据任务难度的不同会奖励数目不等的现金(存于网络账户)。

“我们将用户传上来的这些称为原始素材,”昝智向 DT 君说到,“但是这些素材并不能用来练习,还需要标注以及审核。”所谓标注是指,通过人工的手段对原始素材上的特征点进行施加机器可以懂得的信息素,以此来让人工智能通过这些特征练习。

以龙猫数据的人脸照片素材为例,图上有密密麻麻的点,而每一个点都有其特征含义,如内眼角、外眼角等。众包平台的职员需要把这些特征点在图中标记出来,才算是一份龙猫数据所需要的素材。

然而通凡人脸辨认需要的练习素材,少则 160 个点,多则数百个点,通过人工的手段估计连想要正确且完整地标记一整张图是非常困难的。根据昝智的描述,龙猫数据在众包平台的数据采集阶段采用了一种自研的人工智能预处理技巧,即当用户上传原始素材至龙猫众包平台后,人工智能会直接在后端开始预处理,提前标记好任务所需要的特征点。当素材进进人工标记阶段时,把持职员只需要稍微地挪动一些不公平的点即可完成任务。

这种预处理又分为很多种类。仍以人脸辨认为例,龙猫数据预备了多种特征标注方法,如 186 个点,216 个点等等,这些标注方法比较常见,可以直接套用给大多数人脸辨认练习平台。而另外一些不常见的标注方法,龙猫数据选择和客户企业共同开发预处理方法。昝智以为,客户既然从事这方面的练习,那么他们对这些数据的需求必定有独到之处,所以共同开发才是最公平而且最节省本钱的事情。从龙猫数据现有的预处理技巧来看,该企业专长是计算机视觉相关以及音频相关的预处理技巧,服务于自动驾驶、图像辨认、声音辨认等行业。

当然,凡是众包平台都会遇见这样的标题,把持职员并不是真正意义上的附属于企业,这其中难免鱼龙混杂。尤其是数据采集,这样的环境会给数据清洗环节造成极大的困扰。龙猫数据则对其众包平台职员采用了一种多层次的审查机制。

首先是考核,把持职员需要通过练习题才能“就业上岗”。不过就算是上岗了,把持职员也不能混日子。龙猫数据会在数据标注阶段不定期地发放陷阱题,即龙猫数据已经知道答案,假如把持职员没有正确地像答案一样标注数据,那么他们就会被系统警告,最后会被剥夺把持资格。

AI智能 大数据 物联网 新科技 城市资讯
Copyright © 2012-2018 版权所有  亚洲城娱乐_亚洲城国际娱乐_ca88亚洲城游戏官网 网站首页 | 网站地图1 | 网站地图2