人工智能首页 > AI资讯 > 正文

人工智能的进化,需要大量数据来“喂养”

2019-09-28 阅读888次

  人工智能的进化,需要大量数据来“喂养”,这催生出一个全新的产业,像唐顿一样的标注员越来越多,一个庞大的系统正在形成。

  一位来自北邮人工智能研究院的研究员周洲告诉燃财经,一个好的模型数据量基本都是上百万级别的,通过用户自发产生的数据,才是最贴合实际业务的好数据。

人工智能的进化,需要大量数据来“喂养”

  “机器学习,你教他什么,他才能学会什么。以目前的技术,脱离大数据学习的强人工智能模型还是很遥远的。”周洲说。

  他解释了AI的训练过程:“首先,AI训练需要一个模型,这个模型需要通过一定量的基础标注数据进行训练,获得一个预期的训练结果,比如对预测天气的语句识别率达到60%或更高。这时候投入使用环境会产生大量的用户数据,这些数据再经过甲方脱敏处理——去掉姓名地址等能透露用户身份的信息,再交由人工进行二次标注。

  这就来到了大量廉价标注员标注的环节。通过一些标准,把质量高的音频筛选出来,因为引入一些冷门的数据反而会降低模型的表现。通过这些数据进一步调整模型,使模型能够更加适合自己的业务场景,这样就构成了一次迭代,然后不断循环。”

  具体到语音交互产品,周洲补充,如果一个音箱恰好在南方地区销售比较好,那么他们就可以通过数据调整,对南方口音有更好的识别率。

  曾做过语音交互产品的创业者告诉燃财经,目前对智能语音产品的需求是,它能听懂我说的话并反馈给我想要的东西,而中华文化博大精深,不同地域又有不同表达,加上生活和书面语言还不一样,这些都需要交代在系统里。

  AI的生长需要优质数据喂养,而另一边,不知情的用户也开始反击。


随意打赏