作者 | Harper
审核 | gongyouliu
编辑 | gongyouliu
上期给大家讲到了利用神经网络求解分类问题,我们知道人工神经网络最擅长的两件事就是分类与聚类,我们本期要介绍的就是利用神经网络求解聚类问题。
使用监督学习固然很好,但并不适合所有的问题。首先,你并不总是能够获得大量的标记数据。有的时候你可能也不想将你的数据分类为已经存在的类别。也许你会希望神经网络对数据进行聚类,从而识别出你从未想到过的模式。
在这种情况下,无监督学习是更好的选择。通过无监督学习,你可以让神经网络将数据分组。那为了理解有监督学习和无监督学习的区别,想象一下向一个还不会分辨小猫和小狗的小朋友展示它们的区别。你带来200张照片,一半有标签,一半没有标签。这100张贴有标签的照片包括50张狗的照片和50张猫的照片。这100张未贴标签的照片是各种动物园和各种动物的照片。
对于监督的学习来说,你要放置两个盒子:一个标着“小狗", 另一个标着“小猫”。你挑五张小狗的照片和五张小猫的照片,并训练他们如何区分这两类照片。比如说你可能会指出小猫和小狗身上不同的特征。然后你再挑五张小狗的照片和五张小猫的照片,引导学生完成识别并将它们放在正确的盒子中。如果他们犯了错误,你就纠正。最后你将剩下的80张图片打散,让他们去分类,错了就纠正。这样他们就能够分辨出两种动物的区别了。这就是监督学习的工作方式。
那无监督学习就是,你给全班100张动物园和农场动物的照片,你告诉学生们把照片分类,并将相似的照片放在一堆中。如果学生提出问题,你只需告诉他们尽最大努力找到相似的图片,并将它们放在不同的堆中。
通过这种无监督学习的演示,你不知道学生们将如何对图片进行分组。总之,没有错误的答案。学生们可以把斑马和马放在一起,因为它们有相似的形状。也可以将长颈鹿和火烈鸟放在一起,因为它们都有长长的脖子。或者将所有四条腿的、两条腿的、没有腿的分别单独放在一起。也可以按照生活在动物园、平原,或者水里进行归类。也可以按照图片更绿、黄、蓝或红进行归类等。他们可能不知道如何标记这些归类好的照片,只是在寻找相似之处。所以可以看到每种方法都有优点。如果你知道在寻找什么并可以教机器识别要分类的物品和类别之间的关系,那么分类是非常好的方法。聚类是一个获得洞察的更强大的工具,它可以让你以一种 不同的方式看待事物,一种你可能从未考 虑过的方式。
聚类的最大优势之是,没有标记的数据比有标记的数据多得多。找到100万张随机图片要比找到同样多的被标记的图片容易得多。
聚类在许多领域有着广泛的应用,比如说在生物学中,基因模式的聚类可以让我们深入了解不同生物在进化方面的关联。企业可以将聚类应用于市场细分,这样企业就可以更加有效地对不同的消费者进行不同方式的营销。社交网络当中,聚类可以用来识别社交网络中的相似社区,并且介绍有共同兴趣的成员。
搜索引擎也可以使用聚类来更加准确地对搜索引擎结果进行排序。因此,当你试图决定采用哪种方法进行分类或者聚类的时候,首先要知道自己需要解决什么问题,看你的数据是有标签的还是没有标签的,最终决定是使用监督学习进行分类,还是使用无监督学习进行聚类。
| 留言与评论(共有 0 条评论) “” |