近期,小米展示了全尺寸人形仿生机器人CyberOne。据悉,CyberOne身高177CM、体重52KG,艺名“铁大”,能够感知人类情绪、视觉敏锐、可实现双足运动姿态平衡。同时,这款全尺寸人形仿生机器人能够感知45种人类语意情绪,拥有8米内深度信息精度可达1%。小米集团创始人、董事长兼CEO雷军表示,CyberOne以人工智能为内核,以标准人形为载体,是小米对未来科技生态的一次探索,也是小米多元融合技术体系的新成果。该机器人最让人惊艳的是其45种人类语义情绪感知能力,让机器人不再是冰冷的金属材料拼接,变得心灵有“温度”可感知。
语义情感分析
语义情感分析属于知识挖掘的范畴,包含信息抽取、观点挖掘、标签建设、图谱建设等任务。情感分析又称倾向性分析,或意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。利用情感分析能力,可以针对带有主观描述的自然语言文本,自动判断该文本的情感正负倾向,并给出相应的结果。
主流技术
目前主流技术主要分为两种。一种是基于情感词典的情感分析。是指根据已构建的情感词典,对待分析文本进行文本处理,抽取情感词、计算该文本的情感倾向。最终分类效果,取决于情感词典的完善性。
另外一种是基于机器学习的情感分析。是指选取情感词作为特征词,将文本矩阵化,利用逻辑回归(Logistic Regression),朴素贝叶斯(Naive Bayes),支持向量机(SVM)以及神经网络(Neural Networks)等方法进行分类。最终分类效果,取决于训练文本的选择以及正确的情感标注。
目前有些研究者将二者结合,例如某些领域的文本没有标注,该领域的情感词典也不够完善,而人工标注需要耗费大量成本,数据的采集相对于人工成本小很多时;可以选取部分文本,利用基本情感词典的方法粗略地计算这些文本的情感得分值,选取分值偏高或偏低的文本作为已标注的训练文本,再结合机器学习的方法进行分析。根据语义分析的粒度不同,又分为文档级别、句子级别、对象级别、词汇级别的情感分析。
✦中文人机交互对话语料库✦
语种:中文
数量:2480组
数据内容:人机交互对话
文件格式:TXT
适用领域:自然语言处理
样例:
A: 请问明天北京的天气怎么样?
B: 请稍后,将为您查询。
B: 经查询北京明天的天气多云转晴,最高气温三十五度。
B: 最低气温二十六度,请注意酌情添减衣物。
A: 下周会有雨吗?
B: 请稍后。
B: 经查询下周一会有短时雷阵雨。
A: 好,谢谢。
中文人机交互对话语料库:Magic Data
✦中文教育客服语料库✦
语种:中文
数量:1700组
数据内容:教育领域客服
文件格式:TXT
适用领域:自然语言处理
样例:
A: 您好,请问有什么需要了解的吗?
B: 您好,我想了解一下咱这边有小学数学的课程吗?
A: 有的,请问孩子上几年级呢?
B: 小学五年级。
A: 孩子平时的数学成绩怎么样?在班级里是什么水平?
B: 成绩算是中等偏下。
A: 我们有一对一课程,也有大班课,您想了解哪种呢?
B: 一对一的。
A: 一对一的课程孩子能更好地集中注意力学习,效果会更好一些。
B: 有试听课吗?
A: 有的,周日有试听课,您可以带孩子来听一下,也可以选一下孩子适合的老师。
B: 好的。
A: 那听完试听以后我们再做接下来的安排。
B: 好的,谢谢。
中文教育客服语料库:Magic Data
✦英文医疗客服语料库✦
语种:英语
数量:250组
数据内容:医疗领域客服
文件格式:TXT
适用领域:自然语言处理
样例:
A: Hello, I am [Operator_Name], How can I help you?
B: I want to see a doctor and I feel bad now.
A: What are your symptoms?
B: I have fever for 1 day and I feel tired.
A: What is the highest temperature you had this time?
B: It is about 38.3.
A: What other symptoms do you have?
B: My joints are aching but it gets better than yesterday.
A: I suggest you see an Internal Medicine doctor.
B: Okay. My name is [Customer_Name]. I will be there 4 pm today. Is this time available?
A: Yes, of course. I have arranged this appointment for you.
B: Thanks
A: You are welcome. See you.
英文医疗客服语料库:Magic Data
发展趋势
近年来,NLP领域的SOTA模型基本都是基于预训练的,目前大多情感分析任务都是在预训练模型的基础上进行,综述文章《S. Poria, D. Hazarika, N. Majumder, and R. Mihalcea. Beneath the tip of the iceberg: Current challenges and》 列举了IMDB、SST-2/5、Semeval 数据集在不同方法上的指标,SOTA情感分析模型的结果无一例外都是基于预训练模型。
虽然业界 SOTA 模型在一些粗粒度情感数据集上能达到超过 95% 的准确率,但在细粒度和复杂任务上,目前的效果还远不如人类水平。同时情感分析模型在多个场景的迁移能力较差,需要更多的学者研究多域自适应算法解决这一问题。
对于应用场景方面,随着电商、智能客服、舆论媒体、社交媒体、人形机器人等技术的发展,情感分析在这些方向都能落地。也许,未来有一天,你会发现,这个世界上最懂你的是人形机器人。
| 留言与评论(共有 0 条评论) “” |