信息匹配题怎么做?

钱宁昌钱宁昌最佳答案最佳答案

本人,通信工程专业,从事过信号处理、图像处理、人工智能等相关工作,现在是一名机器学习算法工程师。 信息匹配问题可以包含很多种问题。比如一个文本中的句子和另一个文本中的句子相似,就叫做文字匹配;两个向量空间中向量的相似度计算,就叫做文档匹配;图片中两个人像的匹配,就叫做图像匹配等等。

我这里主要介绍文本匹配的问题以及解决方法。 文本匹配又可以分为:单词级别匹配、句法语法匹配、语义匹配等几种。其中,句法语法匹配和语义匹配又统称为语法语义匹配。 这里我以我写论文过程中遇到的一道题为例进行说明。这道题来源于UIR(Unified Information Retrieval)会议2016的文章《Character-level Convolutional Neural Networks for Chinese Text Matching》,题目是百度智能云提供的。

原始数据如下:共两篇文档,每篇文档含有40个句子。每个句子均转化为300维的语义特征向量。

问题描述:在中文语境下,给定两个字符串,判断它们是否匹配。

方法:由于中文缺少像英文那样标准的词序,直接对字符串做匹配效率非常低。作者采用了字卷积神经网络的方法解决该问题。首先将一个字符串用Unicode编码,然后切分成单个的字符,再利用字卷积神经网络计算每一字的特征向量,最后通过全连接层得到每一个句子对应的语义向量。

作者使用了三个评价指标来衡量匹配的结果:R@1(Recall at rank 1), R@5(Recall at rank 5), MAP(Mean Average Precision). 其中,R@1表示正确匹配的词语在查询集合中出现的次数占查询集合总次数的比例。

R@5表示正确匹配的词语在前5个答案中出现的概率。MAP是加权的精确匹配算子,定义为: 这里的分母是查询中未命中但其他查询中命中的词汇数量。作者发现当这个公式中查询集合中所有词语的出现频率之和大于1时,MAP更能反映准确匹配的信息。

发表评论
请发表正能量的言论,文明评论!