作为数据挖掘和社会网络分析的重要组成部分,用户画像问题吸引了来自学界和业界的广泛关注。在本章节,我们将介绍用户信息抽取的三种基本方法:文本模式挖掘、分类学习模型以及概率图模型。
基于文本模式的方法认为从大规模的自然语言数据中能够提炼和学习出频繁的文本模式,并以此进行信息抽取。例如,“牛顿生于1643年。”这句例句中能够提取出“<某人>生于<某年>。”这样的模式。将其与新的语料匹配时,即可从符合该模式的语料中抽取用户的生日信息。
DIPRE系统就是典型的基于文本模式的方法。给定一些已知的事实例句,DIPRE通过最长公共子句等方式归纳出文本模式用于信息抽取,然后搜索与抽取到的信息元组相关的更多例句,继续归纳和扩展文本模式。通过这种迭代式的半监督框架,DIPRE在给定有限训练数据的情况下能够自动搜寻和扩展模式库。其缺陷在于过于严格的文本匹配导致的高遗漏率,以及迭代归纳过程中引入的错误种子数据产生的错误积累。
近年来,机器学习算法的快速发展为信息抽取任务提供了强有力的工具。基于机器学习方法的信息抽取模型将信息抽取转化为关系分类问题,即判断两个目标实体间是否满足目标关系,例如,判断“牛顿”与“1643年”之间是否存在“<出生于>”关系。
基于特征的分类学习模型有逻辑斯特回归、决策树模型、支持向量机、随机森林等。在二分类场景下,这些模型接受一个数据点的特征向量,并给出其属于正例或负例的预测。二分类模型可以通过对多个类别标签进行“属于/不属于”的二值判断扩展成多分类模型。在文本信息抽取问题中,我们首先通过命名实体识别等预处理过程得到候选实体,然后从上下文文本中抽取特征,并通过分类模型预测该候选实体是否是正确的信息。
深度学习方法利用神经网络模型和词的分布式表达解决分类任务。与基于特征的分类模型相比,深度学习模型有两大优势。首先,深度学习模型中,单词通过word2vec等词嵌入技术转化为词向量,包含了更多语义层面的隐含信息,从而使得模型能够捕捉到词语层面的相似关系;更重要的是,深度学习模型能够进行表示学习,从原始数据中自动学习得到有用的特征,避免了人工特征构造,同时能够产生更为有效的特征表示。
概率图模型是一类将变量之间的依赖关系用图进行表示的概率模型,适用于建模变量之间的依赖和因果关系。其中,链式条件随机场模型被广泛应用于实体识别、信息抽取等领域。条件随机场模型由Lafferty和McCallum在2001提出。条件随机场是一类判别式模型,即在给定观察数据的情况下计算它们对应的标签值的条件概率。
构成条件随机场的充要条件是,图中的所有变量节点满足马尔科夫性质,即其标签值都只与它的邻接节点有关,独立于其他所有节点。