其他分享
首页 > 其他分享> > 一个基于RNN的实体抽取工具

一个基于RNN的实体抽取工具

作者:互联网

RNN4IE

项目地址:https://github.com/jiangnanboy/RNN4IE

本项目是本人在rnn基础上做的一些改动,用于信息抽取。

中文信息抽取工具。使用RNN的不同结构进行信息抽取,该项目使用pytorch,python开发。

Guide

Intro

目前主要实现中文实体抽取:

训练样本以B、I、O形式进行标注。

Model

模型

Usage

Evaluate

评估采用的是P、R、F1、PPL等。评估方法可利用scikit-learn中的precision_recall_fscore_support或classification_report。

Install

git clone https://github.com/jiangnanboy/RNN4IE.git
cd RNN4IE
python setup.py install

通过以上两种方法的任何一种完成安装都可以。如果不想安装,可以下载github源码包

Dataset

这里利用data(来自人民日报,识别的是[ORG, PER, LOC, T, O])中的数据进行训练评估。

预训练embedding向量:sgns.sogou.char.bz2

数据集的格式见data,分为train与dev,其中source与target为中文对应的实体标注。

数据被处理成csv格式。

标签:抽取,RNN,predict,cfg,实体,rnn4ie,train,config,gru
来源: https://www.cnblogs.com/little-horse/p/15086590.html