2020/04/20

2020/05/01

TIS、自然言語処理で企業名認識するAI辞書「JCLdic」無償公開

AIサービス紹介

ライター:

システム開発を手掛けるTISは20日、自然言語処理で企業名認識を行うためのAI辞書「JCLdic」(日本会社名辞書)を無償公開すると発表した。辞書を生成するコードも、オープンソースソフトウェア(OSS)として公開する。他の研究者との間で知見を交換するのが狙い。

辞書を生成するコードも「オープンソースソフト」として公

システム開発を手掛けるTIS(東京都新宿区)は20日、自然言語処理で企業名認識を行うための辞書「JCLdic」(日本会社名辞書)を無償公開すると発表した。辞書を生成するコードも、オープンソースソフトウェア(OSS)として公開する。他の研究者との間で知見を交換するのが狙い。

利用希望者は公開ページからダウンロード

利用希望者は「JCLdic」の公開ページからダウンロードできる。「JCLdic」は800万以上の企業名を収録している企業名辞書。国税庁が公開している法人情報(2019年12月27日まで)の商号に対して、別名生成手法を適用してTISが作成した。

同一企業に対する複数名称を含むため、自然言語処理を行う際に「TIS」「ティアイエス」「テイアイエス」など同じ企業を指す企業名の表記揺れを吸収し、商号を認識できるという。

国税庁公開データから480万以上の法人データ収集

データの作成は、国税庁の公開データから480万以上の法人データを収集し、重名の会社名を除いて一意の210万の会社名をベースに、別名生成手法で800万以上の会社別名を生成。

日本の会社名は漢字、アルファベット、ふりがな、カタカナ4つの記号を混合して使用されているが、高い質の別名を生成するため、ルールで異なった記号を考慮しました。

例えば「TIS株式会社」は「TIS」「ティアイエス」「テイアイエス」などの別名に生成

例えば一意の正式商号「TIS株式会社」については、書式の削除、ふりがなの追加、正規化などのプロセスによって、「TIS」、「ティアイエス」、「テイアイエス」などの別名が生成される。

TISは、SI・受託開発に加え、データセンターやクラウドなどサービス型のITソリューションを多数用意。中国・ASEAN地域を中心としたグローバルサポート体制を整えており、金融、製造、流通・サービス、公共、通信など、さまざまな業界で3000社以上のビジネスパートナーがいるという。

 

(totalcount 1,266 回, dailycount 5回 , overallcount 16,404,904 回)

ライター:

AIサービス紹介

single-banner

COMMENT

コメントを残す

メールアドレスが公開されることはありません。
*は必須項目です。




CAPTCHA