2020/04/20
2020/05/01
TIS、自然言語処理で企業名認識するAI辞書「JCLdic」無償公開
システム開発を手掛けるTISは20日、自然言語処理で企業名認識を行うためのAI辞書「JCLdic」(日本会社名辞書)を無償公開すると発表した。辞書を生成するコードも、オープンソースソフトウェア(OSS)として公開する。他の研究者との間で知見を交換するのが狙い。
目次
辞書を生成するコードも「オープンソースソフト」として公
システム開発を手掛けるTIS(東京都新宿区)は20日、自然言語処理で企業名認識を行うための辞書「JCLdic」(日本会社名辞書)を無償公開すると発表した。辞書を生成するコードも、オープンソースソフトウェア(OSS)として公開する。他の研究者との間で知見を交換するのが狙い。
利用希望者は公開ページからダウンロード
利用希望者は「JCLdic」の公開ページからダウンロードできる。「JCLdic」は800万以上の企業名を収録している企業名辞書。国税庁が公開している法人情報(2019年12月27日まで)の商号に対して、別名生成手法を適用してTISが作成した。
同一企業に対する複数名称を含むため、自然言語処理を行う際に「TIS」「ティアイエス」「テイアイエス」など同じ企業を指す企業名の表記揺れを吸収し、商号を認識できるという。
国税庁公開データから480万以上の法人データ収集
データの作成は、国税庁の公開データから480万以上の法人データを収集し、重名の会社名を除いて一意の210万の会社名をベースに、別名生成手法で800万以上の会社別名を生成。
日本の会社名は漢字、アルファベット、ふりがな、カタカナ4つの記号を混合して使用されているが、高い質の別名を生成するため、ルールで異なった記号を考慮しました。
例えば「TIS株式会社」は「TIS」「ティアイエス」「テイアイエス」などの別名に生成
例えば一意の正式商号「TIS株式会社」については、書式の削除、ふりがなの追加、正規化などのプロセスによって、「TIS」、「ティアイエス」、「テイアイエス」などの別名が生成される。
TISは、SI・受託開発に加え、データセンターやクラウドなどサービス型のITソリューションを多数用意。中国・ASEAN地域を中心としたグローバルサポート体制を整えており、金融、製造、流通・サービス、公共、通信など、さまざまな業界で3000社以上のビジネスパートナーがいるという。
Recommended