2020/04/20
2020/05/01
TIS、自然言語処理で企業名認識するAI辞書「JCLdic」無償公開

システム開発を手掛けるTISは20日、自然言語処理で企業名認識を行うためのAI辞書「JCLdic」(日本会社名辞書)を無償公開すると発表した。辞書を生成するコードも、オープンソースソフトウェア(OSS)として公開する。他の研究者との間で知見を交換するのが狙い。
目次
辞書を生成するコードも「オープンソースソフト」として公
システム開発を手掛けるTIS(東京都新宿区)は20日、自然言語処理で企業名認識を行うための辞書「JCLdic」(日本会社名辞書)を無償公開すると発表した。辞書を生成するコードも、オープンソースソフトウェア(OSS)として公開する。他の研究者との間で知見を交換するのが狙い。
利用希望者は公開ページからダウンロード
利用希望者は「JCLdic」の公開ページからダウンロードできる。「JCLdic」は800万以上の企業名を収録している企業名辞書。国税庁が公開している法人情報(2019年12月27日まで)の商号に対して、別名生成手法を適用してTISが作成した。
同一企業に対する複数名称を含むため、自然言語処理を行う際に「TIS」「ティアイエス」「テイアイエス」など同じ企業を指す企業名の表記揺れを吸収し、商号を認識できるという。
国税庁公開データから480万以上の法人データ収集
データの作成は、国税庁の公開データから480万以上の法人データを収集し、重名の会社名を除いて一意の210万の会社名をベースに、別名生成手法で800万以上の会社別名を生成。
日本の会社名は漢字、アルファベット、ふりがな、カタカナ4つの記号を混合して使用されているが、高い質の別名を生成するため、ルールで異なった記号を考慮しました。
例えば「TIS株式会社」は「TIS」「ティアイエス」「テイアイエス」などの別名に生成
例えば一意の正式商号「TIS株式会社」については、書式の削除、ふりがなの追加、正規化などのプロセスによって、「TIS」、「ティアイエス」、「テイアイエス」などの別名が生成される。
TISは、SI・受託開発に加え、データセンターやクラウドなどサービス型のITソリューションを多数用意。中国・ASEAN地域を中心としたグローバルサポート体制を整えており、金融、製造、流通・サービス、公共、通信など、さまざまな業界で3000社以上のビジネスパートナーがいるという。
最新投稿記事
-
AIプロジェクトの企画と失敗しない進め方を解説 2021年1月19日
-
AVILEN人材育成コース受講体験談:山田裕之さん「E資格の”その先”を目指して」 2021年1月8日
-
AI導入とは?RPAとの関係、プロセス、事例、メリット、費用を詳細に解説 2020年12月7日
-
注目のAI開発企業11社!支援領域や提供方法など検証! 2020年10月28日
-
AI人材を育成できる研修プログラムを一挙紹介! 2020年10月20日
-
【2021年版】期待のAI資格11選!就職・転職にも使える! 2020年10月18日
-
JDLAとは?G検定、E資格の認定プログラム、合格者の会など紹介! 2020年10月14日
-
G検定(2020#3)受験申し込み開始、11月7日(土)実施-JDLA 2020年10月1日
-
【独占】コロナ禍で人材登録急増、アノテーション単月売上高は4倍超-パソナJOB HUB 2020年10月1日
-
E資格を転職に活用!評判とデータを徹底調査! 2020年9月29日
週間ランキング
【2021年版】期待のAI資格11選!就職・転職にも使える! 2020年10月18日
注目のAI開発企業11社!支援領域や提供方法など検証! 2020年10月28日
【2021年版】コスパ重視のG検定対策!おすすめの本・講座・教材を一挙紹介! 2020年6月6日
最弱オセロを初めて攻略した天才オセロ高校生。負け方を解説! 2020年7月31日
【2021年版】E資格とは?大注目のディープラーニングの資格を解説! 2020年9月29日
G検定に短期間・独学で合格した勉強法を解説! 2020年8月3日
G検定は難しい?難易度・合格ライン・問題を徹底解説! 2020年6月19日
GAFA3社が採用内定の理系日本人へ「年収6000万円」のオファー、「AI人材の争奪… 2020年5月1日
E資格の認定プログラム一覧。講座の費用・内容を徹底比較! 2020年7月29日
効率重視のE資格対策!参考書・模擬試験・過去問を徹底解説! 2020年8月7日
