科研費 - 佐藤 理史
-
テキストを実行可能なプログラムに変換するための基本技術の探求
研究課題/研究課題番号:22K19811 2022年7月 - 2025年3月
日本学術振興会 科学研究費補助金 挑戦的研究(萌芽)
担当区分:研究代表者 資金種別:競争的資金
配分額:6240000円 ( 直接経費:4800000円 、 間接経費:1440000円 )
-
話者の特徴や個性を感じさせる発話文の生成機構
研究課題/研究課題番号:21H03497 2021年4月 - 2024年3月
日本学術振興会 科学研究費補助金 基盤研究(B)(一般)
担当区分:研究代表者 資金種別:競争的資金
配分額:15990000円 ( 直接経費:12300000円 、 間接経費:3690000円 )
-
日本語述語形式の体系的整理に基づく文末述語解析・生成システムの実現
研究課題/研究課題番号:20K21809 2020年7月 - 2022年3月
挑戦的研究(萌芽)
佐藤 理史
担当区分:研究代表者
配分額:6240000円 ( 直接経費:4800000円 、 間接経費:1440000円 )
日本語の文末述語形式を体系的に整理し、文末述語解析システムと文末述語生成システムの2つのシステムを実現することを目指す。日本語では、文末に文法機能を担う多くの要素が出現し、「書かれていたにちがいありません = 書く + れる (受身) + テいる(状態) + タ(過去) + にちがいない(推測) + ます(丁寧)」のように複雑な述語形式を形成する。このような複雑な述語形式を上記のような構成要素に分割し、それぞれの構成要素の役割を同定する解析システム、および、構成要素から複雑な述語形式を生成するシステムを実現する。
-
日本語文章の構造モデルとその段階的詳細化による文章自動生成機構
研究課題/研究課題番号:18H03285 2018年4月 - 2021年3月
佐藤 理史
担当区分:研究代表者
配分額:17290000円 ( 直接経費:13300000円 、 間接経費:3990000円 )
本年度は、主に、以下の研究を実施した。
(1)文合成ソフトウェアHaoriBricks3の機能を強化した。具体的には、述語の活用型の自動推定を実現するとともに、サポートするブリック(部品)を大幅に拡充した。
(2)通信販売商品のTV60秒広告のシナリオを自動生成するシステムを強化した。このシステムでは、シナリオ型として、大分類で11種類、詳細分類では30種類を実装した。システムは、与えられたコンテンツ(内容記述)に対して、適用可能なシナリオ型を自動選択し、コンテンツを反映したシナリオを自動生成する機能を有する。システムは、ウェブサーバー上で動作し、ウェブブラウザーで動作するユーザーインタフェース(クライアント)を通して利用することができる。
(3)日本語文の文末の述語の範囲を同定し、それがどのような要素から構成されているかを分析する日本語文末解析器Panzerを実装した。日本語の述語は、おおよそ、核となる内容語(動詞・形容詞)に、接尾辞や助動詞等の付属要素が接続することによって構成されている。Panzerではこれらの付属要素を厳密に定義するとともに、211種類(432 エントリ)の述語複合辞(助動詞的に働く連語)を定義し、付属要素として認識できるようにした。Panzerの出力はHaoriBricks3で表層文に復元可能であるため、復元テストによる解析エラー検出が容易である。
(4)Panzerによる分割解析結果を利用して、文末述語を用いた2文間の接続関係推定を実装した。具体的には、入試で出題される接続詞補充問題(空欄を埋める適切な接続詞を選択する)を対象として、前後2文の文末述語の情報のみからどの程度推定できるかを調べた。既存の解析器を用いた場合と比較して、Panzerの解析結果を用いると、統計的に優位な性能向上が見られた。
TV60秒広告のシナリオの自動生成システムに関しては、少し方針を転換して作成支援システムを目指すことにしたため、システムの作り直しが必要となっている。
(1)TV60秒広告のシナリオの自動生成に関しては、現場での使用を想定し、作成支援システムの実現に舵を切る。そこでは、文章の作成支援に加えて、コンテンツの作成支援が重要となる。これを、新たに研究内容に含める。
(2)文章解析に関しては、文末述語解析技術の確立に注力する。特に、解析結果として何を出力すべきかを中心に、技術の成熟を目指す。 -
ブロック玩具をモデルとする日本語文章合成ツールキットの設計と実装
研究課題/研究課題番号:17K20028 2017年6月 - 2019年3月
挑戦的研究(萌芽)
佐藤 理史
担当区分:研究代表者
配分額:6240000円 ( 直接経費:4800000円 、 間接経費:1440000円 )
日本語の文章を合成するためのツールキットとして、HaoriBricksを設計・実装した。HaoriBricksは、約1100種類の基本ブロックから構成されており、ユーザーは、それらをどのように組み合わせるかを指定する。指定されたブロックの組み合わせは内部的に保持され、表層化命令によって文の内部構造を経由して最終的に表層文字列に変換される。複数のブロックから構成されるマクロブロックも、基本ブロックと同じように使用できるため、それぞれの応用に対して、ツールの拡張が可能である。
日本語の文を合成するためのソフトウェアツールは、これまで存在しなかった。ツールの基盤となる文法体系を定義するとともに、実際に使用に耐えうるツールを実装した点に、本研究の学術的意義がある。潜在的には、文章の自動合成の応用範囲は広い。本研究の社会的意義は、その実現可能性を示した点にある。プログラムによる小説の自動生成の実現は、その一つの応用例である。 -
文章の読解と産出のための言語処理技術
研究課題/研究課題番号:15H02748 2015年4月 - 2018年3月
佐藤 理史
担当区分:研究代表者
配分額:15860000円 ( 直接経費:12200000円 、 間接経費:3660000円 )
文章の読解では、センター試験形式の評論読解問題を対象に、多くの特徴量を利用した二段階選抜法を用いたソルバーを実現した。このソルバーは、対象とする問題の約半分を正しく解くことができた。文章の算出では、日本語の文生成器HaoriBricks、および、文章生成器GhostWriterを実装し、シナリオ文法に基づく文章生成を実現した。これらのシステムを用いて自動生成した短編小説を星新一賞に応募した。
-
発話に対するキャラクタ重畳機能の実現
2015年4月 - 2017年3月
科学研究費補助金
担当区分:研究代表者
-
平易な日本語表現への工学的アプローチ
2012年4月 - 2015年3月
科学研究費補助金 基盤研究(B)
担当区分:研究代表者
-
選択型翻訳による言語横断検索の実現
2010年4月 - 2012年3月
科学研究費補助金
担当区分:研究代表者
選択型翻訳と呼ぶ新しい翻訳方式を確立し、英語WIkipediaへの日英言語横断検索を実現する。
-
辞書自動編纂のためのテクノロジー
2009年4月 - 2012年3月
科学研究費補助金 基盤研究(B) 課題番号:21300094
担当区分:研究代表者
-
オンラインニュース見出しの言語構造および情報構造の解明
2006年4月 - 2008年3月
科学研究費補助金
担当区分:研究代表者
-
円滑な情報伝達を支援する言語規格と言語変換技術
2004年4月 - 2008年3月
科学研究費補助金 基盤研究(A),課題番号:16200009
佐藤 理史
担当区分:研究代表者