【博士論文】学術データベース

博士論文 / 木編集距離の宣言的意味に基づく階層とその計算に関する研究

著者

書誌事項

タイトル

木編集距離の宣言的意味に基づく階層とその計算に関する研究

著者名

芳野拓也

学位授与大学

九州工業大学 (大学ID:0071) (CAT機関ID:KI000844)

取得学位

博士(情報工学)

学位授与番号

甲情工第332号

学位授与年月日

2018-03-23

注記・抄録

WebにおけるHTMLデータやXMLデータ,バイオインフォマティクスにおけるRNAや糖鎖データのような根付きラベル付き木(以後,木という)として表現される木構造データを比較することは,構造データからのデータマイニングや機械学習における重要な研究の一つである.そのような木同士の距離として有名なものの一つに木編集距離がある.木編集距離は,ノードの削除,挿入,置換からなる編集操作を用いて,一方の根付き木から他方の木への変換に必要な編集操作列の最小コストとして定式化される.2つの木の間の編集操作列は無数に存在するため,操作列をすべて計算して木編集距離を求める方法は現実的ではない.そこでTaiは,木編集距離計算の指針として,木編集距離に宣言的意味を与えるTaiマッピング(以後単にマッピングともいう)を導入した.このTaiマッピングは,先祖子孫関係(および順序木の場合は兄弟関係)を保持する木のノード間の一対一対応であり,Taiマッピングの最小コストは木編集距離と一致する.木編集距離の計算時間は,順序木の場合はノード数nに対してO(n3)時間であるが,無順序木の場合はMAX SNP困難である.一方,糖鎖データではノードのつながりに意味があるためそのつながりを崩さないような制約が求められ,XMLデータでは根ノードから一定のノードはどの木にも共通する場合があり,より葉ノードに重点を置いた距離が求められる.このように,対象によっては木編集距離は過度に一般的となるため,他方では計算効率を上げるという目的の下に,宣言的意味であるマッピングに制限を加えることで木編集距離のさまざまな変種が研究されている.特に,RNA解析などで利用され,削除の前に挿入を行う木編集距離でもある木アライメント距離の計算は,順序木の場合はノード数nに対してO(n4)時間,無順序木の場合は一般にMAX SNP困難であるが,次数が限定されている木のときは多項式時間で計算できる.このアライメント距離は,2つの木の超木となるアライメント木の最小コストとして定式化することができ,Taiマッピングに制限を加えた劣制限マッピングの最小コストと一致する.本論文では,まず,マッピングへの制限をTaiマッピングの階層として捉え,この階層を共通部分森,特に,共通部分森中のノードの接続と部分木の並びの観点から見直すことで,木編集距離の変種の計算における本質について研究する.また,これらの観点によって新たに導入されるマッピングについて,それらの最小コストとなる編集距離の変種の時間計算時間を解析する.また,木アライメント距離に対して,森アライメント構築の高速化を目的として導入されたアンカーアライメント問題が提唱されている.これは,アンカーと呼ばれるマッピングを入力とし,そのアンカーでの対応を保持したアライメント木を構築する問題であるが,このアンカーはTaiマッピングであり,劣制限マッピングでないマッピングがアンカーとして入力されると木が構築することができない.そこで本論文では,木アライメント距離の宣言的意味が劣制限マッピングとなることの構成的な別証明を与え,その構成方法を利用することで,アンカーアライメント問題の出力を,アライメント木が構築できない場合は”no”を返す形に定式化する.また,それに基づくアンカーアライメント距離を定式化し,アンカーアライメント距離とアライメント距離を実データをもとに比較する.さらに,順序木より一般的であり,無順序木より制限された巡回的順序木を提案し,巡回的順序木間でのアライメント距離を計算するアルゴリズムを設計する.最後に,木編集距離に関するさまざまな内容として,無順序木編集距離を計算する動的A∗アルゴリズムの設計,Taiマッピングの根無し木への拡張,巡回的順序木と次数制限無順序木のマッピングカーネルの設計を行う.無順序木編集距離を計算するアルゴリズムとしては,既に,複数の下限関数を用いるHiguchiらのA∗アルゴリズムが導入されているが,これには計算の重複が存在するため,改善の余地がある.本論文では,その重複計算を動的計画法を用いて省いた動的A∗アルゴリズムを導入する.また,実験により,下限関数の効率を確認する.また,根付き木Taiマッピングは木編集距離に対応する重要な概念であるが,このTaiマッピングを根無し木に拡張するためには,単射であることに加えて,先祖子孫関係に代わる条件を導入する必要がある.そこで,ZhangらがLCA保存マッピングを根無し木に拡張する際に用いた中心に着目し,根無し木のマッピングを導入する.特に,根無し木としてよく表現される進化系統樹を特徴づける条件である4点条件と3点条件を木のトポロジーを特徴づける条件に変更し,それぞれの条件を保存するようなマッピングを導入する.さらに,サポートベクターマシンを利用して木を分類するための基本的な方法の1つである木カーネルは順序木について多く研究がおこなわれており,そのほとんどが,順序木間のマッピングを数え上げるマッピングカーネルのフレームワークに分類される.一方で,無順序木のカーネルは,その計算の難しさからほとんど研究がなされていない.そこで,巡回的順序木と,次数を定数Dに制限した無順序木に対するマッピングカーネルを設計し,それらの計算時間について議論する.

九州工業大学博士学位論文 学位記番号:情工博甲第332号 学位授与年月日:平成30年3月23日

第1章 はじめに|第2章 木編集距離と木アライメント距離|第3章 共通部分森に基づくTaiマッピング階層|第4章 木アライメント距離の計算|第5章 さまざまな拡張|第6章 結論と今後の課題

平成29年度

九州工業大学博士学位論文(要旨)学位記番号:情工博甲第332号 学位授与年月日:平成30年3月23日

キーワード

編集距離, Taiマッピング, アライメント距離, 巡回的順序木, マッピングカーネル

各種コード

NII論文ID(NAID)

500001067762

NII著者ID(NRID)
  • 8000001197358
本文言語コード

jpn

データ提供元

機関リポジトリ / NDLデジタルコレクション

博士論文 / 九州工業大学 / 情報工学

博士論文 / 九州工業大学

博士論文 / 情報工学

関連著者

博士論文 / 大学

博士論文 / 学位