WEKO3
アイテム
ナッシュQ学習における協調行動の生成
http://hdl.handle.net/11478/937
http://hdl.handle.net/11478/93725ef7643-eeed-4d3e-8785-b234a7492b3a
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
|
| Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||
|---|---|---|---|---|---|---|
| 公開日 | 2018-06-13 | |||||
| タイトル | ||||||
| タイトル | ナッシュQ学習における協調行動の生成 | |||||
| タイトル | ||||||
| タイトル | Emergence of Cooperative Action in Nash-Q Learning | |||||
| 言語 | en | |||||
| 言語 | ||||||
| 言語 | jpn | |||||
| キーワード | ||||||
| 主題Scheme | Other | |||||
| 主題 | Q learning | |||||
| キーワード | ||||||
| 主題Scheme | Other | |||||
| 主題 | Nash-Q learning | |||||
| キーワード | ||||||
| 主題Scheme | Other | |||||
| 主題 | grid world | |||||
| キーワード | ||||||
| 主題Scheme | Other | |||||
| 主題 | agent | |||||
| キーワード | ||||||
| 主題Scheme | Other | |||||
| 主題 | reward | |||||
| キーワード | ||||||
| 言語 | en | |||||
| 主題Scheme | Other | |||||
| 主題 | Q learning | |||||
| キーワード | ||||||
| 言語 | en | |||||
| 主題Scheme | Other | |||||
| 主題 | Nash-Q learning | |||||
| キーワード | ||||||
| 言語 | en | |||||
| 主題Scheme | Other | |||||
| 主題 | grid world | |||||
| キーワード | ||||||
| 言語 | en | |||||
| 主題Scheme | Other | |||||
| 主題 | agent | |||||
| キーワード | ||||||
| 言語 | en | |||||
| 主題Scheme | Other | |||||
| 主題 | reward | |||||
| 資源タイプ | ||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
| 資源タイプ | departmental bulletin paper | |||||
| 著者 |
北原, 頌士
× 北原, 頌士× 谷川, 裕一× 鶴岡, 久 |
|||||
| 著者(ヨミ) | ||||||
| 識別子Scheme | WEKO | |||||
| 識別子 | 1953 | |||||
| 姓名 | キタハラ, ショウジ | |||||
| 著者(ヨミ) | ||||||
| 識別子Scheme | WEKO | |||||
| 識別子 | 1954 | |||||
| 姓名 | タニガワ, ユウイチ | |||||
| 著者(ヨミ) | ||||||
| 識別子Scheme | WEKO | |||||
| 識別子 | 1955 | |||||
| 姓名 | ツルオカ, ヒサシ | |||||
| 別言語の著者 | ||||||
| 識別子Scheme | WEKO | |||||
| 識別子 | 1956 | |||||
| 姓名 | KITAHARA, Shouji | |||||
| 別言語の著者 | ||||||
| 識別子Scheme | WEKO | |||||
| 識別子 | 1957 | |||||
| 姓名 | TANIGAWA, Yuichi | |||||
| 別言語の著者 | ||||||
| 識別子Scheme | WEKO | |||||
| 識別子 | 1958 | |||||
| 姓名 | TSURUOKA, Hisashi | |||||
| 内容記述 | ||||||
| 内容記述タイプ | Other | |||||
| 内容記述 | The effect of Nash-Q learning algorithm has not yet been confirmed in multiple experiments. We adopted a 5×5 grid world in which two agents started from opposite lower corners and tried to reach their respective goal cell. Experiments showed performance differences between single agent Q-learning and Nash-Q learning. In the Nash-Q learning, both agents obtained similar accumulated re-wards; however, in the Q learning, each agent accumulated his reward differently. Findings of this re-search confirmed that when agents adopt Nash Q-learning to predict the other agent’s behavior, not only is the performance of the agents better than their performance when using single-agent Q-learning, but the emergence of the cooperative action can also be observed. | |||||
| 書誌情報 |
福岡工業大学研究論集 巻 40, 号 1, p. 15-20, 発行日 2007-09-30 |
|||||
| ISSN | ||||||
| 収録物識別子タイプ | ISSN | |||||
| 収録物識別子 | 02876620 | |||||
| 書誌レコードID | ||||||
| 収録物識別子タイプ | NCID | |||||
| 収録物識別子 | AN10036974 | |||||
| フォーマット | ||||||
| 内容記述タイプ | Other | |||||
| 内容記述 | application/pdf | |||||
| 形態 | ||||||
| 値 | 843268 bytes | |||||
| 著者版フラグ | ||||||
| 出版タイプ | VoR | |||||
| 出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||
| 日本十進分類法 | ||||||
| 主題Scheme | NDC | |||||
| 主題 | 007.1 | |||||
| タイトル(ヨミ) | ||||||
| その他のタイトル | ナッシュQ ガクシュウ ニ オケル キョウチョウ コウドウ ノ セイセイ | |||||
| 出版者 | ||||||
| 出版者 | 福岡工業大学 | |||||
| 出版者(ヨミ) | ||||||
| 値 | フクオカ コウギョウ ダイガク | |||||
| 別言語の出版者 | ||||||
| 値 | Fukuoka Institute of Technology | |||||
| 資源タイプ | ||||||
| 内容記述タイプ | Other | |||||
| 内容記述 | 論文(Article) | |||||
| 資源タイプ・ローカル | ||||||
| 値 | 紀要論文 | |||||
| 資源タイプ・NII | ||||||
| 値 | Departmental Bulletin Paper | |||||
| 資源タイプ・DCMI | ||||||
| 値 | text | |||||
| 資源タイプ・ローカル表示コード | ||||||
| 値 | 02 | |||||