WEKO3
アイテム
ナッシュQ学習における協調行動の生成
http://hdl.handle.net/11478/937
http://hdl.handle.net/11478/93725ef7643-eeed-4d3e-8785-b234a7492b3a
名前 / ファイル | ライセンス | アクション |
---|---|---|
11478-937_p15鶴岡 久.pdf (843.3 kB)
|
|
Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2018-06-13 | |||||
タイトル | ||||||
タイトル | ナッシュQ学習における協調行動の生成 | |||||
タイトル | ||||||
タイトル | Emergence of Cooperative Action in Nash-Q Learning | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | Q learning | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | Nash-Q learning | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | grid world | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | agent | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | reward | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Q learning | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Nash-Q learning | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | grid world | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | agent | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | reward | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | departmental bulletin paper | |||||
著者 |
北原, 頌士
× 北原, 頌士× 谷川, 裕一× 鶴岡, 久 |
|||||
著者(ヨミ) | ||||||
識別子Scheme | WEKO | |||||
識別子 | 1953 | |||||
姓名 | キタハラ, ショウジ | |||||
著者(ヨミ) | ||||||
識別子Scheme | WEKO | |||||
識別子 | 1954 | |||||
姓名 | タニガワ, ユウイチ | |||||
著者(ヨミ) | ||||||
識別子Scheme | WEKO | |||||
識別子 | 1955 | |||||
姓名 | ツルオカ, ヒサシ | |||||
別言語の著者 | ||||||
識別子Scheme | WEKO | |||||
識別子 | 1956 | |||||
姓名 | KITAHARA, Shouji | |||||
別言語の著者 | ||||||
識別子Scheme | WEKO | |||||
識別子 | 1957 | |||||
姓名 | TANIGAWA, Yuichi | |||||
別言語の著者 | ||||||
識別子Scheme | WEKO | |||||
識別子 | 1958 | |||||
姓名 | TSURUOKA, Hisashi | |||||
内容記述 | ||||||
内容記述タイプ | Other | |||||
内容記述 | The effect of Nash-Q learning algorithm has not yet been confirmed in multiple experiments. We adopted a 5×5 grid world in which two agents started from opposite lower corners and tried to reach their respective goal cell. Experiments showed performance differences between single agent Q-learning and Nash-Q learning. In the Nash-Q learning, both agents obtained similar accumulated re-wards; however, in the Q learning, each agent accumulated his reward differently. Findings of this re-search confirmed that when agents adopt Nash Q-learning to predict the other agent’s behavior, not only is the performance of the agents better than their performance when using single-agent Q-learning, but the emergence of the cooperative action can also be observed. | |||||
書誌情報 |
福岡工業大学研究論集 巻 40, 号 1, p. 15-20, 発行日 2007-09-30 |
|||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 02876620 | |||||
書誌レコードID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AN10036974 | |||||
フォーマット | ||||||
内容記述タイプ | Other | |||||
内容記述 | application/pdf | |||||
形態 | ||||||
値 | 843268 bytes | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||
日本十進分類法 | ||||||
主題Scheme | NDC | |||||
主題 | 007.1 | |||||
タイトル(ヨミ) | ||||||
その他のタイトル | ナッシュQ ガクシュウ ニ オケル キョウチョウ コウドウ ノ セイセイ | |||||
出版者 | ||||||
出版者 | 福岡工業大学 | |||||
出版者(ヨミ) | ||||||
値 | フクオカ コウギョウ ダイガク | |||||
別言語の出版者 | ||||||
値 | Fukuoka Institute of Technology | |||||
資源タイプ | ||||||
内容記述タイプ | Other | |||||
内容記述 | 論文(Article) | |||||
資源タイプ・ローカル | ||||||
値 | 紀要論文 | |||||
資源タイプ・NII | ||||||
値 | Departmental Bulletin Paper | |||||
資源タイプ・DCMI | ||||||
値 | text | |||||
資源タイプ・ローカル表示コード | ||||||
値 | 02 |