Personnaliser

OK

Multi-Agent Reinforcement Learning - Christianos, Filippos

Note : 0

0 avis
  • Soyez le premier à donner un avis

Vous en avez un à vendre ?

Vendez-le-vôtre
Filtrer par :
Neuf (6)
Occasion
Reconditionné

83,21 €

Produit Neuf

  • Ou 20,80 € /mois

    • Livraison à 0,01 €
    Voir les modes de livraison

    rarewaves-uk

    PRO Vendeur favori

    4,8/5 sur + de 1 000 ventes

    Expédition rapide et soignée depuis l`Angleterre - Délai de livraison: entre 10 et 20 jours ouvrés.

    Nos autres offres

    • 89,15 €

      Produit Neuf

      Ou 22,29 € /mois

      • Livraison à 0,01 €
      • Livré entre le 13 et le 20 avril
      Voir les modes de livraison

      Brand new, In English, Fast shipping from London, UK; Tout neuf, en anglais, expédition rapide depuis Londres, Royaume-Uni;ria9780262049375_dbm

    • 85,83 €

      Produit Neuf

      Ou 21,46 € /mois

      • Livraison : 3,99 €
      • Livré entre le 13 et le 16 avril
      Voir les modes de livraison
      4,8/5 sur + de 1 000 ventes
    • 90,42 €

      Produit Neuf

      Ou 22,61 € /mois

      • Livraison à 0,01 €
      Voir les modes de livraison
      4,7/5 sur + de 1 000 ventes

      Nouvel article expédié dans le 24H à partir des Etats Unis Livraison au bout de 20 à 30 jours ouvrables.

    • 113,44 €

      Produit Neuf

      Ou 28,36 € /mois

      • Livraison : 5,00 €
      • Livré entre le 11 et le 15 avril
      Voir les modes de livraison

      Exp¿di¿ en 7 jours ouvr¿s

    • 104,08 €

      Produit Neuf

      Ou 26,02 € /mois

      • Livraison : 25,00 €
      • Livré entre le 27 avril et le 2 mai
      Voir les modes de livraison
      4,8/5 sur + de 1 000 ventes

      Apres acceptation de la commande, le delai moyen d'expedition depuis le Japon est de 48 heures. Le delai moyen de livraison est de 3 a 4 semaines. En cas de circonstances exceptionnelles, les delais peuvent s'etendre jusqu'à 2 mois.

    Voir plus d'annonces (5 / 6)
    Publicité
     
    Vous avez choisi le retrait chez le vendeur à
    • Payez directement sur Rakuten (CB, PayPal, 4xCB...)
    • Récupérez le produit directement chez le vendeur
    • Rakuten vous rembourse en cas de problème

    Gratuit et sans engagement

    Félicitations !

    Nous sommes heureux de vous compter parmi nos membres du Club Rakuten !

    En savoir plus

    Retour

    Horaires

        Note :


        Avis sur Multi - Agent Reinforcement Learning de Christianos, Filippos Format Relié  - Livre Informatique

        Note : 0 0 avis sur Multi - Agent Reinforcement Learning de Christianos, Filippos Format Relié  - Livre Informatique

        Les avis publiés font l'objet d'un contrôle automatisé de Rakuten.


        Présentation Multi - Agent Reinforcement Learning de Christianos, Filippos Format Relié

         - Livre Informatique

        Livre Informatique - Christianos, Filippos - 01/12/2024 - Relié - Langue : Anglais

        . .

      • Auteur(s) : Christianos, Filippos - Albrecht, Stefano V.
      • Editeur : Mit Press Ltd
      • Langue : Anglais
      • Parution : 01/12/2024
      • Format : Moyen, de 350g à 1kg
      • Nombre de pages : 394
      • Dimensions : 17.8 x 11.4 x 2.9
      • ISBN : 0262049376



      • Résumé :
        Preface xi
        Summary of Notation xv
        List of Figures xvii
        1 Introduction 1
        1.1 Multi-Agent Systems 2
        1.2 Multi-Agent Reinforcement Learning 6
        1.3 Application Examples 8
        1.3.1 Multi-Robot Warehouse Management 8
        1.3.2 Competitive Play in Board Games and Video Games 10
        1.3.3 Autonomous Driving 11
        1.3.4 Automated Trading in Electronic Markets 11
        1.4 Challenges of MARL 12
        1.5 Agendas of MARL 13
        1.6 Book Contents and Structure 15
        I FOUNDATIONS OF MULTI-AGENT REINFORCEMENT LEARNING 17
        2 Reinforcement Learning 19
        2.1 General Definition 20
        2.2 Markov Decision Processes 22
        2.3 Expected Discounted Returns and Optimal Policies 24
        2.4 Value Functions and Bellman Equation 26
        2.5 Dynamic Programming 29
        2.6 Temporal-Difference Learning 32
        2.7 Evaluation with Learning Curves 36
        2.8 Equivalence of R(s, a, s') and R(s, a) 39
        2.9 Summary 40
        3 Games: Models of Multi-Agent Interaction 43
        3.1 Normal-Form Games 44
        3.2 Repeated Normal-Form Games 46
        3.3 Stochastic Games 47
        3.4 Partially Observable Stochastic Games 49
        3.4.1 Belief States and Filtering 53
        3.5 Modelling Communication 55
        3.6 Knowledge Assumptions in Games 56
        3.7 Dictionary: Reinforcement Learning Game Theory 58
        3.8 Summary 58
        4 Solution Concepts for Games 61
        4.1 Joint Policy and Expected Return 62
        4.2 Best Response 65
        4.3 Minimax 65
        4.3.1 Minimax Solution via Linear Programming 67
        4.4 Nash Equilibrium 68
        4.5 -Nash Equilibrium 70
        4.6 (Coarse) Correlated Equilibrium 71
        4.6.1 Correlated Equilibrium via Linear Programming 74
        4.7 Conceptual Limitations of Equilibrium Solutions 75
        4.8 Pareto Optimality 76
        4.9 Social Welfare and Fairness 78
        4.10 No-Regret 81
        4.11 The Complexity of Computing Equilibria 83
        4.11.1 PPAD Complexity Class 84
        4.11.2 Computing -Nash Equilibrium is PPAD-Complete 86
        4.12 Summary 87
        5 Multi-Agent Reinforcement Learning in Games: First Steps and Challenges 89
        5.1 General Learning Process 90
        5.2 Convergence Types 92
        5.3 Single-Agent RL Reductions 95
        5.3.1 Central Learning 95
        5.3.2 Independent Learning 97
        5.3.3 Example: Level-Based Foraging 99
        5.4 Challenges of MARL 101
        5.4.1 Non-Stationarity 102
        5.4.2 Equilibrium Selection 104
        5.4.3 Multi-Agent Credit Assignment 106
        5.4.4 Scaling to Many Agents 108
        5.5 What Algorithms Do Agents Use? 109
        5.5.1 Self-Play 109
        5.5.2 Mixed-Play 111
        5.6 Summary 111
        6 Multi-Agent Reinforcement Learning: Foundational Algorithms 115
        6.1 Dynamic Programming for Games: Value Iteration 116
        6.2 Temporal-Difference Learning for Games: Joint Action Learning 118
        6.2.1 Minimax Q-Learning 121
        6.2.2 Nash Q-Learning 123
        6.2.3 Correlated Q-Learning 124
        6.2.4 Limitations of Joint Action Learning 125
        6.3 Agent Modelling 127
        6.3.1 Fictitious Play 128
        6.3.2 Joint Action Learning with Agent Modelling 131
        6.3.3 Bayesian Learning and Value of Information 134
        6.4 Policy-Based Learning 140
        6.4.1 Gradient Ascent in Expected Reward 141
        6.4.2 Learning Dynamics of Infinitesimal Gradient Ascent 142
        6.4.3 Win or Learn Fast 145
        6.4.4 Win or Learn Fast with Policy Hill Climbing 147
        6.4.5 Generalised Infinitesimal Gradient Ascent 149
        6.5 No-Regret Learning 151
        6.5.1 Unconditional and Conditional Regret Matching 151
        6.5.2 Convergence of Regret Matching 153
        6.6 Summary 156
        II MULTI-AGENT DEEP REINFORCEMENT LEARNING: ALGORITHMS AND PRACTICE 159
        7 Deep Learning 161
        7.1 Function Approximation for Reinforcement Learning 161
        7.2 Linear Function Approximation 163
        7.3 Feedforward Neural Networks 165
        7.3.1 Neural Unit 166
        7....

        Biographie:
        Stefano V. Albrecht is Associate Professor in the School of Informatics at the University of Edinburgh, where he leads the Autonomous Agents Research Group. His research focuses on the development of machine learning algorithms for autonomous systems control and decision making, with a particular focus on deep reinforcement learning and multi-agent interaction.

        Filippos Christianos is a research scientist in multi-agent deep reinforcement learning focusing on how MARL algorithms can be used efficiently and the author of multiple popular MARL-focused code libraries. ...

        Sommaire:
        Exploiting Spatial Relationships in Data 175
        7.5.2 Learning from Sequences with Memory 178
        7.6 Summary 180
        8 Deep Reinforcement Learning 183
        8.1 Deep Value Function Approximation 184
        8.1.1 Deep Q-Learning &ndash...

        Détails de conformité du produit

        Consulter les détails de conformité de ce produit (

        Personne responsable dans l'UE

        )
        Le choixNeuf et occasion
        Minimum5% remboursés
        La sécuritéSatisfait ou remboursé
        Le service clientsÀ votre écoute
        LinkedinFacebookTwitterInstagramYoutubePinterestTiktok
        visavisa
        mastercardmastercard
        klarnaklarna
        paypalpaypal
        floafloa
        americanexpressamericanexpress
        Rakuten Logo
        • Rakuten Kobo
        • Rakuten TV
        • Rakuten Viber
        • Rakuten Viki
        • Plus de services
        • À propos de Rakuten
        Rakuten.com