[IMP] website, *: introduce JsonLd builder and structured data

gppa-odoo · gppa-odoo · commit fa2ea77d5ecb · 2026-05-05T15:38:51.000+05:30
*=website_blog

Body:
This commit introduces a reusable JsonLd builder for Schema.org
payloads and integrates structured data generation in website and
website_blog.

- add a JsonLd helper with snake_case to camelCase normalization,
  nested schema support, datetime normalization, and safe rendering for
  single or multiple schemas
- add website structured data foundations (organization schema default
  and breadcrumb helper) through a dedicated mixin
- expose website-level structured data generation and inject
  structured_data in template rendering context
- render JSON-LD payload in website layout head
- add images_from_html utility to collect post images from blog content
- generate blog schemas for listing and detail pages (Blog,
  CollectionPage, BlogPosting, BreadcrumbList)
- pass structured_data from blog controllers for both list and detail
  routes
- add dedicated tests validating JsonLd behavior and serialization rules

This change enables consistent, extensible structured-data generation
across website and blog pages.

task-4655276

[IMP] website_blog: WIP
diff --git a/addons/website/helpers/jsonld_builder.py b/addons/website/helpers/jsonld_builder.py
@@ -113,9 +113,7 @@ def to_iso_datetime(dt) -> str | None:
         return as_datetime.isoformat()
 
     def get(self, key: str, default=None):
-        """Retrieve a stored value by its snake_case key.
-        The key is normalised exactly like :meth:`set` / :meth:`add_nested`
-        so callers never have to know the internal camelCase representation.
+        """Retrieve a stored value by key.
         Args:
             key: Property name
             default: Value returned when the key is absent.
@@ -144,7 +142,7 @@ def set(self, values: dict[str, Any]) -> JsonLd:
             self.values[key] = value
         return self
 
-    def add_nested(self, values: dict[str, JsonLd | list[JsonLd | None] | None]) -> JsonLd:
+    def add_nested(self, values: dict[str, JsonLd | list[JsonLd] | None]) -> JsonLd:
         """Add nested schema builder(s).
         A single nested value is stored as-is; values are converted to a list
         only when multiple nested values exist for the same key. None values
diff --git a/addons/website/models/mixins.py b/addons/website/models/mixins.py
@@ -877,7 +877,7 @@ class WebsiteStructuredDataMixin(models.AbstractModel):
     _name = 'website.structured_data.mixin'
     _description = 'Website Structured Data Mixin'
 
-    def get_jsonLD(self, is_detail_page=False):
+    def get_json_ld(self, is_detail_page=False):
         """Return the JSON-LD structured data for this record.
         :param is_detail_page: whether the structured data is for a detail page
         :return: string containing the JSON-LD structured data
diff --git a/addons/website/models/website.py b/addons/website/models/website.py
@@ -2493,7 +2493,7 @@ def _is_tag_domains_watchlisted(self, tagName, atts):
     def _is_tag_classes_watchlisted(self, tagName, atts):
         return self._get_blocked_iframe_containers_classes().intersection((atts.get('class') or '').split(' '))
 
-    def get_jsonLD(self):
+    def get_json_ld(self):
         """Generate structured data for the website."""
         self.ensure_one()
         return JsonLd.render_structured_data([self.organization_structured_data()])
@@ -2504,7 +2504,9 @@ def organization_structured_data(self):
         base_url = self.get_base_url()
         logo_url = f"{base_url}/logo.png?company={self.company_id.id}"
         return JsonLd("Organization",
-            {"name": self.name,
-            "url": base_url,
-            "@id": f"{base_url}/#organization"},
+            {
+                "name": self.name,
+                "url": base_url,
+                "@id": f"{base_url}/#organization",
+            },
         ).add_nested({"logo": JsonLd("ImageObject", {"url": logo_url})})
diff --git a/addons/website/tests/__init__.py b/addons/website/tests/__init__.py
@@ -19,6 +19,7 @@
 from . import test_iap
 from . import test_import_files
 from . import test_ir_asset
+from . import test_jsonld_builder
 from . import test_lang_url
 from . import test_menu
 from . import test_multi_website
@@ -32,7 +33,6 @@
 from . import test_sitemap
 from . import test_skip_website_configurator
 from . import test_snippets
-from . import test_structure_data_defination
 from . import test_theme
 from . import test_ui
 from . import test_unsplash_beacon
diff --git a/addons/website/tests/test_jsonld_builder.py b/addons/website/tests/test_jsonld_builder.py
diff --git a/addons/website/tools.py b/addons/website/tools.py
@@ -94,27 +94,24 @@ def text_from_html(html_fragment, collapse_whitespace=False):
     return content
 
 
-def images_from_html(html_fragment, website_url):
+def images_from_html(html_fragment, base_url):
     """
     Extract unique image URLs from an HTML fragment.
-    Preserves order.
+
     :param html_fragment: document from which image URLs must be extracted
-    :param website_url: base URL of the website to resolve relative URLs
+    :param base_url: base URL of the website to resolve relative URLs
     :return: list of image URLs extracted from the html
     """
     if not html_fragment:
         return []
 
     tree = html.fromstring(html_fragment)
-    image_paths = []
     seen = set()
 
     for img in tree.xpath("//img[@src]"):
-        src = urljoin(website_url, img.get("src"))
-        if src not in seen:
-            seen.add(src)
-            image_paths.append(src)
-    return image_paths
+        src = urljoin(base_url, img.get("src"))
+        seen.add(src)
+    return list(seen)
 
 
 def get_base_domain(url, strip_www=False):
diff --git a/addons/website/views/website_templates.xml b/addons/website/views/website_templates.xml
@@ -177,7 +177,7 @@
         <link rel="preconnect" href="https://fonts.gstatic.com/" crossorigin=""/>
         <link rel="apple-touch-icon" t-att-href="x_icon"/>
         <!-- Render structured data from context or fallback to website-level schema -->
-        <script type="application/ld+json" t-out="structured_data or website.get_jsonLD()"/>
+        <script type="application/ld+json" t-out="structured_data or website.get_json_ld()"/>
     </xpath>
 
     <xpath expr="//head/script" position="before">
diff --git a/addons/website_blog/controllers/main.py b/addons/website_blog/controllers/main.py
@@ -227,7 +227,7 @@ def blog(self, blog=None, tag=None, page=1, search=None, **opt):
         posts = values['posts']
         if blog:
             posts = posts.with_context(blog_id=blog.id)
-        values['structured_data'] = posts.get_jsonLD()
+        values['structured_data'] = posts.get_json_ld()
 
         return request.render("website_blog.blog_post_short", values)
 
@@ -339,7 +339,7 @@ def blog_post(self, blog, blog_post, tag_id=None, page=1, enable_editor=None, **
             'is_next_post_recommended': is_next_post_recommended,
             'date': date_begin,
             'blog_url': blog_url,
-            'structured_data': blog_post.get_jsonLD(is_detail_page=True),
+            'structured_data': blog_post.get_json_ld(is_detail_page=True),
         }
         response = request.render("website_blog.blog_post_complete", values)
 
diff --git a/addons/website_blog/models/website_blog.py b/addons/website_blog/models/website_blog.py
@@ -106,46 +106,42 @@ def all_tags(self, join=False, min_limit=1):
 
         return tag_by_blog
 
-    def _get_breadcrumb_items(self):
+    def _get_breadcrumb_items(self, is_detail_page=None):
         """Return breadcrumb items for a blog page."""
-        self.ensure_one()
         website = self.env['website'].get_current_website()
         base_url = website.get_base_url()
-        return [
+        item = [
             (website.name, base_url),
-            (self.env._("Blog"), f"{base_url}/blog"),
-            (self.name, f"{base_url}{self.website_url}"),
+            (f"{self.env._('Blog Posts')} | {website.name}", f"{base_url}/blog"),
         ]
+        if is_detail_page:
+            item.append((f"{self.name} | {website.name}", f"{base_url}{self.website_url}"))
+        return item
 
     def _build_blog_schema(self, blog_details=False):
         """Return the Blog schema for a single blog.
 
-        :param posts: Optional paginated post records for hasPart.
         :param blog_details: Whether to include blog details (description, image)
         :return: Blog structured data.
         :rtype: JsonLd
         """
         self.ensure_one()
-        website = self.env['website'].get_current_website()
-        base_url = website.get_base_url()
-        slug = self.env["ir.http"]._slug(self)
-        blog_url = f"{base_url}/blog/{slug}"
-        description = None
-        image_url = None
-        organization = JsonLd("Organization", {"@id": f"{base_url}/#organization"})
-        if blog_details:
-            description = self.subtitle
-            if image_url := self._get_image_url():
-                image_url = f"{base_url}{image_url}"
-        return JsonLd(
-            "Blog",
-            {
-                "@id": f"{blog_url}/#blog",
-                "name": self.name,
-                "url": blog_url,
-                "description": description,
-            },
-        ).add_nested({"image": JsonLd("ImageObject", {"url": image_url}) if image_url else None, "publisher": organization})
+        base_url = self.get_base_url()
+        blog_slug = self.env["ir.http"]._slug(self)
+        blog_url = f"{base_url}/blog/{blog_slug}"
+        schema_data = {
+            "@id": f"{blog_url}/#blog",
+            "name": self.name,
+            "url": blog_url,
+        }
+        if blog_details and self.subtitle:
+            schema_data["description"] = self.subtitle
+        nested_schema_data = {
+            "publisher": JsonLd("Organization", {"@id": f"{base_url}/#organization"}),
+        }
+        if blog_details and (image_url := self._get_image_url()):
+            nested_schema_data["image"] = JsonLd("ImageObject", {"url": f"{base_url}{image_url}"})
+        return JsonLd("Blog", schema_data).add_nested(nested_schema_data)
 
 
 class BlogTagCategory(models.Model):
@@ -225,84 +221,84 @@ def _default_content(self):
     website_id = fields.Many2one(related='blog_id.website_id', readonly=True, store=True)
 
     def _build_summary_blog_post_schema(self):
-        """Return summary structured data for a single post.
-
-        :return: BlogPosting summary schema.
-        :rtype: JsonLd
-        """
+        """Return summary structured data for a single post."""
         self.ensure_one()
         website = self.env['website'].get_current_website()
-        base_url = website.get_base_url()
+        base_url = self.get_base_url()
         post_url = f"{base_url}{self.website_url}"
-        teaser = None
-        if website.is_view_active('website_blog.opt_posts_loop_show_teaser'):
-            teaser = self.teaser
-        messages_count = (
-            len(self.website_message_ids)
-            if website.is_view_active('website_blog.opt_posts_loop_show_stats')
-            else None
-        )
-        blog_slug = self.env['ir.http']._slug(self.blog_id)
-        image_jsonld = None
-        if website.is_view_active('website_blog.opt_posts_loop_show_cover') and (image_url := self._get_image_url()):
-            image_jsonld = JsonLd("ImageObject", {"url": base_url + image_url})
-        organization_jsonld = JsonLd("Organization", {"@id": f"{base_url}/#organization"})
-        author_sudo = self.author_id.sudo()
-        author_jsonld = organization_jsonld
-        if not author_sudo.is_company:
-            # public user don't have access to user profile, avoid including profile url
-            author_jsonld = JsonLd("Person", {"name": author_sudo.display_name})
-        is_part_of_jsonld = JsonLd("Blog", {"@id": f"{base_url}/blog/{blog_slug}/#blog"})
-        nested_schema = {
-            "image": image_jsonld,
-            "publisher": organization_jsonld,
-            "author": author_jsonld,
-            "isPartOf": is_part_of_jsonld,
+        schema_data = {
+            "headline": self.name,
+            "url": post_url,
+            "datePublished": JsonLd.to_iso_datetime(self.published_date),
+            "dateModified": JsonLd.to_iso_datetime(self.write_date),
         }
-        return JsonLd(
-            "BlogPosting",
-            {
-                "headline": self.name,
-                "url": post_url,
-                "datePublished": JsonLd.to_iso_datetime(self.published_date) if self.published_date else None,
-                "keywords": ", ".join(self.tag_ids.mapped("name")) or None,
-                "description": teaser,
-                "commentCount": messages_count,
-            },
-        ).add_nested(nested_schema)
+        if tags := self.tag_ids.mapped("name"):
+            schema_data["keywords"] = ", ".join(tags)
+        if website.is_view_active('website_blog.opt_posts_loop_show_teaser') and self.teaser:
+            schema_data["description"] = self.teaser
+        if website.is_view_active('website_blog.opt_posts_loop_show_stats') and self.website_message_ids:
+            schema_data["commentCount"] = len(self.website_message_ids)
+        nested_schema_data = {}
+        if (
+            website.is_view_active('website_blog.opt_posts_loop_show_cover')
+            and (image_url := self._get_image_url())
+        ):
+            nested_schema_data["image"] = JsonLd("ImageObject", {"url": base_url + image_url})
+        organization = JsonLd("Organization", {"@id": f"{base_url}/#organization"})
+        nested_schema_data["publisher"] = organization
+        author_sudo = self.author_id.sudo()
+        if author_sudo.is_company:
+            nested_schema_data["author"] = organization
+        else:
+            nested_schema_data["author"] = JsonLd("Person", {"name": author_sudo.display_name})
+        blog_slug = self.env['ir.http']._slug(self.blog_id)
+        nested_schema_data["isPartOf"] = JsonLd(
+            "Blog", {"@id": f"{base_url}/blog/{blog_slug}/#blog"},
+        )
+        return JsonLd("BlogPosting", schema_data).add_nested(nested_schema_data)
 
     def _get_breadcrumb_items(self):
         """Return breadcrumb items for a blog post page."""
         self.ensure_one()
         website = self.env['website'].get_current_website()
-        base_url = website.get_base_url()
-        items = self.blog_id._get_breadcrumb_items()
-        items.append((self.name, f"{base_url}{self.website_url}"))
+        base_url = self.get_base_url()
+        items = self.blog_id._get_breadcrumb_items(self.blog_id)
+        items.append((f"{self.name} | {website.name}", f"{base_url}{self.website_url}"))
         return items
 
     def _build_blog_post_schema(self):
         """Return full BlogPosting schema for a post detail page."""
         self.ensure_one()
         website = self.env['website'].get_current_website()
-        website_url = website.get_base_url()
-        blog_post_sd = self._build_summary_blog_post_schema()
-        lang_code = self.env.lang
-        in_language = lang_code.replace("_", "-") if lang_code else None
-        content_text = text_from_html(self.content, True) if self.content else None
-        word_count = len(content_text.split()) if content_text else None
+        website_url = self.get_base_url()
+        blog_post_jsonld = self._build_summary_blog_post_schema()
         image_urls = []
-        if blog_post_sd.get("image") is None and (image_url := self._get_image_url()):
-            image_urls.append(f"{website_url}{image_url}")
-        image_urls.extend(dict.fromkeys(images_from_html(self.content, website_url)))
-        if blog_post_sd.get("commentCount") is None and website.is_view_active('website_blog.opt_blog_post_comment'):
-            blog_post_sd.set({"commentCount": len(self.website_message_ids)})
-        return blog_post_sd.set({
-            "dateModified": JsonLd.to_iso_datetime(self.write_date),
-            "inLanguage": in_language,
-            "wordCount": word_count,
-        }).add_nested({
-            "image": [JsonLd("ImageObject", {"url": image_url}) for image_url in image_urls],
-        })
+        if not blog_post_jsonld.get("image"):
+            if image_url := self._get_image_url():
+                image_urls.append(f"{website_url}{image_url}")
+        if html_images := images_from_html(self.content, website_url):
+            image_urls.extend(dict.fromkeys(html_images))
+        schema_data = {}
+        if (
+            not blog_post_jsonld.get("commentCount")
+            and website.is_view_active('website_blog.opt_blog_post_comment')
+        ):
+            schema_data["commentCount"] = len(self.website_message_ids)
+        if self.env.lang:
+            schema_data["inLanguage"] = self.env.lang.replace("_", "-")
+        if self.content:
+            if content_text := text_from_html(self.content, True):
+                schema_data["wordCount"] = len(content_text.split())
+        if schema_data:
+            blog_post_jsonld.set(schema_data)
+        if image_urls:
+            blog_post_jsonld.add_nested({
+                "image": [
+                    JsonLd("ImageObject", {"url": url})
+                    for url in image_urls
+                ],
+            })
+        return blog_post_jsonld
 
     def _build_structured_data(self, is_detail_page=False):
         """Build structured data schemas for blog post pages.
@@ -320,40 +316,30 @@ def _build_structured_data(self, is_detail_page=False):
                 self._build_breadcrumb_schema(self._get_breadcrumb_items()),
             ])
             return schemas
-
-        if blog := self.env['blog.blog'].browse(self.env.context.get('blog_id')).exists():
-            schemas.append(blog._build_blog_schema(blog_details=True))
-            collection_blog = blog
-            breadcrumb_items = blog._get_breadcrumb_items()
-        else:
-            for blog_record in self.mapped('blog_id'):
-                schemas.append(blog_record._build_blog_schema())
-            collection_blog = None
-            website = self.env['website'].get_current_website()
-            base_url = website.get_base_url()
-            breadcrumb_items = [
-                (website.name, base_url),
-                (self.env._("Blog"), f"{base_url}/blog"),
-            ]
+        current_blog = self.env['blog.blog'].browse(self.env.context.get('blog_id')).exists()
+        blogs = current_blog or self.mapped('blog_id')
+        breadcrumb_items = blogs._get_breadcrumb_items(bool(current_blog))
+        for blog_record in blogs:
+            schemas.append(blog_record._build_blog_schema())
         schemas.extend([
-            self._to_structured_data_collectionpage(blog=collection_blog),
+            self._to_structured_data_collectionpage(blog=current_blog),
             self._build_breadcrumb_schema(breadcrumb_items)
         ])
         return schemas
 
     def _to_structured_data_collectionpage(self, blog=None):
         """Return the generic /blog CollectionPage schema."""
         website = self.env['website'].get_current_website()
-        if blog:
-            placeholder_name = blog.name
-        else:
-            placeholder_name = self.env._("Blog Posts")
+        collectionpage_name = f"{blog.name}" if blog else self.env._('Blog Posts')
         base_url = website.get_base_url()
-        return JsonLd(
-            "CollectionPage", {"name": f"{placeholder_name} | {website.name}", "url": f"{base_url}/blog"},
-        ).add_nested({
-            "hasPart": [post._build_summary_blog_post_schema() for post in self],
-            "isPartOf": JsonLd("Organization", {"@id": f"{base_url}/#organization"}),
+        haspart_jsonld = [post._build_summary_blog_post_schema() for post in self]
+        organization_jsonld = JsonLd("Organization", {"@id": f"{base_url}/#organization"})
+        return JsonLd("CollectionPage", {
+            "name": collectionpage_name,
+            "url": f"{base_url}/blog",
+        }).add_nested({
+            "hasPart": haspart_jsonld,
+            "isPartOf": organization_jsonld,
         })
 
     @api.depends('content', 'teaser_manual')