RFC-021: Modularization Refactoring Plan¶

Status: Completed (Historical Reference)
Authors:
Stakeholders: Maintainers, developers implementing OpenAI providers
Related ADRs:
ADR-020: Protocol-Based Provider Discovery
Related RFCs:
docs/rfc/RFC-013-openai-provider-implementation.md - OpenAI provider implementation (built on this plan)
docs/rfc/RFC-016-modularization-for-ai-experiments.md - Provider system architecture
docs/rfc/RFC-017-prompt-management.md - Prompt management (aligned with this plan)
Related PRDs:
docs/prd/PRD-006-openai-provider-integration.md - OpenAI provider product requirements

Overview¶

Note: This RFC documents the modularization refactoring plan that was implemented to enable OpenAI provider integration. The refactoring is complete, and this document is kept as a historical reference for understanding the architecture decisions.

This document outlines the refactoring plan to modularize the podcast scraper architecture, enabling easy integration of OpenAI API as a replacement for on-device AI/ML components.

North Star Goal: Easily plug in OpenAI API as replacement for on-device AI/ML (speaker detection, transcription, summarization) without major refactoring.

Scope: This refactoring focuses on three key areas:

Speaker Detection (NER → OpenAI API)
Transcription (Whisper local → OpenAI Whisper API)
Summarization (Local transformers → OpenAI API)

Out of Scope: RSS feed source abstraction (can be addressed separately later)

Current Architecture Assessment¶

Modularity Scores¶

Area	Score	Status	Priority
Speaker Detection	5/10	Moderate	HIGH
Transcription	6/10	Moderate	HIGH
Summarization	4/10	Low	HIGH
RSS Feed Source	2/10	Low	IGNORED

1. Speaker Detection Abstraction¶

Current State¶

Moderate Coupling Points:

workflow.py directly imports speaker detection:

from . import speaker_detection

nlp = speaker_detection.get_ner_model(cfg)  # NER-specific
hosts = speaker_detection.detect_hosts_from_feed(...)  # NER-specific

config.py has NER-specific fields:

ner_model: Optional[str] = Field(default=None, alias="ner_model")
auto_speakers: bool = Field(default=True, alias="auto_speakers")

speaker_detection.py is tightly coupled to spaCy:
Direct spacy.load() calls
NER-specific entity extraction
No abstraction layer
Large functions (detect_speaker_names() ~250 lines, extract_person_entities() ~170 lines)

Current Modularity Score: 5/10

Speaker detection is isolated in its own module
Functions are reasonably abstract (detect_speaker_names())
Hardcoded to NER/spaCy implementation
Cannot easily swap to OpenAI API or other services
Config tied to NER model names
Large functions with multiple responsibilities

Target Architecture¶

Protocol-Based Provider System:

# podcast_scraper/speaker_detectors/base.py

from typing import Protocol, List, Set, Optional, Dict, Any, Tuple
from .. import config, models

class SpeakerDetector(Protocol):
    """Protocol for speaker detection providers."""

    def detect_hosts(
        self,
        feed_title: str,
        feed_description: Optional[str],
        feed_authors: Optional[List[str]],
    ) -> Set[str]:
        """Detect hosts from feed metadata."""
        ...

    def detect_speakers(
        self,
        episode_title: str,
        episode_description: Optional[str],
        known_hosts: Set[str],
    ) -> Tuple[List[str], Set[str], bool]:

```text

        """Detect speakers for an episode.

```python

    def analyze_patterns(
        self,
        episodes: List[models.Episode],
        known_hosts: Set[str],
    ) -> Optional[Dict[str, Any]]:
        """Analyze episode patterns for heuristics."""
        ...

```python

from .. import config

```python

from .base import SpeakerDetector

class SpeakerDetectorFactory:
    """Factory for creating speaker detectors."""

    @staticmethod
    def create(cfg: config.Config) -> Optional[SpeakerDetector]:
        if not cfg.auto_speakers:
            return None

        detector_type = cfg.speaker_detector_provider  # 'ner', 'openai', etc. (renamed from speaker_detector_type)
        if detector_type == 'ner':
            from .ner_detector import NERSpeakerDetector
            return NERSpeakerDetector(cfg)
        elif detector_type == 'openai':
            from .openai_detector import OpenAISpeakerDetector
            return OpenAISpeakerDetector(cfg)
        return None

```text

1. **Add provider type field to `config.py`:**

   ```python
   speaker_detector_type: Literal["ner", "openai"] = Field(default="ner")

   # Keep ner_model for backward compatibility

   ner_model: Optional[str] = Field(default=None, alias="ner_model")

Create protocol definitions:
Create podcast_scraper/speaker_detectors/ package
Define SpeakerDetector protocol in base.py
No implementation changes yet
Create factory function:
Create factory.py with SpeakerDetectorFactory.create()
Returns current NER implementation wrapped in protocol

Phase 2: Refactor Current Implementation - Speaker Detection¶

Refactor speaker_detection.py → speaker_detectors/ner_detector.py:
Extract helper functions from large functions:
- _calculate_heuristic_score() - Extract from detect_speaker_names()
- _build_guest_candidates() - Process title/description guests
- _select_best_guest() - Select guest with highest score
- _extract_entities_from_text() - Core NER extraction
- _extract_entities_from_segments() - Segment-based fallback
- _pattern_based_fallback() - Pattern matching fallback
Implement SpeakerDetector protocol
Wrap existing functions as methods
Update workflow.py:

```python from .speaker_detectors import SpeakerDetectorFactory

detector = SpeakerDetectorFactory.create(cfg) if detector:

```text

   hosts = detector.detect_hosts(feed.title, feed.description, feed.authors)

### Phase 3: Add OpenAI Provider - Speaker Detection (Future)

1. **Create `speaker_detectors/openai_detector.py`:**
   - Implement `SpeakerDetector` protocol
   - Use OpenAI API for entity extraction
   - Map OpenAI responses to expected format

2. **Update factory:**
   - Add OpenAI detector to factory
   - Update config with OpenAI options

**Benefits:**

- Easy to add OpenAI API for speaker detection
- Can use multiple detectors (fallback chain)
- Testable with mock detectors
- Backward compatible (NER remains default)
- Better code organization (smaller functions)

**Effort:** Medium (2-3 days)

---

## 2. Transcription Abstraction

### Current State (Transcription)

**Moderate Coupling Points:**

1. **`workflow.py`** directly imports Whisper:

   ```python
   from . import whisper_integration as whisper

   whisper_model = whisper.load_whisper_model(cfg)  # Whisper-specific
   result, elapsed = whisper.transcribe_with_whisper(...)  # Whisper-specific
   ```

2. **`episode_processor.py`** has Whisper-specific code:

   ```python
   from . import whisper_integration as whisper

   result, tc_elapsed = whisper.transcribe_with_whisper(whisper_model, temp_media, cfg)
   ```

3. **`config.py`** has Whisper-specific fields:

   ```python
   whisper_model: str = Field(default="base", alias="whisper_model")
   transcribe_missing: bool = Field(default=False, alias="transcribe_missing")
   ```

4. **`_TranscriptionResources`** has Whisper model hardcoded:

   ```python
   class _TranscriptionResources(NamedTuple):
       whisper_model: Any  # Whisper-specific type
   ```

**Current Modularity Score: 6/10**

- Transcription logic is isolated in `whisper_integration.py`
- Functions are reasonably abstract (`transcribe_with_whisper()`)
- Hardcoded to Whisper library
- Cannot easily swap to OpenAI Whisper API or other services
- Config tied to Whisper model names
- Resource management assumes local model loading

### Target Architecture (Transcription)

**Protocol-Based Provider System:**

````python

# podcast_scraper/transcription/base.py

from typing import Protocol, Dict, Optional, Tuple, Any
from .. import config

class TranscriptionProvider(Protocol):
    """Protocol for transcription providers."""

    def initialize(self, cfg: config.Config) -> Optional[Any]:
        """Initialize provider (load model, setup API client, etc.).

        Returns:
            Provider-specific resource object or None if initialization fails
        """
        ...

    def transcribe(
        self,
        media_path: str,
        cfg: config.Config,
        resource: Any,  # Provider-specific resource
    ) -> Tuple[Dict[str, Any], float]:

```text

        """Transcribe media file.

    Returns:
        Tuple of (result_dict, elapsed_seconds)
        result_dict should have 'text' and optionally 'segments'
    """
    ...

    def cleanup(self, resource: Any) -> None:
        """Cleanup provider resources."""
        ...

```python

from .. import config

```python

from .base import TranscriptionProvider

class TranscriptionProviderFactory:
    """Factory for creating transcription providers."""

    @staticmethod
    def create(cfg: config.Config) -> Optional[TranscriptionProvider]:
        if not cfg.transcribe_missing:
            return None

        provider_type = cfg.transcription_provider  # 'whisper', 'openai', etc.
        if provider_type == 'whisper':
            from .whisper_provider import WhisperTranscriptionProvider
            return WhisperTranscriptionProvider()
        elif provider_type == 'openai':
            from .openai_provider import OpenAITranscriptionProvider
            return OpenAITranscriptionProvider(cfg)
        return None

```text

1. **Add provider type field to `config.py`:**

   ```python
   transcription_provider: Literal["whisper", "openai"] = Field(default="whisper")

   # Keep whisper_model for backward compatibility

   whisper_model: str = Field(default="base", alias="whisper_model")

````

1. **Create protocol definitions:**
   - Create `podcast_scraper/transcription/` package
   - Define `TranscriptionProvider` protocol in `base.py`
   - No implementation changes yet

2. **Create factory function:**
   - Create `factory.py` with `TranscriptionProviderFactory.create()`
   - Returns current Whisper implementation wrapped in protocol

## Phase 2: Refactor Current Implementation - Transcription

1. **Refactor `whisper_integration.py` → `transcription/whisper_provider.py`:**
   - Keep all current logic
   - Implement `TranscriptionProvider` protocol
   - Wrap existing functions as methods
   - Extract helper functions from `transcribe_media_to_text()`:
     - `_format_transcript_if_needed()` - Screenplay formatting logic
     - `_save_transcript_file()` - File writing logic
     - `_cleanup_temp_media()` - Cleanup logic

2. **Update `workflow.py`:**

   ```python
   from .transcription import TranscriptionProviderFactory

   provider = TranscriptionProviderFactory.create(cfg)
   if provider:

```text

       resource = provider.initialize(cfg)
       result, elapsed = provider.transcribe(media_path, cfg, resource)

```python

3. **Update `_TranscriptionResources`:**

   ```python
   class _TranscriptionResources(NamedTuple):
       provider: Optional[TranscriptionProvider]
       resource: Any  # Provider-specific resource
       temp_dir: Optional[str]
       transcription_jobs: List[models.TranscriptionJob]

```text

       # ... rest

Phase 3: Add OpenAI Provider - Transcription (Future)¶

Create transcription/openai_provider.py:
Implement TranscriptionProvider protocol
Use OpenAI Whisper API
Handle API authentication and rate limiting
Map OpenAI responses to expected format
Update factory:
Add OpenAI provider to factory
Update config with OpenAI options

Benefits:

Easy to add OpenAI Whisper API
Can support both local (Whisper) and cloud (API) providers
Testable with mock providers
Backward compatible (Whisper remains default)
Better resource management (provider-specific cleanup)

Effort: Medium-High (3-4 days)

3. Summarization Abstraction¶

Current State (Summarization)¶

Tight Coupling Points:

workflow.py directly imports summarizer:

from . import summarizer

model_name = summarizer.select_summary_model(cfg)  # Local model-specific
summary_model = summarizer.SummaryModel(...)  # Local model-specific

metadata.py has summarization logic:

from . import summarizer

summary_metadata = _generate_episode_summary(...)  # Uses local models

config.py has local model-specific fields:

summary_model: Optional[str] = Field(default=None, alias="summary_model")
summary_provider: Literal["local"] = Field(default="local")
generate_summaries: bool = Field(default=False, alias="generate_summaries")

summarizer.py is tightly coupled to HuggingFace transformers:
Direct AutoModelForSeq2SeqLM.from_pretrained() calls
Local model loading and caching
No abstraction layer

Current Modularity Score: 4/10

Summarization logic is isolated in summarizer.py
Hardcoded to local HuggingFace models
Cannot easily swap to OpenAI API
Config tied to HuggingFace model names
Resource management assumes local model loading
Large metadata.py functions (generate_episode_metadata() ~200 lines)

Target Architecture (Summarization)¶

Protocol-Based Provider System:

# podcast_scraper/summarization/base.py

from typing import Protocol, Optional, Dict, Any
from .. import config

class SummarizationProvider(Protocol):
    """Protocol for summarization providers."""

    def initialize(self, cfg: config.Config) -> Optional[Any]:
        """Initialize provider (load model, setup API client, etc.).

        Returns:
            Provider-specific resource object or None if initialization fails
        """
        ...

    def summarize(
        self,
        text: str,
        cfg: config.Config,
        resource: Any,  # Provider-specific resource
        max_length: Optional[int] = None,
        min_length: Optional[int] = None,
    ) -> Dict[str, Any]:

```text
        """Summarize text.
```

        Args:
            text: Text to summarize
            cfg: Configuration object
            resource: Provider-specific resource (model, client, etc.)
            max_length: Maximum summary length
            min_length: Minimum summary length

```python

    def summarize_chunks(
        self,
        chunks: List[str],
        cfg: config.Config,
        resource: Any,
    ) -> List[str]:
        """Summarize multiple text chunks (MAP phase).

```python

    def combine_summaries(
        self,
        summaries: List[str],
        cfg: config.Config,
        resource: Any,
    ) -> str:
        """Combine multiple summaries into final summary (REDUCE phase).

```python

    def cleanup(self, resource: Any) -> None:
        """Cleanup provider resources."""
        ...

```python

from .. import config

```python

from .base import SummarizationProvider

class SummarizationProviderFactory:
    """Factory for creating summarization providers."""

    @staticmethod
    def create(cfg: config.Config) -> Optional[SummarizationProvider]:
        if not cfg.generate_summaries:
            return None

        provider_type = cfg.summary_provider  # 'transformers', 'openai', etc.
        if provider_type == 'transformers':
            from .transformers_provider import TransformersSummarizationProvider
            return TransformersSummarizationProvider(cfg)
        elif provider_type == 'openai':
            from .openai_provider import OpenAISummarizationProvider
            return OpenAISummarizationProvider(cfg)
        return None

```text

1. **Add provider type field to `config.py`:**

   ```python
   summary_provider: Literal["transformers", "openai"] = Field(default="transformers")

   # Keep summary_model for backward compatibility

   summary_model: Optional[str] = Field(default=None, alias="summary_model")

Create protocol definitions:
Create podcast_scraper/summarization/ package
Define SummarizationProvider protocol in base.py
No implementation changes yet
Create factory function:
Create factory.py with SummarizationProviderFactory.create()
Returns current local implementation wrapped in protocol

Phase 2: Refactor Current Implementation - Summarization¶

Extract Preprocessing to Shared Module:
Create podcast_scraper/preprocessing.py module
Move clean_transcript(), remove_sponsor_blocks(), clean_for_summarization() from summarizer.py
These functions are provider-agnostic and should be called BEFORE provider selection
Update metadata.py to use shared preprocessing module
Refactor summarizer.py → summarization/transformers_provider.py:
Keep all current logic
Implement SummarizationProvider protocol
Wrap existing SummaryModel class as provider
Remove preprocessing functions (moved to shared module)
Extract helper functions from metadata.py:

     - `_build_feed_metadata()` - Construct FeedMetadata
     - `_build_episode_metadata()` - Construct EpisodeMetadata
     - `_build_content_metadata()` - Construct ContentMetadata
     - `_build_processing_metadata()` - Construct ProcessingMetadata

```python

3. **Update `workflow.py`:**

   ```python
   from .summarization import SummarizationProviderFactory

   provider = SummarizationProviderFactory.create(cfg)
   if provider:

```text

       resource = provider.initialize(cfg)

Phase 3: Add OpenAI Provider - Summarization (Future)¶

Create summarization/openai_provider.py:
Implement SummarizationProvider protocol
Use OpenAI API for summarization
Handle chunking for long texts (MAP phase)
Combine summaries (REDUCE phase)
Handle API authentication and rate limiting
Update factory:
Add OpenAI provider to factory
Update config with OpenAI options

Benefits:

Easy to add OpenAI API for summarization
Can support both local (transformers) and cloud (API) providers
Testable with mock providers
Backward compatible (local remains default)
Better resource management
Cleaner metadata.py (smaller functions)

Effort: Medium-High (3-4 days)

Implementation Priority & Timeline¶

Recommended Order¶

Phase 1: Transcription Abstraction (Highest Impact)
Already has good isolation
Most likely to need alternatives (OpenAI Whisper API)
Medium complexity
Effort: 3-4 days
Phase 2: Speaker Detection Abstraction (Medium Impact)
Good isolation already
May want OpenAI API for better accuracy
Medium complexity
Effort: 2-3 days
Phase 3: Summarization Abstraction (High Impact)
Most tightly coupled currently
OpenAI API would be most valuable here
Medium-High complexity
Effort: 3-4 days

Total Estimated Effort: 8-11 days for all three abstractions

Quick Wins (Can Do Now - No Breaking Changes)¶

Add Provider Type Fields to Config:

# config.py

speaker_detector_provider: Literal["ner", "openai"] = Field(default="ner")  # Renamed from speaker_detector_type
transcription_provider: Literal["whisper", "openai"] = Field(default="whisper")
summary_provider: Literal["transformers", "openai"] = Field(default="transformers")

Create Protocol/ABC Definitions:
Define interfaces now
Implement later when needed
Makes intent clear
Enables type checking
Extract Provider Factories:
Create factory functions that return current implementations
Use factories in workflow
Makes swapping easier later

Effort: 1 day

File Structure (Proposed)¶

podcast_scraper/
├── preprocessing.py         # NEW: Provider-agnostic preprocessing utilities
│                           # - clean_transcript() (timestamp removal, speaker normalization)
│                           # - remove_sponsor_blocks() (ad removal)
│                           # - clean_for_summarization() (combined cleaning)
│                           # Called BEFORE provider selection in metadata.py/workflow.py
├── speaker_detectors/
│   ├── __init__.py
│   ├── base.py              # SpeakerDetector protocol
│   ├── factory.py           # SpeakerDetectorFactory
│   ├── ner_detector.py      # Current NER implementation (refactored)
│   └── openai_detector.py   # Future OpenAI implementation
├── transcription/
│   ├── __init__.py
│   ├── base.py              # TranscriptionProvider protocol
│   ├── factory.py           # TranscriptionProviderFactory
│   ├── whisper_provider.py # Current Whisper implementation (refactored)
│   └── openai_provider.py  # Future OpenAI Whisper API implementation
├── summarization/
│   ├── __init__.py
│   ├── base.py                    # SummarizationProvider protocol
│   ├── factory.py                 # SummarizationProviderFactory
│   ├── transformers_provider.py   # Current HuggingFace transformers implementation (refactored)
│   └── openai_provider.py         # Future OpenAI API implementation
├── workflow.py              # Uses factories, calls preprocessing
├── metadata.py              # Refactored (smaller functions), calls preprocessing BEFORE providers
├── config.py                # Has provider type fields
└── ...

```text

1. **Backward Compatibility First**
   - Default to current implementations
   - Add new fields as optional
   - Don't break existing code
   - Keep existing config fields for compatibility

2. **Protocols Over Inheritance**
   - Use `Protocol` for flexibility
   - Easier to mock and test
   - No forced inheritance hierarchy
   - Enables duck typing

3. **Factory Pattern**
   - Centralized provider creation
   - Easy to swap implementations
   - Configuration-driven
   - Single point of change

4. **Gradual Migration**
   - Can implement incrementally
   - Test at each step
   - No big-bang refactoring
   - Each phase delivers value

5. **Testability**
   - Mock providers for unit tests
   - Integration tests with real providers
   - Backward compatibility tests
   - Provider-specific tests

6. **North Star: OpenAI API Ready**
   - All abstractions designed with OpenAI API in mind
   - Easy to add OpenAI providers after refactoring
   - No additional refactoring needed for OpenAI integration

---

## Migration Strategy

### Backward Compatibility

- Keep all existing config fields
- Default to current implementations
- Add new fields as optional
- Deprecate old fields gradually (if needed)

### Testing Strategy

- Create mock providers for testing
- Test workflow with different providers
- Ensure backward compatibility tests pass
- Test provider switching

### Rollout Plan

1. **Week 1:** Quick wins + Transcription abstraction
2. **Week 2:** Speaker detection abstraction
3. **Week 3:** Summarization abstraction
4. **Week 4:** Testing, documentation, cleanup

---

## Success Criteria

 Can add OpenAI API providers without modifying core workflow
 All existing functionality preserved
 Tests pass with both old and new providers
 Config remains backward compatible
 Code is more maintainable (smaller functions, clearer structure)
 Ready for OpenAI API integration as next step

---

## Next Steps After Refactoring

Once this refactoring is complete, adding OpenAI API providers will be straightforward:

1. **OpenAI Speaker Detection:**
   - Create `speaker_detectors/openai_detector.py`
   - Implement `SpeakerDetector` protocol
   - Use OpenAI API for entity extraction
   - Add to factory

2. **OpenAI Whisper Transcription:**
   - Create `transcription/openai_provider.py`
   - Implement `TranscriptionProvider` protocol
   - Use OpenAI Whisper API
   - Add to factory

3. **OpenAI Summarization:**
   - Create `summarization/openai_provider.py`
   - Implement `SummarizationProvider` protocol
   - Use OpenAI API for summarization
   - Handle MAP/REDUCE phases
   - Add to factory

**Estimated Effort for OpenAI Integration:** 3-5 days (after refactoring)

---

## Notes

- All refactoring should maintain existing functionality
- Add tests for extracted functions and new providers
- Update docstrings to reflect new structure
- Consider backward compatibility for public APIs
- Document provider interfaces clearly
- Provide examples for each provider type