hastic-server/analytics/analytics/models/model.py

import utils

from abc import ABC, abstractmethod
from attrdict import AttrDict
from typing import Optional
import pandas as pd
import math
import logging

ModelCache = dict

class Segment(AttrDict):

    __percent_of_nans = 0

    def __init__(self, dataframe: pd.DataFrame, segment_map: dict, center_finder = None):
        self.update(segment_map)
        self.start = utils.timestamp_to_index(dataframe, pd.to_datetime(self['from'], unit='ms'))
        self.end = utils.timestamp_to_index(dataframe, pd.to_datetime(self['to'], unit='ms'))
        self.length = abs(self.end - self.start)

        if callable(center_finder):
            self.center_index = center_finder(dataframe, self.start, self.end)
            self.pattern_timestamp = dataframe['timestamp'][self.center_index]
        else:
            self.center_index = self.start + math.ceil(self.length / 2)
            self.pattern_timestamp = dataframe['timestamp'][self.center_index]
        
        assert len(dataframe['value']) >= self.end + 1, \
            'segment {}-{} out of dataframe length={}'.format(self.start, self.end+1, len(dataframe['value']))

        self.data = dataframe['value'][self.start: self.end + 1]

    @property
    def percent_of_nans(self):
        if not self.__percent_of_nans:
            self.__percent_of_nans = self.data.isnull().sum() / len(self.data)
        return self.__percent_of_nans

    def convert_nan_to_zero(self):
        nan_list = utils.find_nan_indexes(self.data)
        self.data = utils.nan_to_zero(self.data, nan_list)

class Model(ABC):

    HEIGHT_ERROR = 0.1
    CONV_ERROR = 0.2
    DEL_CONV_ERROR = 0.02

    @abstractmethod
    def do_fit(self, dataframe: pd.DataFrame, segments: list, cache: Optional[ModelCache], learning_info: dict) -> None:
        pass

    @abstractmethod
    def do_detect(self, dataframe: pd.DataFrame) -> list:
        pass

    @abstractmethod
    def find_segment_center(self, dataframe: pd.DataFrame, start: int, end: int) -> int:
        pass

    @abstractmethod
    def get_model_type(self) -> (str, bool):
        pass
        
    # TODO: id: str -> id: AnalyticUnitId in all models
    def fit(self, dataframe: pd.DataFrame, segments: list, id: str, cache: Optional[ModelCache]) -> ModelCache:
        logging.debug('Start method fit for analytic unit {}'.format(id))
        data = dataframe['value']
        if cache != None and len(cache) > 0:
            self.state = cache
        max_length = 0
        labeled = []
        deleted = []
        for segment_map in segments:
            if segment_map['labeled'] or segment_map['deleted']:
                segment = Segment(dataframe, segment_map, self.find_segment_center)
                if segment.percent_of_nans > 0.1 or len(segment.data) == 0:
                    continue
                if segment.percent_of_nans > 0:
                    segment.convert_nan_to_zero()
                max_length = max(segment.length, max_length)
                if segment.labeled: labeled.append(segment)
                if segment.deleted: deleted.append(segment)
        if self.state.get('WINDOW_SIZE') == 0:            
            self.state['WINDOW_SIZE'] = math.ceil(max_length / 2) if max_length else 0
        model, model_type = self.get_model_type()
        learning_info = self.get_parameters_from_segments(dataframe, labeled, deleted, model, model_type)
        self.do_fit(dataframe, labeled, deleted, learning_info, id)
        logging.debug('fit complete successful with self.state: {} for analytic unit: {}'.format(self.state, id))
        return self.state

    def detect(self, dataframe: pd.DataFrame, id: str, cache: Optional[ModelCache]) -> dict:
        #If cache is None or empty dict - default parameters will be used instead
        if cache != None and len(cache) > 0:
            self.state = cache
        else:
            logging.debug('Get empty cache in detect')
        if not self.state:
            logging.warning('self.state is empty - skip do_detect')
            return {
                'segments': [],
                'cache': {},
            }
        result = self.do_detect(dataframe, id)
        segments = [(
            utils.convert_pd_timestamp_to_ms(dataframe['timestamp'][x[0]]),
            utils.convert_pd_timestamp_to_ms(dataframe['timestamp'][x[1]]),
        ) for x in result]
        if not self.state:
            logging.warning('Return empty self.state after detect')
        return {
            'segments': segments,
            'cache': self.state,
        }

    def _update_fiting_result(self, state: dict, confidences: list, convolve_list: list, del_conv_list: list, height_list: list) -> None:
        if type(state) is dict:
            state['confidence'] = float(min(confidences, default = 1.5))
            state['convolve_min'], state['convolve_max'] = utils.get_min_max(convolve_list, state['WINDOW_SIZE'])
            state['conv_del_min'], state['conv_del_max'] = utils.get_min_max(del_conv_list, 0)
            state['height_min'], state['height_max'] = utils.get_min_max(height_list, 0)
        else:
            raise ValueError('got non-dict as state for update fiting result: {}'.format(state))
    
    def get_parameters_from_segments(self, dataframe: pd.DataFrame, labeled: list, deleted: list, model: str, model_type: bool) -> dict:
        logging.debug('Start parsing segments')
        learning_info = {
            'confidence': [],
            'patterns_list': [],
            'pattern_width': [],
            'pattern_height': [],
            'pattern_timestamp': [],
            'segment_center_list': [],
            'patterns_value': [],
        }
        data = dataframe['value']
        for segment in labeled:
            confidence = utils.find_confidence(segment.data)[0]
            learning_info['confidence'].append(confidence)
            segment_center = segment.center_index
            learning_info['segment_center_list'].append(segment_center)
            learning_info['pattern_timestamp'].append(segment.pattern_timestamp)
            aligned_segment = utils.get_interval(data, segment_center, self.state['WINDOW_SIZE'])
            aligned_segment = utils.subtract_min_without_nan(aligned_segment)
            learning_info['patterns_list'].append(aligned_segment)
            if model == 'peak' or model == 'trough':
                learning_info['pattern_height'].append(utils.find_confidence(aligned_segment)[1])
                learning_info['pattern_width'].append(utils.find_width(aligned_segment, model_type))
                learning_info['patterns_value'].append(aligned_segment.values.max())
            if model == 'jump' or model == 'drop':
                pattern_height, pattern_length = utils.find_parameters(segment.data, segment.start, model)
                learning_info['pattern_height'].append(pattern_height)
                learning_info['pattern_width'].append(pattern_length)
                learning_info['patterns_value'].append(aligned_segment.values[self.state['WINDOW_SIZE']])
        logging.debug('Parsing segments ended correctly with learning_info: {}'.format(learning_info))
        return learning_info
Make all models work && add reverse peak model (#124) - Subtract min value from dataset before passing to model - Rename StepModel -> DropModel - Use cache to save state in all models - Return `Segment { 'from': <timestamp>, 'to': <timestamp>}` instead of `Segment { 'from': <index>, 'to': <index>}` in all models - Integrate new peaks model (from https://github.com/hastic/hastic-server/pull/123) - Integrate new reverse-peaks model (from https://github.com/hastic/hastic-server/pull/123) - Refactor: make `predict` method in `Model` not abstract and remove it from all children - Refactor: add abstract `do_predict` method to models 6 years ago			`import utils`

Split out models from detectors #98 (#101) * Create abstract model class * Move detectors/_detector -> models/_model * Update Model class * Change detectors to models and move fields to self.state * Use models instead of detectors in PatternDetector * Update inits in detectors/ and models/ * Add types to resolve_model_by_pattern * Add types to abstract Model class 6 years ago			`from abc import ABC, abstractmethod`
Remove duplicates from models #357 (#363) refactoring 6 years ago			`from attrdict import AttrDict`
Make all models work && add reverse peak model (#124) - Subtract min value from dataset before passing to model - Rename StepModel -> DropModel - Use cache to save state in all models - Return `Segment { 'from': <timestamp>, 'to': <timestamp>}` instead of `Segment { 'from': <index>, 'to': <index>}` in all models - Integrate new peaks model (from https://github.com/hastic/hastic-server/pull/123) - Integrate new reverse-peaks model (from https://github.com/hastic/hastic-server/pull/123) - Refactor: make `predict` method in `Model` not abstract and remove it from all children - Refactor: add abstract `do_predict` method to models 6 years ago			`from typing import Optional`
Consider segment width in models #136 (#141) * fit -> do_fit in all models && add self.segment_length * Move converting indices to timestamps to Model class * add flexible win size to all models 6 years ago			`import pandas as pd`
			`import math`
Keyerror pattern model #471 (#476) 5 years ago			`import logging`
analytics: detector class + more types + remove Model.(save/load) 6 years ago
Error: detect missing cache #299 (#302) * Pass cache to detect * rename AnalyticUnitCache to ModelCache * Send .data from cache * Drop nans from bucket && set window size from cache && check cache None * Read proper payload on DETECT message 6 years ago			`ModelCache = dict`

Remove duplicates from models #357 (#363) refactoring 6 years ago			`class Segment(AttrDict):`

			`__percent_of_nans = 0`

Increase the number of parameters obtained during learning #364 (#383) Increase the number of parameters obtained during learning #364 5 years ago			`def __init__(self, dataframe: pd.DataFrame, segment_map: dict, center_finder = None):`
Remove duplicates from models #357 (#363) refactoring 6 years ago			`self.update(segment_map)`
			`self.start = utils.timestamp_to_index(dataframe, pd.to_datetime(self['from'], unit='ms'))`
			`self.end = utils.timestamp_to_index(dataframe, pd.to_datetime(self['to'], unit='ms'))`
			`self.length = abs(self.end - self.start)`

Increase the number of parameters obtained during learning #364 (#383) Increase the number of parameters obtained during learning #364 5 years ago			`if callable(center_finder):`
			`self.center_index = center_finder(dataframe, self.start, self.end)`
			`self.pattern_timestamp = dataframe['timestamp'][self.center_index]`
			`else:`
			`self.center_index = self.start + math.ceil(self.length / 2)`
			`self.pattern_timestamp = dataframe['timestamp'][self.center_index]`

Remove duplicates from models #357 (#363) refactoring 6 years ago			`assert len(dataframe['value']) >= self.end + 1, \`
			`'segment {}-{} out of dataframe length={}'.format(self.start, self.end+1, len(dataframe['value']))`

			`self.data = dataframe['value'][self.start: self.end + 1]`

			`@property`
			`def percent_of_nans(self):`
			`if not self.__percent_of_nans:`
			`self.__percent_of_nans = self.data.isnull().sum() / len(self.data)`
			`return self.__percent_of_nans`

			`def convert_nan_to_zero(self):`
			`nan_list = utils.find_nan_indexes(self.data)`
			`self.data = utils.nan_to_zero(self.data, nan_list)`
Split out models from detectors #98 (#101) * Create abstract model class * Move detectors/_detector -> models/_model * Update Model class * Change detectors to models and move fields to self.state * Use models instead of detectors in PatternDetector * Update inits in detectors/ and models/ * Add types to resolve_model_by_pattern * Add types to abstract Model class 6 years ago
			`class Model(ABC):`

Change the pattern filtering logic #366 (#423) 5 years ago			`HEIGHT_ERROR = 0.1`
			`CONV_ERROR = 0.2`
			`DEL_CONV_ERROR = 0.02`

Split out models from detectors #98 (#101) * Create abstract model class * Move detectors/_detector -> models/_model * Update Model class * Change detectors to models and move fields to self.state * Use models instead of detectors in PatternDetector * Update inits in detectors/ and models/ * Add types to resolve_model_by_pattern * Add types to abstract Model class 6 years ago			`@abstractmethod`
Remove duplicate code from models #390 (#391) just refactoring 5 years ago			`def do_fit(self, dataframe: pd.DataFrame, segments: list, cache: Optional[ModelCache], learning_info: dict) -> None:`
Split out models from detectors #98 (#101) * Create abstract model class * Move detectors/_detector -> models/_model * Update Model class * Change detectors to models and move fields to self.state * Use models instead of detectors in PatternDetector * Update inits in detectors/ and models/ * Add types to resolve_model_by_pattern * Add types to abstract Model class 6 years ago			`pass`

			`@abstractmethod`
Rename predict to detect #279 (#284) * dummy rename * fixes * renaming in analytics 6 years ago			`def do_detect(self, dataframe: pd.DataFrame) -> list:`
Split out models from detectors #98 (#101) * Create abstract model class * Move detectors/_detector -> models/_model * Update Model class * Change detectors to models and move fields to self.state * Use models instead of detectors in PatternDetector * Update inits in detectors/ and models/ * Add types to resolve_model_by_pattern * Add types to abstract Model class 6 years ago			`pass`
Make all models work && add reverse peak model (#124) - Subtract min value from dataset before passing to model - Rename StepModel -> DropModel - Use cache to save state in all models - Return `Segment { 'from': <timestamp>, 'to': <timestamp>}` instead of `Segment { 'from': <index>, 'to': <index>}` in all models - Integrate new peaks model (from https://github.com/hastic/hastic-server/pull/123) - Integrate new reverse-peaks model (from https://github.com/hastic/hastic-server/pull/123) - Refactor: make `predict` method in `Model` not abstract and remove it from all children - Refactor: add abstract `do_predict` method to models 6 years ago
Increase the number of parameters obtained during learning #364 (#383) Increase the number of parameters obtained during learning #364 5 years ago			`@abstractmethod`
			`def find_segment_center(self, dataframe: pd.DataFrame, start: int, end: int) -> int:`
			`pass`

Remove duplicate code from models #390 (#391) just refactoring 5 years ago			`@abstractmethod`
			`def get_model_type(self) -> (str, bool):`
			`pass`
Not-ending learning #264 (#484) - optimize general model - add logs 5 years ago
			`# TODO: id: str -> id: AnalyticUnitId in all models`
			`def fit(self, dataframe: pd.DataFrame, segments: list, id: str, cache: Optional[ModelCache]) -> ModelCache:`
			`logging.debug('Start method fit for analytic unit {}'.format(id))`
Update state during learning #406 (#408) 5 years ago			`data = dataframe['value']`
Keyerror pattern model #471 (#476) 5 years ago			`if cache != None and len(cache) > 0:`
Consider segment width in models #136 (#141) * fit -> do_fit in all models && add self.segment_length * Move converting indices to timestamps to Model class * add flexible win size to all models 6 years ago			`self.state = cache`
Remove duplicates from models #357 (#363) refactoring 6 years ago			`max_length = 0`
			`labeled = []`
			`deleted = []`
			`for segment_map in segments:`
			`if segment_map['labeled'] or segment_map['deleted']:`
Increase the number of parameters obtained during learning #364 (#383) Increase the number of parameters obtained during learning #364 5 years ago			`segment = Segment(dataframe, segment_map, self.find_segment_center)`
Remove duplicates from models #357 (#363) refactoring 6 years ago			`if segment.percent_of_nans > 0.1 or len(segment.data) == 0:`
IndexError: list index out of range if segment has NaN #242 (#349) add threshold in model 6 years ago			`continue`
Remove duplicates from models #357 (#363) refactoring 6 years ago			`if segment.percent_of_nans > 0:`
			`segment.convert_nan_to_zero()`
			`max_length = max(segment.length, max_length)`
			`if segment.labeled: labeled.append(segment)`
			`if segment.deleted: deleted.append(segment)`
Update state during learning #406 (#408) 5 years ago			`if self.state.get('WINDOW_SIZE') == 0:`
			`self.state['WINDOW_SIZE'] = math.ceil(max_length / 2) if max_length else 0`
Remove duplicate code from models #390 (#391) just refactoring 5 years ago			`model, model_type = self.get_model_type()`
			`learning_info = self.get_parameters_from_segments(dataframe, labeled, deleted, model, model_type)`
Not-ending learning #264 (#484) - optimize general model - add logs 5 years ago			`self.do_fit(dataframe, labeled, deleted, learning_info, id)`
			`logging.debug('fit complete successful with self.state: {} for analytic unit: {}'.format(self.state, id))`
Consider segment width in models #136 (#141) * fit -> do_fit in all models && add self.segment_length * Move converting indices to timestamps to Model class * add flexible win size to all models 6 years ago			`return self.state`

Not-ending learning #264 (#484) - optimize general model - add logs 5 years ago			`def detect(self, dataframe: pd.DataFrame, id: str, cache: Optional[ModelCache]) -> dict:`
Keyerror pattern model #471 (#476) 5 years ago			`#If cache is None or empty dict - default parameters will be used instead`
			`if cache != None and len(cache) > 0:`
Make all models work && add reverse peak model (#124) - Subtract min value from dataset before passing to model - Rename StepModel -> DropModel - Use cache to save state in all models - Return `Segment { 'from': <timestamp>, 'to': <timestamp>}` instead of `Segment { 'from': <index>, 'to': <index>}` in all models - Integrate new peaks model (from https://github.com/hastic/hastic-server/pull/123) - Integrate new reverse-peaks model (from https://github.com/hastic/hastic-server/pull/123) - Refactor: make `predict` method in `Model` not abstract and remove it from all children - Refactor: add abstract `do_predict` method to models 6 years ago			`self.state = cache`
Keyerror pattern model #471 (#476) 5 years ago			`else:`
Not-ending learning #264 (#484) - optimize general model - add logs 5 years ago			`logging.debug('Get empty cache in detect')`
Keyerror pattern model #471 (#476) 5 years ago			`if not self.state:`
			`logging.warning('self.state is empty - skip do_detect')`
			`return {`
			`'segments': [],`
			`'cache': {},`
			`}`
Not-ending learning #264 (#484) - optimize general model - add logs 5 years ago			`result = self.do_detect(dataframe, id)`
Consider segment width in models #136 (#141) * fit -> do_fit in all models && add self.segment_length * Move converting indices to timestamps to Model class * add flexible win size to all models 6 years ago			`segments = [(`
Find start and end of peaks and troughs #506 (#507) 5 years ago			`utils.convert_pd_timestamp_to_ms(dataframe['timestamp'][x[0]]),`
			`utils.convert_pd_timestamp_to_ms(dataframe['timestamp'][x[1]]),`
Consider segment width in models #136 (#141) * fit -> do_fit in all models && add self.segment_length * Move converting indices to timestamps to Model class * add flexible win size to all models 6 years ago			`) for x in result]`
Keyerror pattern model #471 (#476) 5 years ago			`if not self.state:`
Not-ending learning #264 (#484) - optimize general model - add logs 5 years ago			`logging.warning('Return empty self.state after detect')`
Make all models work && add reverse peak model (#124) - Subtract min value from dataset before passing to model - Rename StepModel -> DropModel - Use cache to save state in all models - Return `Segment { 'from': <timestamp>, 'to': <timestamp>}` instead of `Segment { 'from': <index>, 'to': <index>}` in all models - Integrate new peaks model (from https://github.com/hastic/hastic-server/pull/123) - Integrate new reverse-peaks model (from https://github.com/hastic/hastic-server/pull/123) - Refactor: make `predict` method in `Model` not abstract and remove it from all children - Refactor: add abstract `do_predict` method to models 6 years ago			`return {`
Consider segment width in models #136 (#141) * fit -> do_fit in all models && add self.segment_length * Move converting indices to timestamps to Model class * add flexible win size to all models 6 years ago			`'segments': segments,`
Keyerror pattern model #471 (#476) 5 years ago			`'cache': self.state,`
Make all models work && add reverse peak model (#124) - Subtract min value from dataset before passing to model - Rename StepModel -> DropModel - Use cache to save state in all models - Return `Segment { 'from': <timestamp>, 'to': <timestamp>}` instead of `Segment { 'from': <index>, 'to': <index>}` in all models - Integrate new peaks model (from https://github.com/hastic/hastic-server/pull/123) - Integrate new reverse-peaks model (from https://github.com/hastic/hastic-server/pull/123) - Refactor: make `predict` method in `Model` not abstract and remove it from all children - Refactor: add abstract `do_predict` method to models 6 years ago			`}`
Remove duplicates from models #357 (#363) refactoring 6 years ago
Change the pattern filtering logic #366 (#423) 5 years ago			`def _update_fiting_result(self, state: dict, confidences: list, convolve_list: list, del_conv_list: list, height_list: list) -> None:`
Remove duplicates from models #357 (#363) refactoring 6 years ago			`if type(state) is dict:`
			`state['confidence'] = float(min(confidences, default = 1.5))`
			`state['convolve_min'], state['convolve_max'] = utils.get_min_max(convolve_list, state['WINDOW_SIZE'])`
Change the pattern filtering logic #366 (#423) 5 years ago			`state['conv_del_min'], state['conv_del_max'] = utils.get_min_max(del_conv_list, 0)`
			`state['height_min'], state['height_max'] = utils.get_min_max(height_list, 0)`
Remove duplicates from models #357 (#363) refactoring 6 years ago			`else:`
			`raise ValueError('got non-dict as state for update fiting result: {}'.format(state))`
Remove duplicate code from models #390 (#391) just refactoring 5 years ago
			`def get_parameters_from_segments(self, dataframe: pd.DataFrame, labeled: list, deleted: list, model: str, model_type: bool) -> dict:`
Not-ending learning #264 (#484) - optimize general model - add logs 5 years ago			`logging.debug('Start parsing segments')`
Remove duplicate code from models #390 (#391) just refactoring 5 years ago			`learning_info = {`
			`'confidence': [],`
			`'patterns_list': [],`
			`'pattern_width': [],`
			`'pattern_height': [],`
			`'pattern_timestamp': [],`
			`'segment_center_list': [],`
Change the pattern filtering logic #366 (#423) 5 years ago			`'patterns_value': [],`
Remove duplicate code from models #390 (#391) just refactoring 5 years ago			`}`
			`data = dataframe['value']`
			`for segment in labeled:`
			`confidence = utils.find_confidence(segment.data)[0]`
			`learning_info['confidence'].append(confidence)`
			`segment_center = segment.center_index`
			`learning_info['segment_center_list'].append(segment_center)`
			`learning_info['pattern_timestamp'].append(segment.pattern_timestamp)`
			`aligned_segment = utils.get_interval(data, segment_center, self.state['WINDOW_SIZE'])`
			`aligned_segment = utils.subtract_min_without_nan(aligned_segment)`
			`learning_info['patterns_list'].append(aligned_segment)`
			`if model == 'peak' or model == 'trough':`
			`learning_info['pattern_height'].append(utils.find_confidence(aligned_segment)[1])`
			`learning_info['pattern_width'].append(utils.find_width(aligned_segment, model_type))`
Change the pattern filtering logic #366 (#423) 5 years ago			`learning_info['patterns_value'].append(aligned_segment.values.max())`
Remove duplicate code from models #390 (#391) just refactoring 5 years ago			`if model == 'jump' or model == 'drop':`
			`pattern_height, pattern_length = utils.find_parameters(segment.data, segment.start, model)`
			`learning_info['pattern_height'].append(pattern_height)`
			`learning_info['pattern_width'].append(pattern_length)`
Change the pattern filtering logic #366 (#423) 5 years ago			`learning_info['patterns_value'].append(aligned_segment.values[self.state['WINDOW_SIZE']])`
Not-ending learning #264 (#484) - optimize general model - add logs 5 years ago			`logging.debug('Parsing segments ended correctly with learning_info: {}'.format(learning_info))`
Remove duplicate code from models #390 (#391) just refactoring 5 years ago			`return learning_info`