Comentarios sobre Item-Based CF

Aug 21, 2016 · 2 minute read · Comments
recsys

El paper aborda el tema de la escalabilidad y esparcicidad de los Filtros Colaborativos. En particular el cuello de botella ocurre al buscar los vecinos más cercanos de los usuarios, que se complica más cuando empiezan a aparecer más personas. Así también el problema de la precisión cuando tienen muchos ítems pero pocos ratings.

El CF basado en ítems parte haciendo algo similar a los esquemas basados en modelos. Esto es, calcular las similaridades entre los ítems y luego escoger los ítems más similares.

Para medir la similaridad proponen tres métodos: Cosine-based, Correlation-based y Adjusted-Cosine. De los cuales el último tiene mejor rendimiento (menor MAE). La gracia de este último es que regula la parcialidad de los ratings del usuario (ya sea pesimista, optimista, bi-modal, etc), versus el Correlation-based que regula los ratings del ítem en particular.

El gran aporte del paper es mostrar que es posible obtener muy buen rendimiento eligiendo pocos ítems similares.

Sin embargo, esto parece no aplicar cuando se trata de ambientes de gran interacción y generación de contenido. Pues espera que el set de ítems sea relativamente estático. Por ejemplo, esto no serviría para recomendar Tweets o, en un caso algo ridículo, acciones en la bolsa.

Tampoco queda claro si esto funcionaría para ítems nuevos (cold-start). Quizás se podrían aplicar medidas de similaridad en base a su contenido para soportar este tipo de casos, ya que son ítems. Podemos incluir, por ejemplo, similaridad de género musical en el caso de canciones o de precio y marca en un e-commerce. Una ventaja de esto versus una metodología user-based es que no tenemos que hacerle preguntas al usuario para poder encontrar similitudes 😄.

Patricio López J.

Comentarios sobre Item-Based CF